{"lm loss": 8.15614128, "grad_norm": 98.70095062, "learning_rate": 3.1e-07, "elapsed_time_per_iteration": 11.33664751, "memory(GiB)": 27.34, "elapsed_time": "11s", "remaining_time": "19h 59m 36s", "loss_scale": 1.0, "consumed_samples": 256, "global_step/max_steps": "1/6350"}
{"lm loss": 8.15508175, "grad_norm": 234.32559204, "learning_rate": 6.3e-07, "elapsed_time_per_iteration": 4.57246661, "memory(GiB)": 27.96, "elapsed_time": "15s", "remaining_time": "14h 1m 35s", "loss_scale": 1.0, "consumed_samples": 512, "global_step/max_steps": "2/6350"}
{"lm loss": 8.15570164, "grad_norm": 90.89330292, "learning_rate": 9.4e-07, "elapsed_time_per_iteration": 4.57415509, "memory(GiB)": 27.96, "elapsed_time": "20s", "remaining_time": "12h 2m 15s", "loss_scale": 1.0, "consumed_samples": 768, "global_step/max_steps": "3/6350"}
{"lm loss": 8.17554283, "grad_norm": 98.80695343, "learning_rate": 1.26e-06, "elapsed_time_per_iteration": 4.5295167, "memory(GiB)": 27.96, "elapsed_time": "25s", "remaining_time": "11h 1m 22s", "loss_scale": 1.0, "consumed_samples": 1024, "global_step/max_steps": "4/6350"}
{"lm loss": 8.14191628, "grad_norm": 89.42575836, "learning_rate": 1.57e-06, "elapsed_time_per_iteration": 4.60050035, "memory(GiB)": 27.97, "elapsed_time": "29s", "remaining_time": "10h 26m 19s", "loss_scale": 1.0, "consumed_samples": 1280, "global_step/max_steps": "5/6350"}
{"lm loss": 8.07924747, "grad_norm": 83.01355743, "learning_rate": 1.89e-06, "elapsed_time_per_iteration": 4.60632658, "memory(GiB)": 27.97, "elapsed_time": "34s", "remaining_time": "10h 3m 1s", "loss_scale": 1.0, "consumed_samples": 1536, "global_step/max_steps": "6/6350"}
{"lm loss": 7.95686483, "grad_norm": 64.10735321, "learning_rate": 2.2e-06, "elapsed_time_per_iteration": 4.59125352, "memory(GiB)": 27.97, "elapsed_time": "38s", "remaining_time": "9h 46m 8s", "loss_scale": 1.0, "consumed_samples": 1792, "global_step/max_steps": "7/6350"}
{"lm loss": 7.91012812, "grad_norm": 58.59062958, "learning_rate": 2.52e-06, "elapsed_time_per_iteration": 4.62247252, "memory(GiB)": 27.97, "elapsed_time": "43s", "remaining_time": "9h 33m 51s", "loss_scale": 1.0, "consumed_samples": 2048, "global_step/max_steps": "8/6350"}
{"lm loss": 7.67983675, "grad_norm": 26.73053551, "learning_rate": 2.83e-06, "elapsed_time_per_iteration": 4.62152719, "memory(GiB)": 27.97, "elapsed_time": "48s", "remaining_time": "9h 24m 17s", "loss_scale": 1.0, "consumed_samples": 2304, "global_step/max_steps": "9/6350"}
{"lm loss": 7.6868453, "grad_norm": 26.23334503, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.60239744, "memory(GiB)": 27.97, "elapsed_time": "52s", "remaining_time": "9h 16m 24s", "loss_scale": 1.0, "consumed_samples": 2560, "global_step/max_steps": "10/6350"}
{"lm loss": 7.63955212, "grad_norm": 21.61450195, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.70603848, "memory(GiB)": 27.97, "elapsed_time": "57s", "remaining_time": "9h 10m 56s", "loss_scale": 1.0, "consumed_samples": 2816, "global_step/max_steps": "11/6350"}
{"lm loss": 7.59499931, "grad_norm": 28.44207382, "learning_rate": 3.78e-06, "elapsed_time_per_iteration": 4.77782106, "memory(GiB)": 27.97, "elapsed_time": "1m 2s", "remaining_time": "9h 7m 0s", "loss_scale": 1.0, "consumed_samples": 3072, "global_step/max_steps": "12/6350"}
{"lm loss": 7.57517815, "grad_norm": 29.35876465, "learning_rate": 4.09e-06, "elapsed_time_per_iteration": 4.75958633, "memory(GiB)": 27.99, "elapsed_time": "1m 6s", "remaining_time": "9h 3m 31s", "loss_scale": 1.0, "consumed_samples": 3328, "global_step/max_steps": "13/6350"}
{"lm loss": 7.52581882, "grad_norm": 25.575634, "learning_rate": 4.41e-06, "elapsed_time_per_iteration": 4.75469208, "memory(GiB)": 27.99, "elapsed_time": "1m 11s", "remaining_time": "9h 0m 29s", "loss_scale": 1.0, "consumed_samples": 3584, "global_step/max_steps": "14/6350"}
{"lm loss": 7.53301811, "grad_norm": 23.94630623, "learning_rate": 4.72e-06, "elapsed_time_per_iteration": 4.69223356, "memory(GiB)": 27.99, "elapsed_time": "1m 16s", "remaining_time": "8h 57m 24s", "loss_scale": 1.0, "consumed_samples": 3840, "global_step/max_steps": "15/6350"}
{"lm loss": 7.39571905, "grad_norm": 13.82803631, "learning_rate": 5.04e-06, "elapsed_time_per_iteration": 4.71794677, "memory(GiB)": 27.99, "elapsed_time": "1m 21s", "remaining_time": "8h 54m 51s", "loss_scale": 1.0, "consumed_samples": 4096, "global_step/max_steps": "16/6350"}
{"lm loss": 7.34904385, "grad_norm": 12.26451874, "learning_rate": 5.35e-06, "elapsed_time_per_iteration": 4.70730925, "memory(GiB)": 27.99, "elapsed_time": "1m 25s", "remaining_time": "8h 52m 32s", "loss_scale": 1.0, "consumed_samples": 4352, "global_step/max_steps": "17/6350"}
{"lm loss": 7.29781532, "grad_norm": 10.7731266, "learning_rate": 5.67e-06, "elapsed_time_per_iteration": 4.74540758, "memory(GiB)": 27.99, "elapsed_time": "1m 30s", "remaining_time": "8h 50m 42s", "loss_scale": 1.0, "consumed_samples": 4608, "global_step/max_steps": "18/6350"}
{"lm loss": 7.27212524, "grad_norm": 9.38764191, "learning_rate": 5.98e-06, "elapsed_time_per_iteration": 4.68731952, "memory(GiB)": 27.99, "elapsed_time": "1m 35s", "remaining_time": "8h 48m 43s", "loss_scale": 1.0, "consumed_samples": 4864, "global_step/max_steps": "19/6350"}
{"lm loss": 7.24634457, "grad_norm": 8.52811718, "learning_rate": 6.3e-06, "elapsed_time_per_iteration": 4.72103143, "memory(GiB)": 27.99, "elapsed_time": "1m 39s", "remaining_time": "8h 47m 6s", "loss_scale": 1.0, "consumed_samples": 5120, "global_step/max_steps": "20/6350"}
{"lm loss": 7.20363712, "grad_norm": 7.71604872, "learning_rate": 6.61e-06, "elapsed_time_per_iteration": 4.6572113, "memory(GiB)": 27.99, "elapsed_time": "1m 44s", "remaining_time": "8h 45m 19s", "loss_scale": 1.0, "consumed_samples": 5376, "global_step/max_steps": "21/6350"}
{"lm loss": 7.15965319, "grad_norm": 7.85240698, "learning_rate": 6.93e-06, "elapsed_time_per_iteration": 6.29329133, "memory(GiB)": 27.99, "elapsed_time": "1m 50s", "remaining_time": "8h 51m 32s", "loss_scale": 1.0, "consumed_samples": 5632, "global_step/max_steps": "22/6350"}
{"lm loss": 7.11107874, "grad_norm": 7.22208548, "learning_rate": 7.24e-06, "elapsed_time_per_iteration": 4.82326865, "memory(GiB)": 27.99, "elapsed_time": "1m 55s", "remaining_time": "8h 50m 27s", "loss_scale": 1.0, "consumed_samples": 5888, "global_step/max_steps": "23/6350"}
{"lm loss": 7.04763031, "grad_norm": 7.07473135, "learning_rate": 7.56e-06, "elapsed_time_per_iteration": 4.75392842, "memory(GiB)": 27.99, "elapsed_time": "2m 0s", "remaining_time": "8h 49m 9s", "loss_scale": 1.0, "consumed_samples": 6144, "global_step/max_steps": "24/6350"}
{"lm loss": 7.03071833, "grad_norm": 6.55417871, "learning_rate": 7.87e-06, "elapsed_time_per_iteration": 4.70428514, "memory(GiB)": 27.99, "elapsed_time": "2m 5s", "remaining_time": "8h 47m 45s", "loss_scale": 1.0, "consumed_samples": 6400, "global_step/max_steps": "25/6350"}
{"lm loss": 6.98620558, "grad_norm": 5.98349953, "learning_rate": 8.19e-06, "elapsed_time_per_iteration": 4.69223046, "memory(GiB)": 27.99, "elapsed_time": "2m 9s", "remaining_time": "8h 46m 23s", "loss_scale": 1.0, "consumed_samples": 6656, "global_step/max_steps": "26/6350"}
{"lm loss": 6.97773027, "grad_norm": 46.18365097, "learning_rate": 8.5e-06, "elapsed_time_per_iteration": 4.70712471, "memory(GiB)": 27.99, "elapsed_time": "2m 14s", "remaining_time": "8h 45m 11s", "loss_scale": 1.0, "consumed_samples": 6912, "global_step/max_steps": "27/6350"}
{"lm loss": 6.93894625, "grad_norm": 6.29597378, "learning_rate": 8.82e-06, "elapsed_time_per_iteration": 4.71786952, "memory(GiB)": 27.99, "elapsed_time": "2m 19s", "remaining_time": "8h 44m 6s", "loss_scale": 1.0, "consumed_samples": 7168, "global_step/max_steps": "28/6350"}
{"lm loss": 6.92642927, "grad_norm": 5.40520763, "learning_rate": 9.13e-06, "elapsed_time_per_iteration": 4.76753926, "memory(GiB)": 27.99, "elapsed_time": "2m 24s", "remaining_time": "8h 43m 16s", "loss_scale": 1.0, "consumed_samples": 7424, "global_step/max_steps": "29/6350"}
{"lm loss": 6.90986443, "grad_norm": 4.54345369, "learning_rate": 9.45e-06, "elapsed_time_per_iteration": 4.74806619, "memory(GiB)": 27.99, "elapsed_time": "2m 28s", "remaining_time": "8h 42m 25s", "loss_scale": 1.0, "consumed_samples": 7680, "global_step/max_steps": "30/6350"}
{"lm loss": 6.85776234, "grad_norm": 4.58334875, "learning_rate": 9.76e-06, "elapsed_time_per_iteration": 4.68685412, "memory(GiB)": 27.99, "elapsed_time": "2m 33s", "remaining_time": "8h 41m 24s", "loss_scale": 1.0, "consumed_samples": 7936, "global_step/max_steps": "31/6350"}
{"lm loss": 6.84957504, "grad_norm": 4.18521166, "learning_rate": 1.008e-05, "elapsed_time_per_iteration": 4.71227765, "memory(GiB)": 27.99, "elapsed_time": "2m 38s", "remaining_time": "8h 40m 32s", "loss_scale": 1.0, "consumed_samples": 8192, "global_step/max_steps": "32/6350"}
{"lm loss": 6.81970119, "grad_norm": 3.75831389, "learning_rate": 1.039e-05, "elapsed_time_per_iteration": 4.73134017, "memory(GiB)": 27.99, "elapsed_time": "2m 42s", "remaining_time": "8h 39m 47s", "loss_scale": 1.0, "consumed_samples": 8448, "global_step/max_steps": "33/6350"}
{"lm loss": 6.79260969, "grad_norm": 3.36102915, "learning_rate": 1.071e-05, "elapsed_time_per_iteration": 4.69658494, "memory(GiB)": 27.99, "elapsed_time": "2m 47s", "remaining_time": "8h 38m 57s", "loss_scale": 1.0, "consumed_samples": 8704, "global_step/max_steps": "34/6350"}
{"lm loss": 6.76791143, "grad_norm": 3.01604271, "learning_rate": 1.102e-05, "elapsed_time_per_iteration": 4.713557, "memory(GiB)": 27.99, "elapsed_time": "2m 52s", "remaining_time": "8h 38m 13s", "loss_scale": 1.0, "consumed_samples": 8960, "global_step/max_steps": "35/6350"}
{"lm loss": 6.76943207, "grad_norm": 3.20773458, "learning_rate": 1.134e-05, "elapsed_time_per_iteration": 4.77083111, "memory(GiB)": 27.99, "elapsed_time": "2m 57s", "remaining_time": "8h 37m 41s", "loss_scale": 1.0, "consumed_samples": 9216, "global_step/max_steps": "36/6350"}
{"lm loss": 6.72455311, "grad_norm": 2.92138696, "learning_rate": 1.165e-05, "elapsed_time_per_iteration": 4.81275058, "memory(GiB)": 27.99, "elapsed_time": "3m 1s", "remaining_time": "8h 37m 18s", "loss_scale": 1.0, "consumed_samples": 9472, "global_step/max_steps": "37/6350"}
{"lm loss": 6.71443748, "grad_norm": 2.73513913, "learning_rate": 1.197e-05, "elapsed_time_per_iteration": 4.70388699, "memory(GiB)": 27.99, "elapsed_time": "3m 6s", "remaining_time": "8h 36m 38s", "loss_scale": 1.0, "consumed_samples": 9728, "global_step/max_steps": "38/6350"}
{"lm loss": 6.69629765, "grad_norm": 2.59959197, "learning_rate": 1.228e-05, "elapsed_time_per_iteration": 4.74301481, "memory(GiB)": 27.99, "elapsed_time": "3m 11s", "remaining_time": "8h 36m 6s", "loss_scale": 1.0, "consumed_samples": 9984, "global_step/max_steps": "39/6350"}
{"lm loss": 6.66140985, "grad_norm": 2.40976739, "learning_rate": 1.26e-05, "elapsed_time_per_iteration": 4.70301485, "memory(GiB)": 27.99, "elapsed_time": "3m 16s", "remaining_time": "8h 35m 29s", "loss_scale": 1.0, "consumed_samples": 10240, "global_step/max_steps": "40/6350"}
{"lm loss": 6.64545584, "grad_norm": 2.34312534, "learning_rate": 1.291e-05, "elapsed_time_per_iteration": 4.73320746, "memory(GiB)": 27.99, "elapsed_time": "3m 20s", "remaining_time": "8h 34m 58s", "loss_scale": 1.0, "consumed_samples": 10496, "global_step/max_steps": "41/6350"}
{"lm loss": 6.62313128, "grad_norm": 2.56490874, "learning_rate": 1.323e-05, "elapsed_time_per_iteration": 4.72910953, "memory(GiB)": 27.99, "elapsed_time": "3m 25s", "remaining_time": "8h 34m 28s", "loss_scale": 1.0, "consumed_samples": 10752, "global_step/max_steps": "42/6350"}
{"lm loss": 6.60759068, "grad_norm": 2.56619406, "learning_rate": 1.354e-05, "elapsed_time_per_iteration": 4.73233557, "memory(GiB)": 27.99, "elapsed_time": "3m 30s", "remaining_time": "8h 33m 59s", "loss_scale": 1.0, "consumed_samples": 11008, "global_step/max_steps": "43/6350"}
{"lm loss": 6.60850716, "grad_norm": 2.04353905, "learning_rate": 1.386e-05, "elapsed_time_per_iteration": 6.12712789, "memory(GiB)": 27.99, "elapsed_time": "3m 36s", "remaining_time": "8h 36m 52s", "loss_scale": 1.0, "consumed_samples": 11264, "global_step/max_steps": "44/6350"}
{"lm loss": 6.57861662, "grad_norm": 2.16746259, "learning_rate": 1.417e-05, "elapsed_time_per_iteration": 4.7171886, "memory(GiB)": 27.99, "elapsed_time": "3m 41s", "remaining_time": "8h 36m 19s", "loss_scale": 1.0, "consumed_samples": 11520, "global_step/max_steps": "45/6350"}
{"lm loss": 6.55332041, "grad_norm": 2.80249977, "learning_rate": 1.449e-05, "elapsed_time_per_iteration": 4.74018192, "memory(GiB)": 27.99, "elapsed_time": "3m 45s", "remaining_time": "8h 35m 50s", "loss_scale": 1.0, "consumed_samples": 11776, "global_step/max_steps": "46/6350"}
{"lm loss": 6.55078077, "grad_norm": 2.62179732, "learning_rate": 1.48e-05, "elapsed_time_per_iteration": 4.6758678, "memory(GiB)": 27.99, "elapsed_time": "3m 50s", "remaining_time": "8h 35m 14s", "loss_scale": 1.0, "consumed_samples": 12032, "global_step/max_steps": "47/6350"}
{"lm loss": 6.51281929, "grad_norm": 2.30419827, "learning_rate": 1.512e-05, "elapsed_time_per_iteration": 6.09925842, "memory(GiB)": 27.99, "elapsed_time": "3m 56s", "remaining_time": "8h 37m 46s", "loss_scale": 1.0, "consumed_samples": 12288, "global_step/max_steps": "48/6350"}
{"lm loss": 6.51547098, "grad_norm": 1.89504099, "learning_rate": 1.543e-05, "elapsed_time_per_iteration": 4.69991541, "memory(GiB)": 27.99, "elapsed_time": "4m 1s", "remaining_time": "8h 37m 11s", "loss_scale": 1.0, "consumed_samples": 12544, "global_step/max_steps": "49/6350"}
{"lm loss": 6.51633453, "grad_norm": 2.29585576, "learning_rate": 1.575e-05, "elapsed_time_per_iteration": 4.68785787, "memory(GiB)": 27.99, "elapsed_time": "4m 6s", "remaining_time": "8h 36m 36s", "loss_scale": 1.0, "consumed_samples": 12800, "global_step/max_steps": "50/6350"}
{"lm loss": 6.4757328, "grad_norm": 2.61063933, "learning_rate": 1.606e-05, "elapsed_time_per_iteration": 4.73682809, "memory(GiB)": 27.99, "elapsed_time": "4m 10s", "remaining_time": "8h 36m 9s", "loss_scale": 1.0, "consumed_samples": 13056, "global_step/max_steps": "51/6350"}
{"lm loss": 6.46511316, "grad_norm": 2.58034492, "learning_rate": 1.638e-05, "elapsed_time_per_iteration": 6.25896525, "memory(GiB)": 27.99, "elapsed_time": "4m 17s", "remaining_time": "8h 38m 47s", "loss_scale": 1.0, "consumed_samples": 13312, "global_step/max_steps": "52/6350"}
{"lm loss": 6.45828342, "grad_norm": 2.6890521, "learning_rate": 1.669e-05, "elapsed_time_per_iteration": 4.68239141, "memory(GiB)": 27.99, "elapsed_time": "4m 21s", "remaining_time": "8h 38m 11s", "loss_scale": 1.0, "consumed_samples": 13568, "global_step/max_steps": "53/6350"}
{"lm loss": 6.44918013, "grad_norm": 2.46499109, "learning_rate": 1.701e-05, "elapsed_time_per_iteration": 4.71044993, "memory(GiB)": 27.99, "elapsed_time": "4m 26s", "remaining_time": "8h 37m 39s", "loss_scale": 1.0, "consumed_samples": 13824, "global_step/max_steps": "54/6350"}
{"lm loss": 6.42043114, "grad_norm": 2.52369261, "learning_rate": 1.732e-05, "elapsed_time_per_iteration": 6.06764793, "memory(GiB)": 27.99, "elapsed_time": "4m 32s", "remaining_time": "8h 39m 44s", "loss_scale": 1.0, "consumed_samples": 14080, "global_step/max_steps": "55/6350"}
{"lm loss": 6.430439, "grad_norm": 2.31383252, "learning_rate": 1.764e-05, "elapsed_time_per_iteration": 4.72755694, "memory(GiB)": 27.99, "elapsed_time": "4m 37s", "remaining_time": "8h 39m 14s", "loss_scale": 1.0, "consumed_samples": 14336, "global_step/max_steps": "56/6350"}
{"lm loss": 6.40440464, "grad_norm": 3.07139301, "learning_rate": 1.795e-05, "elapsed_time_per_iteration": 4.85101342, "memory(GiB)": 27.99, "elapsed_time": "4m 42s", "remaining_time": "8h 38m 58s", "loss_scale": 1.0, "consumed_samples": 14592, "global_step/max_steps": "57/6350"}
{"lm loss": 6.39463663, "grad_norm": 2.38278461, "learning_rate": 1.827e-05, "elapsed_time_per_iteration": 4.70132709, "memory(GiB)": 27.99, "elapsed_time": "4m 46s", "remaining_time": "8h 38m 26s", "loss_scale": 1.0, "consumed_samples": 14848, "global_step/max_steps": "58/6350"}
{"lm loss": 6.3801198, "grad_norm": 2.65246773, "learning_rate": 1.858e-05, "elapsed_time_per_iteration": 4.75658989, "memory(GiB)": 27.99, "elapsed_time": "4m 51s", "remaining_time": "8h 38m 1s", "loss_scale": 1.0, "consumed_samples": 15104, "global_step/max_steps": "59/6350"}
{"lm loss": 6.3762784, "grad_norm": 2.51166606, "learning_rate": 1.89e-05, "elapsed_time_per_iteration": 4.72591376, "memory(GiB)": 27.99, "elapsed_time": "4m 56s", "remaining_time": "8h 37m 34s", "loss_scale": 1.0, "consumed_samples": 15360, "global_step/max_steps": "60/6350"}
{"lm loss": 6.36159611, "grad_norm": 2.27228165, "learning_rate": 1.921e-05, "elapsed_time_per_iteration": 4.73235559, "memory(GiB)": 27.99, "elapsed_time": "5m 0s", "remaining_time": "8h 37m 8s", "loss_scale": 1.0, "consumed_samples": 15616, "global_step/max_steps": "61/6350"}
{"lm loss": 6.34872532, "grad_norm": 2.73946714, "learning_rate": 1.953e-05, "elapsed_time_per_iteration": 4.74280143, "memory(GiB)": 27.99, "elapsed_time": "5m 5s", "remaining_time": "8h 36m 44s", "loss_scale": 1.0, "consumed_samples": 15872, "global_step/max_steps": "62/6350"}
{"lm loss": 6.3485136, "grad_norm": 2.5268054, "learning_rate": 1.984e-05, "elapsed_time_per_iteration": 4.73872757, "memory(GiB)": 27.99, "elapsed_time": "5m 10s", "remaining_time": "8h 36m 19s", "loss_scale": 1.0, "consumed_samples": 16128, "global_step/max_steps": "63/6350"}
{"lm loss": 6.32811213, "grad_norm": 2.91115975, "learning_rate": 2.016e-05, "elapsed_time_per_iteration": 4.70028496, "memory(GiB)": 27.99, "elapsed_time": "5m 15s", "remaining_time": "8h 35m 52s", "loss_scale": 1.0, "consumed_samples": 16384, "global_step/max_steps": "64/6350"}
{"lm loss": 6.32616425, "grad_norm": 2.84859371, "learning_rate": 2.047e-05, "elapsed_time_per_iteration": 4.73752594, "memory(GiB)": 27.99, "elapsed_time": "5m 19s", "remaining_time": "8h 35m 29s", "loss_scale": 1.0, "consumed_samples": 16640, "global_step/max_steps": "65/6350"}
{"lm loss": 6.29442835, "grad_norm": 2.10234594, "learning_rate": 2.079e-05, "elapsed_time_per_iteration": 4.76364088, "memory(GiB)": 27.99, "elapsed_time": "5m 24s", "remaining_time": "8h 35m 9s", "loss_scale": 1.0, "consumed_samples": 16896, "global_step/max_steps": "66/6350"}
{"lm loss": 6.31915617, "grad_norm": 2.91526031, "learning_rate": 2.11e-05, "elapsed_time_per_iteration": 4.75663257, "memory(GiB)": 27.99, "elapsed_time": "5m 29s", "remaining_time": "8h 34m 49s", "loss_scale": 1.0, "consumed_samples": 17152, "global_step/max_steps": "67/6350"}
{"lm loss": 6.29843426, "grad_norm": 2.16239119, "learning_rate": 2.142e-05, "elapsed_time_per_iteration": 4.73319578, "memory(GiB)": 27.99, "elapsed_time": "5m 34s", "remaining_time": "8h 34m 27s", "loss_scale": 1.0, "consumed_samples": 17408, "global_step/max_steps": "68/6350"}
{"lm loss": 6.2942214, "grad_norm": 3.03333449, "learning_rate": 2.173e-05, "elapsed_time_per_iteration": 4.74326944, "memory(GiB)": 27.99, "elapsed_time": "5m 38s", "remaining_time": "8h 34m 7s", "loss_scale": 1.0, "consumed_samples": 17664, "global_step/max_steps": "69/6350"}
{"lm loss": 6.27390051, "grad_norm": 2.68939495, "learning_rate": 2.205e-05, "elapsed_time_per_iteration": 4.72704959, "memory(GiB)": 27.99, "elapsed_time": "5m 43s", "remaining_time": "8h 33m 45s", "loss_scale": 1.0, "consumed_samples": 17920, "global_step/max_steps": "70/6350"}
{"lm loss": 6.27810049, "grad_norm": 2.80270338, "learning_rate": 2.236e-05, "elapsed_time_per_iteration": 4.71777296, "memory(GiB)": 27.99, "elapsed_time": "5m 48s", "remaining_time": "8h 33m 24s", "loss_scale": 1.0, "consumed_samples": 18176, "global_step/max_steps": "71/6350"}
{"lm loss": 6.25876379, "grad_norm": 3.40318704, "learning_rate": 2.268e-05, "elapsed_time_per_iteration": 5.87927628, "memory(GiB)": 27.99, "elapsed_time": "5m 54s", "remaining_time": "8h 34m 44s", "loss_scale": 1.0, "consumed_samples": 18432, "global_step/max_steps": "72/6350"}
{"lm loss": 6.25867176, "grad_norm": 3.26807928, "learning_rate": 2.299e-05, "elapsed_time_per_iteration": 4.76882291, "memory(GiB)": 27.99, "elapsed_time": "5m 58s", "remaining_time": "8h 34m 26s", "loss_scale": 1.0, "consumed_samples": 18688, "global_step/max_steps": "73/6350"}
{"lm loss": 6.25045967, "grad_norm": 3.18364906, "learning_rate": 2.331e-05, "elapsed_time_per_iteration": 4.70966721, "memory(GiB)": 27.99, "elapsed_time": "6m 3s", "remaining_time": "8h 34m 3s", "loss_scale": 1.0, "consumed_samples": 18944, "global_step/max_steps": "74/6350"}
{"lm loss": 6.25971985, "grad_norm": 3.045753, "learning_rate": 2.362e-05, "elapsed_time_per_iteration": 4.71506071, "memory(GiB)": 27.99, "elapsed_time": "6m 8s", "remaining_time": "8h 33m 42s", "loss_scale": 1.0, "consumed_samples": 19200, "global_step/max_steps": "75/6350"}
{"lm loss": 6.22812271, "grad_norm": 2.89778519, "learning_rate": 2.394e-05, "elapsed_time_per_iteration": 4.8178966, "memory(GiB)": 27.99, "elapsed_time": "6m 13s", "remaining_time": "8h 33m 29s", "loss_scale": 1.0, "consumed_samples": 19456, "global_step/max_steps": "76/6350"}
{"lm loss": 6.23035002, "grad_norm": 3.32826853, "learning_rate": 2.425e-05, "elapsed_time_per_iteration": 4.73723078, "memory(GiB)": 27.99, "elapsed_time": "6m 17s", "remaining_time": "8h 33m 10s", "loss_scale": 1.0, "consumed_samples": 19712, "global_step/max_steps": "77/6350"}
{"lm loss": 6.23674822, "grad_norm": 2.56929874, "learning_rate": 2.457e-05, "elapsed_time_per_iteration": 4.70958352, "memory(GiB)": 27.99, "elapsed_time": "6m 22s", "remaining_time": "8h 32m 49s", "loss_scale": 1.0, "consumed_samples": 19968, "global_step/max_steps": "78/6350"}
{"lm loss": 6.22443104, "grad_norm": 4.75562906, "learning_rate": 2.488e-05, "elapsed_time_per_iteration": 4.70422268, "memory(GiB)": 27.99, "elapsed_time": "6m 27s", "remaining_time": "8h 32m 28s", "loss_scale": 1.0, "consumed_samples": 20224, "global_step/max_steps": "79/6350"}
{"lm loss": 6.21280813, "grad_norm": 2.91634607, "learning_rate": 2.52e-05, "elapsed_time_per_iteration": 4.88869786, "memory(GiB)": 27.99, "elapsed_time": "6m 32s", "remaining_time": "8h 32m 22s", "loss_scale": 1.0, "consumed_samples": 20480, "global_step/max_steps": "80/6350"}
{"lm loss": 6.21703148, "grad_norm": 3.82114172, "learning_rate": 2.551e-05, "elapsed_time_per_iteration": 4.7197063, "memory(GiB)": 27.99, "elapsed_time": "6m 36s", "remaining_time": "8h 32m 3s", "loss_scale": 1.0, "consumed_samples": 20736, "global_step/max_steps": "81/6350"}
{"lm loss": 6.19817257, "grad_norm": 3.5902884, "learning_rate": 2.583e-05, "elapsed_time_per_iteration": 4.75497508, "memory(GiB)": 27.99, "elapsed_time": "6m 41s", "remaining_time": "8h 31m 47s", "loss_scale": 1.0, "consumed_samples": 20992, "global_step/max_steps": "82/6350"}
{"lm loss": 6.19146013, "grad_norm": 3.92384768, "learning_rate": 2.614e-05, "elapsed_time_per_iteration": 4.69255757, "memory(GiB)": 27.99, "elapsed_time": "6m 46s", "remaining_time": "8h 31m 26s", "loss_scale": 1.0, "consumed_samples": 21248, "global_step/max_steps": "83/6350"}
{"lm loss": 6.17056084, "grad_norm": 2.4180057, "learning_rate": 2.646e-05, "elapsed_time_per_iteration": 4.73538303, "memory(GiB)": 27.99, "elapsed_time": "6m 51s", "remaining_time": "8h 31m 10s", "loss_scale": 1.0, "consumed_samples": 21504, "global_step/max_steps": "84/6350"}
{"lm loss": 6.17589474, "grad_norm": 4.75094461, "learning_rate": 2.677e-05, "elapsed_time_per_iteration": 4.77780175, "memory(GiB)": 27.99, "elapsed_time": "6m 55s", "remaining_time": "8h 30m 56s", "loss_scale": 1.0, "consumed_samples": 21760, "global_step/max_steps": "85/6350"}
{"lm loss": 6.18397236, "grad_norm": 3.1963079, "learning_rate": 2.709e-05, "elapsed_time_per_iteration": 4.73799443, "memory(GiB)": 27.99, "elapsed_time": "7m 0s", "remaining_time": "8h 30m 40s", "loss_scale": 1.0, "consumed_samples": 22016, "global_step/max_steps": "86/6350"}
{"lm loss": 6.17550707, "grad_norm": 3.32303405, "learning_rate": 2.74e-05, "elapsed_time_per_iteration": 4.71501279, "memory(GiB)": 27.99, "elapsed_time": "7m 5s", "remaining_time": "8h 30m 22s", "loss_scale": 1.0, "consumed_samples": 22272, "global_step/max_steps": "87/6350"}
{"lm loss": 6.16045141, "grad_norm": 4.54072475, "learning_rate": 2.772e-05, "elapsed_time_per_iteration": 4.71655512, "memory(GiB)": 27.99, "elapsed_time": "7m 10s", "remaining_time": "8h 30m 5s", "loss_scale": 1.0, "consumed_samples": 22528, "global_step/max_steps": "88/6350"}
{"lm loss": 6.14198256, "grad_norm": 2.32795525, "learning_rate": 2.803e-05, "elapsed_time_per_iteration": 4.74547386, "memory(GiB)": 27.99, "elapsed_time": "7m 14s", "remaining_time": "8h 29m 50s", "loss_scale": 1.0, "consumed_samples": 22784, "global_step/max_steps": "89/6350"}
{"lm loss": 6.17857456, "grad_norm": 5.44973278, "learning_rate": 2.835e-05, "elapsed_time_per_iteration": 4.69437957, "memory(GiB)": 27.99, "elapsed_time": "7m 19s", "remaining_time": "8h 29m 32s", "loss_scale": 1.0, "consumed_samples": 23040, "global_step/max_steps": "90/6350"}
{"lm loss": 6.17847061, "grad_norm": 4.07916021, "learning_rate": 2.866e-05, "elapsed_time_per_iteration": 4.69791484, "memory(GiB)": 27.99, "elapsed_time": "7m 24s", "remaining_time": "8h 29m 14s", "loss_scale": 1.0, "consumed_samples": 23296, "global_step/max_steps": "91/6350"}
{"lm loss": 6.15223598, "grad_norm": 4.07954502, "learning_rate": 2.898e-05, "elapsed_time_per_iteration": 4.69550204, "memory(GiB)": 27.99, "elapsed_time": "7m 28s", "remaining_time": "8h 28m 57s", "loss_scale": 1.0, "consumed_samples": 23552, "global_step/max_steps": "92/6350"}
{"lm loss": 6.14703465, "grad_norm": 3.01444793, "learning_rate": 2.929e-05, "elapsed_time_per_iteration": 4.76442122, "memory(GiB)": 27.99, "elapsed_time": "7m 33s", "remaining_time": "8h 28m 44s", "loss_scale": 1.0, "consumed_samples": 23808, "global_step/max_steps": "93/6350"}
{"lm loss": 6.14194298, "grad_norm": 4.1118865, "learning_rate": 2.961e-05, "elapsed_time_per_iteration": 4.77025867, "memory(GiB)": 27.99, "elapsed_time": "7m 38s", "remaining_time": "8h 28m 32s", "loss_scale": 1.0, "consumed_samples": 24064, "global_step/max_steps": "94/6350"}
{"lm loss": 6.12880993, "grad_norm": 4.43804979, "learning_rate": 2.992e-05, "elapsed_time_per_iteration": 4.75041652, "memory(GiB)": 27.99, "elapsed_time": "7m 43s", "remaining_time": "8h 28m 19s", "loss_scale": 1.0, "consumed_samples": 24320, "global_step/max_steps": "95/6350"}
{"lm loss": 6.12833929, "grad_norm": 2.92005754, "learning_rate": 3.024e-05, "elapsed_time_per_iteration": 4.72134686, "memory(GiB)": 27.99, "elapsed_time": "7m 47s", "remaining_time": "8h 28m 4s", "loss_scale": 1.0, "consumed_samples": 24576, "global_step/max_steps": "96/6350"}
{"lm loss": 6.1316967, "grad_norm": 3.49822831, "learning_rate": 3.055e-05, "elapsed_time_per_iteration": 4.76119637, "memory(GiB)": 27.99, "elapsed_time": "7m 52s", "remaining_time": "8h 27m 52s", "loss_scale": 1.0, "consumed_samples": 24832, "global_step/max_steps": "97/6350"}
{"lm loss": 6.13035536, "grad_norm": 3.64191771, "learning_rate": 3.087e-05, "elapsed_time_per_iteration": 4.82066083, "memory(GiB)": 27.99, "elapsed_time": "7m 57s", "remaining_time": "8h 27m 43s", "loss_scale": 1.0, "consumed_samples": 25088, "global_step/max_steps": "98/6350"}
{"lm loss": 6.09852743, "grad_norm": 3.94815183, "learning_rate": 3.118e-05, "elapsed_time_per_iteration": 5.40143347, "memory(GiB)": 27.99, "elapsed_time": "8m 2s", "remaining_time": "8h 28m 12s", "loss_scale": 1.0, "consumed_samples": 25344, "global_step/max_steps": "99/6350"}
{"lm loss": 6.11041451, "grad_norm": 4.04286289, "learning_rate": 3.15e-05, "elapsed_time_per_iteration": 4.75736618, "memory(GiB)": 27.99, "elapsed_time": "8m 7s", "remaining_time": "8h 28m 0s", "loss_scale": 1.0, "consumed_samples": 25600, "global_step/max_steps": "100/6350"}
{"lm loss": 6.11516666, "grad_norm": 3.50954604, "learning_rate": 3.181e-05, "elapsed_time_per_iteration": 4.69387436, "memory(GiB)": 27.99, "elapsed_time": "8m 12s", "remaining_time": "8h 27m 43s", "loss_scale": 1.0, "consumed_samples": 25856, "global_step/max_steps": "101/6350"}
{"lm loss": 6.08047009, "grad_norm": 3.46317673, "learning_rate": 3.213e-05, "elapsed_time_per_iteration": 5.48560357, "memory(GiB)": 27.99, "elapsed_time": "8m 17s", "remaining_time": "8h 28m 16s", "loss_scale": 1.0, "consumed_samples": 26112, "global_step/max_steps": "102/6350"}
{"lm loss": 6.09976673, "grad_norm": 4.80369186, "learning_rate": 3.244e-05, "elapsed_time_per_iteration": 4.7133882, "memory(GiB)": 27.99, "elapsed_time": "8m 22s", "remaining_time": "8h 28m 1s", "loss_scale": 1.0, "consumed_samples": 26368, "global_step/max_steps": "103/6350"}
{"lm loss": 6.0945673, "grad_norm": 2.80365419, "learning_rate": 3.276e-05, "elapsed_time_per_iteration": 4.7665751, "memory(GiB)": 27.99, "elapsed_time": "8m 27s", "remaining_time": "8h 27m 49s", "loss_scale": 1.0, "consumed_samples": 26624, "global_step/max_steps": "104/6350"}
{"lm loss": 6.07701874, "grad_norm": 5.26089144, "learning_rate": 3.307e-05, "elapsed_time_per_iteration": 4.69332433, "memory(GiB)": 27.99, "elapsed_time": "8m 32s", "remaining_time": "8h 27m 33s", "loss_scale": 1.0, "consumed_samples": 26880, "global_step/max_steps": "105/6350"}
{"lm loss": 6.07712364, "grad_norm": 2.80688167, "learning_rate": 3.339e-05, "elapsed_time_per_iteration": 4.70655465, "memory(GiB)": 27.99, "elapsed_time": "8m 36s", "remaining_time": "8h 27m 18s", "loss_scale": 1.0, "consumed_samples": 27136, "global_step/max_steps": "106/6350"}
{"lm loss": 6.07725334, "grad_norm": 3.98676825, "learning_rate": 3.37e-05, "elapsed_time_per_iteration": 4.66896725, "memory(GiB)": 27.99, "elapsed_time": "8m 41s", "remaining_time": "8h 27m 2s", "loss_scale": 1.0, "consumed_samples": 27392, "global_step/max_steps": "107/6350"}
{"lm loss": 6.09977865, "grad_norm": 3.63928986, "learning_rate": 3.402e-05, "elapsed_time_per_iteration": 4.66818142, "memory(GiB)": 27.99, "elapsed_time": "8m 46s", "remaining_time": "8h 26m 45s", "loss_scale": 1.0, "consumed_samples": 27648, "global_step/max_steps": "108/6350"}
{"lm loss": 6.07184553, "grad_norm": 3.52890396, "learning_rate": 3.433e-05, "elapsed_time_per_iteration": 5.57331872, "memory(GiB)": 27.99, "elapsed_time": "8m 51s", "remaining_time": "8h 27m 20s", "loss_scale": 1.0, "consumed_samples": 27904, "global_step/max_steps": "109/6350"}
{"lm loss": 6.06425953, "grad_norm": 3.39248276, "learning_rate": 3.465e-05, "elapsed_time_per_iteration": 4.73614621, "memory(GiB)": 27.99, "elapsed_time": "8m 56s", "remaining_time": "8h 27m 7s", "loss_scale": 1.0, "consumed_samples": 28160, "global_step/max_steps": "110/6350"}
{"lm loss": 6.06746387, "grad_norm": 5.367033, "learning_rate": 3.496e-05, "elapsed_time_per_iteration": 5.51272988, "memory(GiB)": 27.99, "elapsed_time": "9m 1s", "remaining_time": "8h 27m 38s", "loss_scale": 1.0, "consumed_samples": 28416, "global_step/max_steps": "111/6350"}
{"lm loss": 6.03992319, "grad_norm": 3.308954, "learning_rate": 3.528e-05, "elapsed_time_per_iteration": 5.56501222, "memory(GiB)": 27.99, "elapsed_time": "9m 7s", "remaining_time": "8h 28m 11s", "loss_scale": 1.0, "consumed_samples": 28672, "global_step/max_steps": "112/6350"}
{"lm loss": 6.04903269, "grad_norm": 4.00951767, "learning_rate": 3.559e-05, "elapsed_time_per_iteration": 4.74209619, "memory(GiB)": 27.99, "elapsed_time": "9m 12s", "remaining_time": "8h 27m 58s", "loss_scale": 1.0, "consumed_samples": 28928, "global_step/max_steps": "113/6350"}
{"lm loss": 6.05551434, "grad_norm": 3.55828953, "learning_rate": 3.591e-05, "elapsed_time_per_iteration": 4.70139551, "memory(GiB)": 27.99, "elapsed_time": "9m 16s", "remaining_time": "8h 27m 43s", "loss_scale": 1.0, "consumed_samples": 29184, "global_step/max_steps": "114/6350"}
{"lm loss": 6.0445466, "grad_norm": 4.06406355, "learning_rate": 3.622e-05, "elapsed_time_per_iteration": 5.52591085, "memory(GiB)": 27.99, "elapsed_time": "9m 22s", "remaining_time": "8h 28m 13s", "loss_scale": 1.0, "consumed_samples": 29440, "global_step/max_steps": "115/6350"}
{"lm loss": 6.03646946, "grad_norm": 2.42513394, "learning_rate": 3.654e-05, "elapsed_time_per_iteration": 4.71489191, "memory(GiB)": 27.99, "elapsed_time": "9m 27s", "remaining_time": "8h 27m 59s", "loss_scale": 1.0, "consumed_samples": 29696, "global_step/max_steps": "116/6350"}
{"lm loss": 6.03814793, "grad_norm": 4.6596036, "learning_rate": 3.685e-05, "elapsed_time_per_iteration": 4.69719243, "memory(GiB)": 27.99, "elapsed_time": "9m 31s", "remaining_time": "8h 27m 44s", "loss_scale": 1.0, "consumed_samples": 29952, "global_step/max_steps": "117/6350"}
{"lm loss": 6.02713299, "grad_norm": 3.80400538, "learning_rate": 3.717e-05, "elapsed_time_per_iteration": 4.66354251, "memory(GiB)": 27.99, "elapsed_time": "9m 36s", "remaining_time": "8h 27m 27s", "loss_scale": 1.0, "consumed_samples": 30208, "global_step/max_steps": "118/6350"}
{"lm loss": 6.02612448, "grad_norm": 3.38037848, "learning_rate": 3.748e-05, "elapsed_time_per_iteration": 4.7092855, "memory(GiB)": 27.99, "elapsed_time": "9m 41s", "remaining_time": "8h 27m 13s", "loss_scale": 1.0, "consumed_samples": 30464, "global_step/max_steps": "119/6350"}
{"lm loss": 6.0533061, "grad_norm": 5.78492641, "learning_rate": 3.78e-05, "elapsed_time_per_iteration": 4.65452862, "memory(GiB)": 27.99, "elapsed_time": "9m 45s", "remaining_time": "8h 26m 56s", "loss_scale": 1.0, "consumed_samples": 30720, "global_step/max_steps": "120/6350"}
{"lm loss": 6.01905775, "grad_norm": 3.59404159, "learning_rate": 3.811e-05, "elapsed_time_per_iteration": 4.71783733, "memory(GiB)": 27.99, "elapsed_time": "9m 50s", "remaining_time": "8h 26m 43s", "loss_scale": 1.0, "consumed_samples": 30976, "global_step/max_steps": "121/6350"}
{"lm loss": 6.04037333, "grad_norm": 5.16073656, "learning_rate": 3.843e-05, "elapsed_time_per_iteration": 4.79019737, "memory(GiB)": 27.99, "elapsed_time": "9m 55s", "remaining_time": "8h 26m 33s", "loss_scale": 1.0, "consumed_samples": 31232, "global_step/max_steps": "122/6350"}
{"lm loss": 6.00890303, "grad_norm": 3.55256438, "learning_rate": 3.874e-05, "elapsed_time_per_iteration": 4.79190207, "memory(GiB)": 27.99, "elapsed_time": "10m 0s", "remaining_time": "8h 26m 24s", "loss_scale": 1.0, "consumed_samples": 31488, "global_step/max_steps": "123/6350"}
{"lm loss": 6.01348162, "grad_norm": 4.9214077, "learning_rate": 3.906e-05, "elapsed_time_per_iteration": 5.70742345, "memory(GiB)": 27.99, "elapsed_time": "10m 5s", "remaining_time": "8h 27m 1s", "loss_scale": 1.0, "consumed_samples": 31744, "global_step/max_steps": "124/6350"}
{"lm loss": 6.00719786, "grad_norm": 3.51494551, "learning_rate": 3.937e-05, "elapsed_time_per_iteration": 4.71069646, "memory(GiB)": 27.99, "elapsed_time": "10m 10s", "remaining_time": "8h 26m 47s", "loss_scale": 1.0, "consumed_samples": 32000, "global_step/max_steps": "125/6350"}
{"lm loss": 5.99422598, "grad_norm": 6.86392975, "learning_rate": 3.969e-05, "elapsed_time_per_iteration": 4.7621429, "memory(GiB)": 27.99, "elapsed_time": "10m 15s", "remaining_time": "8h 26m 36s", "loss_scale": 1.0, "consumed_samples": 32256, "global_step/max_steps": "126/6350"}
{"lm loss": 5.99597836, "grad_norm": 4.24746943, "learning_rate": 4e-05, "elapsed_time_per_iteration": 4.73941326, "memory(GiB)": 27.99, "elapsed_time": "10m 20s", "remaining_time": "8h 26m 24s", "loss_scale": 1.0, "consumed_samples": 32512, "global_step/max_steps": "127/6350"}
{"lm loss": 5.99754667, "grad_norm": 4.89053679, "learning_rate": 4.031e-05, "elapsed_time_per_iteration": 4.68646359, "memory(GiB)": 27.99, "elapsed_time": "10m 24s", "remaining_time": "8h 26m 10s", "loss_scale": 1.0, "consumed_samples": 32768, "global_step/max_steps": "128/6350"}
{"lm loss": 6.01417446, "grad_norm": 6.43002748, "learning_rate": 4.063e-05, "elapsed_time_per_iteration": 4.74221206, "memory(GiB)": 27.99, "elapsed_time": "10m 29s", "remaining_time": "8h 25m 58s", "loss_scale": 1.0, "consumed_samples": 33024, "global_step/max_steps": "129/6350"}
{"lm loss": 5.99159241, "grad_norm": 2.68178725, "learning_rate": 4.094e-05, "elapsed_time_per_iteration": 4.70541549, "memory(GiB)": 27.99, "elapsed_time": "10m 34s", "remaining_time": "8h 25m 45s", "loss_scale": 1.0, "consumed_samples": 33280, "global_step/max_steps": "130/6350"}
{"lm loss": 5.99347734, "grad_norm": 6.71375751, "learning_rate": 4.126e-05, "elapsed_time_per_iteration": 4.71697211, "memory(GiB)": 27.99, "elapsed_time": "10m 38s", "remaining_time": "8h 25m 32s", "loss_scale": 1.0, "consumed_samples": 33536, "global_step/max_steps": "131/6350"}
{"lm loss": 6.01035738, "grad_norm": 5.21870613, "learning_rate": 4.157e-05, "elapsed_time_per_iteration": 4.75430298, "memory(GiB)": 27.99, "elapsed_time": "10m 43s", "remaining_time": "8h 25m 22s", "loss_scale": 1.0, "consumed_samples": 33792, "global_step/max_steps": "132/6350"}
{"lm loss": 5.97885036, "grad_norm": 4.82801485, "learning_rate": 4.189e-05, "elapsed_time_per_iteration": 4.73639297, "memory(GiB)": 27.99, "elapsed_time": "10m 48s", "remaining_time": "8h 25m 10s", "loss_scale": 1.0, "consumed_samples": 34048, "global_step/max_steps": "133/6350"}
{"lm loss": 5.98323631, "grad_norm": 4.37293863, "learning_rate": 4.22e-05, "elapsed_time_per_iteration": 4.6920383, "memory(GiB)": 27.99, "elapsed_time": "10m 53s", "remaining_time": "8h 24m 57s", "loss_scale": 1.0, "consumed_samples": 34304, "global_step/max_steps": "134/6350"}
{"lm loss": 5.98960972, "grad_norm": 4.85291672, "learning_rate": 4.252e-05, "elapsed_time_per_iteration": 4.75346851, "memory(GiB)": 27.99, "elapsed_time": "10m 57s", "remaining_time": "8h 24m 46s", "loss_scale": 1.0, "consumed_samples": 34560, "global_step/max_steps": "135/6350"}
{"lm loss": 5.9798646, "grad_norm": 3.20282078, "learning_rate": 4.283e-05, "elapsed_time_per_iteration": 4.71685743, "memory(GiB)": 27.99, "elapsed_time": "11m 2s", "remaining_time": "8h 24m 34s", "loss_scale": 1.0, "consumed_samples": 34816, "global_step/max_steps": "136/6350"}
{"lm loss": 5.96630478, "grad_norm": 4.91439724, "learning_rate": 4.315e-05, "elapsed_time_per_iteration": 4.71541882, "memory(GiB)": 27.99, "elapsed_time": "11m 7s", "remaining_time": "8h 24m 22s", "loss_scale": 1.0, "consumed_samples": 35072, "global_step/max_steps": "137/6350"}
{"lm loss": 5.96955252, "grad_norm": 3.59582615, "learning_rate": 4.346e-05, "elapsed_time_per_iteration": 4.72340941, "memory(GiB)": 27.99, "elapsed_time": "11m 12s", "remaining_time": "8h 24m 11s", "loss_scale": 1.0, "consumed_samples": 35328, "global_step/max_steps": "138/6350"}
{"lm loss": 5.94765234, "grad_norm": 5.24136829, "learning_rate": 4.378e-05, "elapsed_time_per_iteration": 4.66258168, "memory(GiB)": 27.99, "elapsed_time": "11m 16s", "remaining_time": "8h 23m 57s", "loss_scale": 1.0, "consumed_samples": 35584, "global_step/max_steps": "139/6350"}
{"lm loss": 5.95311928, "grad_norm": 4.05779266, "learning_rate": 4.409e-05, "elapsed_time_per_iteration": 4.68511963, "memory(GiB)": 27.99, "elapsed_time": "11m 21s", "remaining_time": "8h 23m 44s", "loss_scale": 1.0, "consumed_samples": 35840, "global_step/max_steps": "140/6350"}
{"lm loss": 5.95366716, "grad_norm": 5.57970619, "learning_rate": 4.441e-05, "elapsed_time_per_iteration": 4.71807384, "memory(GiB)": 27.99, "elapsed_time": "11m 26s", "remaining_time": "8h 23m 32s", "loss_scale": 1.0, "consumed_samples": 36096, "global_step/max_steps": "141/6350"}
{"lm loss": 5.94802046, "grad_norm": 3.04354811, "learning_rate": 4.472e-05, "elapsed_time_per_iteration": 4.67674971, "memory(GiB)": 27.99, "elapsed_time": "11m 30s", "remaining_time": "8h 23m 19s", "loss_scale": 1.0, "consumed_samples": 36352, "global_step/max_steps": "142/6350"}
{"lm loss": 5.94509506, "grad_norm": 4.97167635, "learning_rate": 4.504e-05, "elapsed_time_per_iteration": 4.72495103, "memory(GiB)": 27.99, "elapsed_time": "11m 35s", "remaining_time": "8h 23m 8s", "loss_scale": 1.0, "consumed_samples": 36608, "global_step/max_steps": "143/6350"}
{"lm loss": 5.94519424, "grad_norm": 3.47036457, "learning_rate": 4.535e-05, "elapsed_time_per_iteration": 4.76082921, "memory(GiB)": 27.99, "elapsed_time": "11m 40s", "remaining_time": "8h 22m 59s", "loss_scale": 1.0, "consumed_samples": 36864, "global_step/max_steps": "144/6350"}
{"lm loss": 5.95380449, "grad_norm": 3.85506177, "learning_rate": 4.567e-05, "elapsed_time_per_iteration": 4.68454671, "memory(GiB)": 27.99, "elapsed_time": "11m 44s", "remaining_time": "8h 22m 46s", "loss_scale": 1.0, "consumed_samples": 37120, "global_step/max_steps": "145/6350"}
{"lm loss": 5.93679571, "grad_norm": 4.20358419, "learning_rate": 4.598e-05, "elapsed_time_per_iteration": 4.76163816, "memory(GiB)": 27.99, "elapsed_time": "11m 49s", "remaining_time": "8h 22m 37s", "loss_scale": 1.0, "consumed_samples": 37376, "global_step/max_steps": "146/6350"}
{"lm loss": 5.93625307, "grad_norm": 4.43396521, "learning_rate": 4.63e-05, "elapsed_time_per_iteration": 4.77774787, "memory(GiB)": 28.01, "elapsed_time": "11m 54s", "remaining_time": "8h 22m 29s", "loss_scale": 1.0, "consumed_samples": 37632, "global_step/max_steps": "147/6350"}
{"lm loss": 5.93257284, "grad_norm": 3.47351742, "learning_rate": 4.661e-05, "elapsed_time_per_iteration": 4.66017604, "memory(GiB)": 28.01, "elapsed_time": "11m 59s", "remaining_time": "8h 22m 16s", "loss_scale": 1.0, "consumed_samples": 37888, "global_step/max_steps": "148/6350"}
{"lm loss": 5.92228603, "grad_norm": 3.27097058, "learning_rate": 4.693e-05, "elapsed_time_per_iteration": 4.71262693, "memory(GiB)": 28.01, "elapsed_time": "12m 3s", "remaining_time": "8h 22m 5s", "loss_scale": 1.0, "consumed_samples": 38144, "global_step/max_steps": "149/6350"}
{"lm loss": 5.93607521, "grad_norm": 4.49463224, "learning_rate": 4.724e-05, "elapsed_time_per_iteration": 4.70994043, "memory(GiB)": 28.01, "elapsed_time": "12m 8s", "remaining_time": "8h 21m 54s", "loss_scale": 1.0, "consumed_samples": 38400, "global_step/max_steps": "150/6350"}
{"lm loss": 5.9282999, "grad_norm": 4.76774216, "learning_rate": 4.756e-05, "elapsed_time_per_iteration": 4.71698117, "memory(GiB)": 28.01, "elapsed_time": "12m 13s", "remaining_time": "8h 21m 43s", "loss_scale": 1.0, "consumed_samples": 38656, "global_step/max_steps": "151/6350"}
{"lm loss": 5.92971468, "grad_norm": 4.38207817, "learning_rate": 4.787e-05, "elapsed_time_per_iteration": 5.48334217, "memory(GiB)": 28.01, "elapsed_time": "12m 18s", "remaining_time": "8h 22m 4s", "loss_scale": 1.0, "consumed_samples": 38912, "global_step/max_steps": "152/6350"}
{"lm loss": 5.9259634, "grad_norm": 4.27215528, "learning_rate": 4.819e-05, "elapsed_time_per_iteration": 4.65617204, "memory(GiB)": 28.01, "elapsed_time": "12m 23s", "remaining_time": "8h 21m 51s", "loss_scale": 1.0, "consumed_samples": 39168, "global_step/max_steps": "153/6350"}
{"lm loss": 5.9112916, "grad_norm": 4.3626461, "learning_rate": 4.85e-05, "elapsed_time_per_iteration": 4.76136255, "memory(GiB)": 28.01, "elapsed_time": "12m 28s", "remaining_time": "8h 21m 42s", "loss_scale": 1.0, "consumed_samples": 39424, "global_step/max_steps": "154/6350"}
{"lm loss": 5.92212677, "grad_norm": 4.14893866, "learning_rate": 4.882e-05, "elapsed_time_per_iteration": 4.70368409, "memory(GiB)": 28.01, "elapsed_time": "12m 32s", "remaining_time": "8h 21m 31s", "loss_scale": 1.0, "consumed_samples": 39680, "global_step/max_steps": "155/6350"}
{"lm loss": 5.92071104, "grad_norm": 4.3410759, "learning_rate": 4.913e-05, "elapsed_time_per_iteration": 4.72817969, "memory(GiB)": 28.01, "elapsed_time": "12m 37s", "remaining_time": "8h 21m 21s", "loss_scale": 1.0, "consumed_samples": 39936, "global_step/max_steps": "156/6350"}
{"lm loss": 5.91936922, "grad_norm": 4.69677877, "learning_rate": 4.945e-05, "elapsed_time_per_iteration": 4.80703354, "memory(GiB)": 28.01, "elapsed_time": "12m 42s", "remaining_time": "8h 21m 14s", "loss_scale": 1.0, "consumed_samples": 40192, "global_step/max_steps": "157/6350"}
{"lm loss": 5.89327526, "grad_norm": 4.19536495, "learning_rate": 4.976e-05, "elapsed_time_per_iteration": 4.75340009, "memory(GiB)": 28.01, "elapsed_time": "12m 47s", "remaining_time": "8h 21m 5s", "loss_scale": 1.0, "consumed_samples": 40448, "global_step/max_steps": "158/6350"}
{"lm loss": 5.90306807, "grad_norm": 4.57068634, "learning_rate": 5.008e-05, "elapsed_time_per_iteration": 4.73483777, "memory(GiB)": 28.01, "elapsed_time": "12m 51s", "remaining_time": "8h 20m 56s", "loss_scale": 1.0, "consumed_samples": 40704, "global_step/max_steps": "159/6350"}
{"lm loss": 5.89384699, "grad_norm": 3.09481382, "learning_rate": 5.039e-05, "elapsed_time_per_iteration": 4.68007612, "memory(GiB)": 28.01, "elapsed_time": "12m 56s", "remaining_time": "8h 20m 44s", "loss_scale": 1.0, "consumed_samples": 40960, "global_step/max_steps": "160/6350"}
{"lm loss": 5.9011445, "grad_norm": 5.92788744, "learning_rate": 5.071e-05, "elapsed_time_per_iteration": 5.41637349, "memory(GiB)": 28.01, "elapsed_time": "13m 2s", "remaining_time": "8h 21m 1s", "loss_scale": 1.0, "consumed_samples": 41216, "global_step/max_steps": "161/6350"}
{"lm loss": 5.9104228, "grad_norm": 3.74134779, "learning_rate": 5.102e-05, "elapsed_time_per_iteration": 4.67940283, "memory(GiB)": 28.01, "elapsed_time": "13m 6s", "remaining_time": "8h 20m 49s", "loss_scale": 1.0, "consumed_samples": 41472, "global_step/max_steps": "162/6350"}
{"lm loss": 5.89398193, "grad_norm": 4.08057356, "learning_rate": 5.134e-05, "elapsed_time_per_iteration": 4.75853872, "memory(GiB)": 28.01, "elapsed_time": "13m 11s", "remaining_time": "8h 20m 41s", "loss_scale": 1.0, "consumed_samples": 41728, "global_step/max_steps": "163/6350"}
{"lm loss": 5.88693333, "grad_norm": 3.66259766, "learning_rate": 5.165e-05, "elapsed_time_per_iteration": 4.73419547, "memory(GiB)": 28.01, "elapsed_time": "13m 16s", "remaining_time": "8h 20m 31s", "loss_scale": 1.0, "consumed_samples": 41984, "global_step/max_steps": "164/6350"}
{"lm loss": 5.89209032, "grad_norm": 4.65095949, "learning_rate": 5.197e-05, "elapsed_time_per_iteration": 4.72990036, "memory(GiB)": 28.01, "elapsed_time": "13m 20s", "remaining_time": "8h 20m 22s", "loss_scale": 1.0, "consumed_samples": 42240, "global_step/max_steps": "165/6350"}
{"lm loss": 5.89740992, "grad_norm": 3.62319875, "learning_rate": 5.228e-05, "elapsed_time_per_iteration": 4.66811681, "memory(GiB)": 28.01, "elapsed_time": "13m 25s", "remaining_time": "8h 20m 10s", "loss_scale": 1.0, "consumed_samples": 42496, "global_step/max_steps": "166/6350"}
{"lm loss": 5.89988375, "grad_norm": 5.16941977, "learning_rate": 5.26e-05, "elapsed_time_per_iteration": 5.44914627, "memory(GiB)": 28.01, "elapsed_time": "13m 31s", "remaining_time": "8h 20m 27s", "loss_scale": 1.0, "consumed_samples": 42752, "global_step/max_steps": "167/6350"}
{"lm loss": 5.90045118, "grad_norm": 4.52438593, "learning_rate": 5.291e-05, "elapsed_time_per_iteration": 4.7379024, "memory(GiB)": 28.01, "elapsed_time": "13m 35s", "remaining_time": "8h 20m 18s", "loss_scale": 1.0, "consumed_samples": 43008, "global_step/max_steps": "168/6350"}
{"lm loss": 5.8832283, "grad_norm": 4.74344635, "learning_rate": 5.323e-05, "elapsed_time_per_iteration": 4.69219065, "memory(GiB)": 28.01, "elapsed_time": "13m 40s", "remaining_time": "8h 20m 7s", "loss_scale": 1.0, "consumed_samples": 43264, "global_step/max_steps": "169/6350"}
{"lm loss": 5.87752438, "grad_norm": 3.60419154, "learning_rate": 5.354e-05, "elapsed_time_per_iteration": 4.76271439, "memory(GiB)": 28.01, "elapsed_time": "13m 45s", "remaining_time": "8h 19m 59s", "loss_scale": 1.0, "consumed_samples": 43520, "global_step/max_steps": "170/6350"}
{"lm loss": 5.86922741, "grad_norm": 4.56857204, "learning_rate": 5.386e-05, "elapsed_time_per_iteration": 4.68694401, "memory(GiB)": 28.01, "elapsed_time": "13m 49s", "remaining_time": "8h 19m 48s", "loss_scale": 1.0, "consumed_samples": 43776, "global_step/max_steps": "171/6350"}
{"lm loss": 5.87660456, "grad_norm": 5.14709997, "learning_rate": 5.417e-05, "elapsed_time_per_iteration": 4.79747963, "memory(GiB)": 28.01, "elapsed_time": "13m 54s", "remaining_time": "8h 19m 41s", "loss_scale": 1.0, "consumed_samples": 44032, "global_step/max_steps": "172/6350"}
{"lm loss": 5.87427807, "grad_norm": 3.19821382, "learning_rate": 5.449e-05, "elapsed_time_per_iteration": 4.67476368, "memory(GiB)": 28.01, "elapsed_time": "13m 59s", "remaining_time": "8h 19m 30s", "loss_scale": 1.0, "consumed_samples": 44288, "global_step/max_steps": "173/6350"}
{"lm loss": 5.85102844, "grad_norm": 4.71907234, "learning_rate": 5.48e-05, "elapsed_time_per_iteration": 5.34952617, "memory(GiB)": 28.01, "elapsed_time": "14m 4s", "remaining_time": "8h 19m 43s", "loss_scale": 1.0, "consumed_samples": 44544, "global_step/max_steps": "174/6350"}
{"lm loss": 5.84440613, "grad_norm": 4.49921465, "learning_rate": 5.512e-05, "elapsed_time_per_iteration": 4.68682599, "memory(GiB)": 28.01, "elapsed_time": "14m 9s", "remaining_time": "8h 19m 32s", "loss_scale": 1.0, "consumed_samples": 44800, "global_step/max_steps": "175/6350"}
{"lm loss": 5.85279751, "grad_norm": 4.02614832, "learning_rate": 5.543e-05, "elapsed_time_per_iteration": 4.74246812, "memory(GiB)": 28.01, "elapsed_time": "14m 14s", "remaining_time": "8h 19m 23s", "loss_scale": 1.0, "consumed_samples": 45056, "global_step/max_steps": "176/6350"}
{"lm loss": 5.86702299, "grad_norm": 5.29103804, "learning_rate": 5.575e-05, "elapsed_time_per_iteration": 4.72478676, "memory(GiB)": 28.01, "elapsed_time": "14m 18s", "remaining_time": "8h 19m 14s", "loss_scale": 1.0, "consumed_samples": 45312, "global_step/max_steps": "177/6350"}
{"lm loss": 5.85741806, "grad_norm": 3.91084695, "learning_rate": 5.606e-05, "elapsed_time_per_iteration": 4.66180611, "memory(GiB)": 28.01, "elapsed_time": "14m 23s", "remaining_time": "8h 19m 2s", "loss_scale": 1.0, "consumed_samples": 45568, "global_step/max_steps": "178/6350"}
{"lm loss": 5.84755516, "grad_norm": 3.98323965, "learning_rate": 5.638e-05, "elapsed_time_per_iteration": 4.70882916, "memory(GiB)": 28.01, "elapsed_time": "14m 28s", "remaining_time": "8h 18m 53s", "loss_scale": 1.0, "consumed_samples": 45824, "global_step/max_steps": "179/6350"}
{"lm loss": 5.85153151, "grad_norm": 5.90321064, "learning_rate": 5.669e-05, "elapsed_time_per_iteration": 4.73525095, "memory(GiB)": 28.01, "elapsed_time": "14m 32s", "remaining_time": "8h 18m 44s", "loss_scale": 1.0, "consumed_samples": 46080, "global_step/max_steps": "180/6350"}
{"lm loss": 5.83270597, "grad_norm": 2.63791275, "learning_rate": 5.701e-05, "elapsed_time_per_iteration": 5.56127763, "memory(GiB)": 28.01, "elapsed_time": "14m 38s", "remaining_time": "8h 19m 3s", "loss_scale": 1.0, "consumed_samples": 46336, "global_step/max_steps": "181/6350"}
{"lm loss": 5.85715771, "grad_norm": 5.95297098, "learning_rate": 5.732e-05, "elapsed_time_per_iteration": 4.67689085, "memory(GiB)": 28.01, "elapsed_time": "14m 43s", "remaining_time": "8h 18m 52s", "loss_scale": 1.0, "consumed_samples": 46592, "global_step/max_steps": "182/6350"}
{"lm loss": 5.84667206, "grad_norm": 3.91575265, "learning_rate": 5.764e-05, "elapsed_time_per_iteration": 4.70845318, "memory(GiB)": 28.01, "elapsed_time": "14m 47s", "remaining_time": "8h 18m 43s", "loss_scale": 1.0, "consumed_samples": 46848, "global_step/max_steps": "183/6350"}
{"lm loss": 5.83946466, "grad_norm": 3.75118637, "learning_rate": 5.795e-05, "elapsed_time_per_iteration": 4.67758131, "memory(GiB)": 28.01, "elapsed_time": "14m 52s", "remaining_time": "8h 18m 32s", "loss_scale": 1.0, "consumed_samples": 47104, "global_step/max_steps": "184/6350"}
{"lm loss": 5.84850883, "grad_norm": 4.87738276, "learning_rate": 5.827e-05, "elapsed_time_per_iteration": 4.75044441, "memory(GiB)": 28.01, "elapsed_time": "14m 57s", "remaining_time": "8h 18m 24s", "loss_scale": 1.0, "consumed_samples": 47360, "global_step/max_steps": "185/6350"}
{"lm loss": 5.82988977, "grad_norm": 4.26196766, "learning_rate": 5.858e-05, "elapsed_time_per_iteration": 5.48578501, "memory(GiB)": 28.01, "elapsed_time": "15m 2s", "remaining_time": "8h 18m 40s", "loss_scale": 1.0, "consumed_samples": 47616, "global_step/max_steps": "186/6350"}
{"lm loss": 5.8287878, "grad_norm": 3.9042778, "learning_rate": 5.89e-05, "elapsed_time_per_iteration": 4.68527341, "memory(GiB)": 28.01, "elapsed_time": "15m 7s", "remaining_time": "8h 18m 29s", "loss_scale": 1.0, "consumed_samples": 47872, "global_step/max_steps": "187/6350"}
{"lm loss": 5.83542585, "grad_norm": 3.90734577, "learning_rate": 5.921e-05, "elapsed_time_per_iteration": 4.67168951, "memory(GiB)": 28.01, "elapsed_time": "15m 12s", "remaining_time": "8h 18m 19s", "loss_scale": 1.0, "consumed_samples": 48128, "global_step/max_steps": "188/6350"}
{"lm loss": 5.83280325, "grad_norm": 4.86894321, "learning_rate": 5.953e-05, "elapsed_time_per_iteration": 4.77186012, "memory(GiB)": 28.01, "elapsed_time": "15m 16s", "remaining_time": "8h 18m 11s", "loss_scale": 1.0, "consumed_samples": 48384, "global_step/max_steps": "189/6350"}
{"lm loss": 5.8488946, "grad_norm": 5.12951517, "learning_rate": 5.984e-05, "elapsed_time_per_iteration": 4.70803189, "memory(GiB)": 28.01, "elapsed_time": "15m 21s", "remaining_time": "8h 18m 2s", "loss_scale": 1.0, "consumed_samples": 48640, "global_step/max_steps": "190/6350"}
{"lm loss": 5.83000422, "grad_norm": 5.29062319, "learning_rate": 6.016e-05, "elapsed_time_per_iteration": 4.63872361, "memory(GiB)": 28.01, "elapsed_time": "15m 26s", "remaining_time": "8h 17m 50s", "loss_scale": 1.0, "consumed_samples": 48896, "global_step/max_steps": "191/6350"}
{"lm loss": 5.80843019, "grad_norm": 3.38724828, "learning_rate": 6.047e-05, "elapsed_time_per_iteration": 4.64127731, "memory(GiB)": 28.01, "elapsed_time": "15m 30s", "remaining_time": "8h 17m 38s", "loss_scale": 1.0, "consumed_samples": 49152, "global_step/max_steps": "192/6350"}
{"lm loss": 5.82822514, "grad_norm": 5.01139498, "learning_rate": 6.079e-05, "elapsed_time_per_iteration": 4.70246458, "memory(GiB)": 28.01, "elapsed_time": "15m 35s", "remaining_time": "8h 17m 29s", "loss_scale": 1.0, "consumed_samples": 49408, "global_step/max_steps": "193/6350"}
{"lm loss": 5.81341267, "grad_norm": 3.38982749, "learning_rate": 6.11e-05, "elapsed_time_per_iteration": 4.65199614, "memory(GiB)": 28.01, "elapsed_time": "15m 40s", "remaining_time": "8h 17m 18s", "loss_scale": 1.0, "consumed_samples": 49664, "global_step/max_steps": "194/6350"}
{"lm loss": 5.81015491, "grad_norm": 5.26443243, "learning_rate": 6.142e-05, "elapsed_time_per_iteration": 4.96849918, "memory(GiB)": 28.01, "elapsed_time": "15m 45s", "remaining_time": "8h 17m 17s", "loss_scale": 1.0, "consumed_samples": 49920, "global_step/max_steps": "195/6350"}
{"lm loss": 5.81900024, "grad_norm": 3.51940894, "learning_rate": 6.173e-05, "elapsed_time_per_iteration": 4.65135217, "memory(GiB)": 28.01, "elapsed_time": "15m 49s", "remaining_time": "8h 17m 6s", "loss_scale": 1.0, "consumed_samples": 50176, "global_step/max_steps": "196/6350"}
{"lm loss": 5.81074333, "grad_norm": 4.82718468, "learning_rate": 6.205e-05, "elapsed_time_per_iteration": 4.65558362, "memory(GiB)": 28.03, "elapsed_time": "15m 54s", "remaining_time": "8h 16m 55s", "loss_scale": 1.0, "consumed_samples": 50432, "global_step/max_steps": "197/6350"}
{"lm loss": 5.82069588, "grad_norm": 4.76328993, "learning_rate": 6.236e-05, "elapsed_time_per_iteration": 4.61431837, "memory(GiB)": 28.03, "elapsed_time": "15m 59s", "remaining_time": "8h 16m 43s", "loss_scale": 1.0, "consumed_samples": 50688, "global_step/max_steps": "198/6350"}
{"lm loss": 5.80461836, "grad_norm": 4.29196072, "learning_rate": 6.268e-05, "elapsed_time_per_iteration": 4.65470982, "memory(GiB)": 28.03, "elapsed_time": "16m 3s", "remaining_time": "8h 16m 32s", "loss_scale": 1.0, "consumed_samples": 50944, "global_step/max_steps": "199/6350"}
{"lm loss": 5.82206297, "grad_norm": 3.81636858, "learning_rate": 6.299e-05, "elapsed_time_per_iteration": 4.67485166, "memory(GiB)": 28.03, "elapsed_time": "16m 8s", "remaining_time": "8h 16m 22s", "loss_scale": 1.0, "consumed_samples": 51200, "global_step/max_steps": "200/6350"}
{"lm loss": 5.81519461, "grad_norm": 5.09350824, "learning_rate": 6.331e-05, "elapsed_time_per_iteration": 5.52646112, "memory(GiB)": 28.03, "elapsed_time": "16m 14s", "remaining_time": "8h 16m 38s", "loss_scale": 1.0, "consumed_samples": 51456, "global_step/max_steps": "201/6350"}
{"lm loss": 5.8202734, "grad_norm": 4.13133097, "learning_rate": 6.362e-05, "elapsed_time_per_iteration": 4.69477415, "memory(GiB)": 28.03, "elapsed_time": "16m 18s", "remaining_time": "8h 16m 29s", "loss_scale": 1.0, "consumed_samples": 51712, "global_step/max_steps": "202/6350"}
{"lm loss": 5.80111122, "grad_norm": 4.8374176, "learning_rate": 6.394e-05, "elapsed_time_per_iteration": 4.69154954, "memory(GiB)": 28.03, "elapsed_time": "16m 23s", "remaining_time": "8h 16m 19s", "loss_scale": 1.0, "consumed_samples": 51968, "global_step/max_steps": "203/6350"}
{"lm loss": 5.80902004, "grad_norm": 4.17824507, "learning_rate": 6.425e-05, "elapsed_time_per_iteration": 4.74224687, "memory(GiB)": 28.03, "elapsed_time": "16m 28s", "remaining_time": "8h 16m 11s", "loss_scale": 1.0, "consumed_samples": 52224, "global_step/max_steps": "204/6350"}
{"lm loss": 5.79432869, "grad_norm": 3.802634, "learning_rate": 6.457e-05, "elapsed_time_per_iteration": 4.69797659, "memory(GiB)": 28.03, "elapsed_time": "16m 32s", "remaining_time": "8h 16m 2s", "loss_scale": 1.0, "consumed_samples": 52480, "global_step/max_steps": "205/6350"}
{"lm loss": 5.82262039, "grad_norm": 4.99399948, "learning_rate": 6.488e-05, "elapsed_time_per_iteration": 4.69772267, "memory(GiB)": 28.03, "elapsed_time": "16m 37s", "remaining_time": "8h 15m 53s", "loss_scale": 1.0, "consumed_samples": 52736, "global_step/max_steps": "206/6350"}
{"lm loss": 5.81647873, "grad_norm": 3.82716846, "learning_rate": 6.52e-05, "elapsed_time_per_iteration": 4.82526183, "memory(GiB)": 28.03, "elapsed_time": "16m 42s", "remaining_time": "8h 15m 48s", "loss_scale": 1.0, "consumed_samples": 52992, "global_step/max_steps": "207/6350"}
{"lm loss": 5.77397919, "grad_norm": 5.01990175, "learning_rate": 6.551e-05, "elapsed_time_per_iteration": 4.69555712, "memory(GiB)": 28.03, "elapsed_time": "16m 47s", "remaining_time": "8h 15m 38s", "loss_scale": 1.0, "consumed_samples": 53248, "global_step/max_steps": "208/6350"}
{"lm loss": 5.78438044, "grad_norm": 3.57703662, "learning_rate": 6.583e-05, "elapsed_time_per_iteration": 4.70240498, "memory(GiB)": 28.03, "elapsed_time": "16m 51s", "remaining_time": "8h 15m 30s", "loss_scale": 1.0, "consumed_samples": 53504, "global_step/max_steps": "209/6350"}
{"lm loss": 5.81123352, "grad_norm": 5.30422783, "learning_rate": 6.614e-05, "elapsed_time_per_iteration": 4.77092433, "memory(GiB)": 28.03, "elapsed_time": "16m 56s", "remaining_time": "8h 15m 23s", "loss_scale": 1.0, "consumed_samples": 53760, "global_step/max_steps": "210/6350"}
{"lm loss": 5.77802277, "grad_norm": 4.95353699, "learning_rate": 6.646e-05, "elapsed_time_per_iteration": 4.72769403, "memory(GiB)": 28.03, "elapsed_time": "17m 1s", "remaining_time": "8h 15m 14s", "loss_scale": 1.0, "consumed_samples": 54016, "global_step/max_steps": "211/6350"}
{"lm loss": 5.78428602, "grad_norm": 4.07119846, "learning_rate": 6.677e-05, "elapsed_time_per_iteration": 4.68313384, "memory(GiB)": 28.03, "elapsed_time": "17m 5s", "remaining_time": "8h 15m 5s", "loss_scale": 1.0, "consumed_samples": 54272, "global_step/max_steps": "212/6350"}
{"lm loss": 5.78412819, "grad_norm": 3.4294281, "learning_rate": 6.709e-05, "elapsed_time_per_iteration": 4.75297213, "memory(GiB)": 28.03, "elapsed_time": "17m 10s", "remaining_time": "8h 14m 58s", "loss_scale": 1.0, "consumed_samples": 54528, "global_step/max_steps": "213/6350"}
{"lm loss": 5.78197002, "grad_norm": 4.79402924, "learning_rate": 6.74e-05, "elapsed_time_per_iteration": 4.72219729, "memory(GiB)": 28.03, "elapsed_time": "17m 15s", "remaining_time": "8h 14m 50s", "loss_scale": 1.0, "consumed_samples": 54784, "global_step/max_steps": "214/6350"}
{"lm loss": 5.76756239, "grad_norm": 3.81776094, "learning_rate": 6.772e-05, "elapsed_time_per_iteration": 4.78613806, "memory(GiB)": 28.03, "elapsed_time": "17m 20s", "remaining_time": "8h 14m 43s", "loss_scale": 1.0, "consumed_samples": 55040, "global_step/max_steps": "215/6350"}
{"lm loss": 5.78762293, "grad_norm": 4.55233574, "learning_rate": 6.803e-05, "elapsed_time_per_iteration": 4.72003651, "memory(GiB)": 28.03, "elapsed_time": "17m 24s", "remaining_time": "8h 14m 35s", "loss_scale": 1.0, "consumed_samples": 55296, "global_step/max_steps": "216/6350"}
{"lm loss": 5.78869581, "grad_norm": 4.12443304, "learning_rate": 6.835e-05, "elapsed_time_per_iteration": 4.69901991, "memory(GiB)": 28.03, "elapsed_time": "17m 29s", "remaining_time": "8h 14m 26s", "loss_scale": 1.0, "consumed_samples": 55552, "global_step/max_steps": "217/6350"}
{"lm loss": 5.77009821, "grad_norm": 4.6740756, "learning_rate": 6.866e-05, "elapsed_time_per_iteration": 4.70800495, "memory(GiB)": 28.03, "elapsed_time": "17m 34s", "remaining_time": "8h 14m 18s", "loss_scale": 1.0, "consumed_samples": 55808, "global_step/max_steps": "218/6350"}
{"lm loss": 5.78295135, "grad_norm": 3.99420047, "learning_rate": 6.898e-05, "elapsed_time_per_iteration": 5.47011638, "memory(GiB)": 28.03, "elapsed_time": "17m 39s", "remaining_time": "8h 14m 31s", "loss_scale": 1.0, "consumed_samples": 56064, "global_step/max_steps": "219/6350"}
{"lm loss": 5.74495268, "grad_norm": 3.60794997, "learning_rate": 6.929e-05, "elapsed_time_per_iteration": 5.49225855, "memory(GiB)": 28.03, "elapsed_time": "17m 45s", "remaining_time": "8h 14m 44s", "loss_scale": 1.0, "consumed_samples": 56320, "global_step/max_steps": "220/6350"}
{"lm loss": 5.77061129, "grad_norm": 5.31836271, "learning_rate": 6.961e-05, "elapsed_time_per_iteration": 4.70624018, "memory(GiB)": 28.03, "elapsed_time": "17m 50s", "remaining_time": "8h 14m 35s", "loss_scale": 1.0, "consumed_samples": 56576, "global_step/max_steps": "221/6350"}
{"lm loss": 5.76020002, "grad_norm": 5.03086329, "learning_rate": 6.992e-05, "elapsed_time_per_iteration": 4.66526508, "memory(GiB)": 28.03, "elapsed_time": "17m 54s", "remaining_time": "8h 14m 26s", "loss_scale": 1.0, "consumed_samples": 56832, "global_step/max_steps": "222/6350"}
{"lm loss": 5.76665163, "grad_norm": 4.88334608, "learning_rate": 7.024e-05, "elapsed_time_per_iteration": 4.68773127, "memory(GiB)": 28.03, "elapsed_time": "17m 59s", "remaining_time": "8h 14m 17s", "loss_scale": 1.0, "consumed_samples": 57088, "global_step/max_steps": "223/6350"}
{"lm loss": 5.75196218, "grad_norm": 4.51748037, "learning_rate": 7.055e-05, "elapsed_time_per_iteration": 4.70523715, "memory(GiB)": 28.03, "elapsed_time": "18m 4s", "remaining_time": "8h 14m 8s", "loss_scale": 1.0, "consumed_samples": 57344, "global_step/max_steps": "224/6350"}
{"lm loss": 5.76857376, "grad_norm": 4.87639523, "learning_rate": 7.087e-05, "elapsed_time_per_iteration": 4.66732574, "memory(GiB)": 28.03, "elapsed_time": "18m 8s", "remaining_time": "8h 13m 59s", "loss_scale": 1.0, "consumed_samples": 57600, "global_step/max_steps": "225/6350"}
{"lm loss": 5.7497077, "grad_norm": 3.4226923, "learning_rate": 7.118e-05, "elapsed_time_per_iteration": 4.79048896, "memory(GiB)": 28.03, "elapsed_time": "18m 13s", "remaining_time": "8h 13m 52s", "loss_scale": 1.0, "consumed_samples": 57856, "global_step/max_steps": "226/6350"}
{"lm loss": 5.74988031, "grad_norm": 5.05881691, "learning_rate": 7.15e-05, "elapsed_time_per_iteration": 5.49383211, "memory(GiB)": 28.03, "elapsed_time": "18m 19s", "remaining_time": "8h 14m 5s", "loss_scale": 1.0, "consumed_samples": 58112, "global_step/max_steps": "227/6350"}
{"lm loss": 5.73695564, "grad_norm": 3.25351548, "learning_rate": 7.181e-05, "elapsed_time_per_iteration": 4.71304679, "memory(GiB)": 28.03, "elapsed_time": "18m 23s", "remaining_time": "8h 13m 57s", "loss_scale": 1.0, "consumed_samples": 58368, "global_step/max_steps": "228/6350"}
{"lm loss": 5.76298189, "grad_norm": 4.66271591, "learning_rate": 7.213e-05, "elapsed_time_per_iteration": 4.69414711, "memory(GiB)": 28.03, "elapsed_time": "18m 28s", "remaining_time": "8h 13m 48s", "loss_scale": 1.0, "consumed_samples": 58624, "global_step/max_steps": "229/6350"}
{"lm loss": 5.71727276, "grad_norm": 4.41531944, "learning_rate": 7.244e-05, "elapsed_time_per_iteration": 4.66411543, "memory(GiB)": 28.03, "elapsed_time": "18m 33s", "remaining_time": "8h 13m 39s", "loss_scale": 1.0, "consumed_samples": 58880, "global_step/max_steps": "230/6350"}
{"lm loss": 5.75737143, "grad_norm": 4.40026665, "learning_rate": 7.276e-05, "elapsed_time_per_iteration": 4.77204967, "memory(GiB)": 28.03, "elapsed_time": "18m 37s", "remaining_time": "8h 13m 32s", "loss_scale": 1.0, "consumed_samples": 59136, "global_step/max_steps": "231/6350"}
{"lm loss": 5.74668646, "grad_norm": 5.7104187, "learning_rate": 7.307e-05, "elapsed_time_per_iteration": 4.68897009, "memory(GiB)": 28.03, "elapsed_time": "18m 42s", "remaining_time": "8h 13m 23s", "loss_scale": 1.0, "consumed_samples": 59392, "global_step/max_steps": "232/6350"}
{"lm loss": 5.73911905, "grad_norm": 4.16353798, "learning_rate": 7.339e-05, "elapsed_time_per_iteration": 5.56692648, "memory(GiB)": 28.03, "elapsed_time": "18m 48s", "remaining_time": "8h 13m 37s", "loss_scale": 1.0, "consumed_samples": 59648, "global_step/max_steps": "233/6350"}
{"lm loss": 5.74067354, "grad_norm": 3.71567392, "learning_rate": 7.37e-05, "elapsed_time_per_iteration": 4.74956298, "memory(GiB)": 28.03, "elapsed_time": "18m 52s", "remaining_time": "8h 13m 30s", "loss_scale": 1.0, "consumed_samples": 59904, "global_step/max_steps": "234/6350"}
{"lm loss": 5.74641752, "grad_norm": 4.1052289, "learning_rate": 7.402e-05, "elapsed_time_per_iteration": 4.7063992, "memory(GiB)": 28.03, "elapsed_time": "18m 57s", "remaining_time": "8h 13m 22s", "loss_scale": 1.0, "consumed_samples": 60160, "global_step/max_steps": "235/6350"}
{"lm loss": 5.73738813, "grad_norm": 3.59289575, "learning_rate": 7.433e-05, "elapsed_time_per_iteration": 4.77254391, "memory(GiB)": 28.03, "elapsed_time": "19m 2s", "remaining_time": "8h 13m 15s", "loss_scale": 1.0, "consumed_samples": 60416, "global_step/max_steps": "236/6350"}
{"lm loss": 5.70840836, "grad_norm": 4.68537188, "learning_rate": 7.465e-05, "elapsed_time_per_iteration": 4.73409128, "memory(GiB)": 28.03, "elapsed_time": "19m 7s", "remaining_time": "8h 13m 8s", "loss_scale": 1.0, "consumed_samples": 60672, "global_step/max_steps": "237/6350"}
{"lm loss": 5.71859074, "grad_norm": 4.56867361, "learning_rate": 7.496e-05, "elapsed_time_per_iteration": 4.69767165, "memory(GiB)": 28.03, "elapsed_time": "19m 11s", "remaining_time": "8h 12m 59s", "loss_scale": 1.0, "consumed_samples": 60928, "global_step/max_steps": "238/6350"}
{"lm loss": 5.73773479, "grad_norm": 4.62972498, "learning_rate": 7.528e-05, "elapsed_time_per_iteration": 5.59014678, "memory(GiB)": 28.03, "elapsed_time": "19m 17s", "remaining_time": "8h 13m 14s", "loss_scale": 1.0, "consumed_samples": 61184, "global_step/max_steps": "239/6350"}
{"lm loss": 5.71830988, "grad_norm": 3.5879159, "learning_rate": 7.559e-05, "elapsed_time_per_iteration": 4.75308943, "memory(GiB)": 28.03, "elapsed_time": "19m 22s", "remaining_time": "8h 13m 6s", "loss_scale": 1.0, "consumed_samples": 61440, "global_step/max_steps": "240/6350"}
{"lm loss": 5.72203875, "grad_norm": 4.99329758, "learning_rate": 7.591e-05, "elapsed_time_per_iteration": 4.80802703, "memory(GiB)": 28.03, "elapsed_time": "19m 26s", "remaining_time": "8h 13m 1s", "loss_scale": 1.0, "consumed_samples": 61696, "global_step/max_steps": "241/6350"}
{"lm loss": 5.72422028, "grad_norm": 4.14405441, "learning_rate": 7.622e-05, "elapsed_time_per_iteration": 4.735888, "memory(GiB)": 28.03, "elapsed_time": "19m 31s", "remaining_time": "8h 12m 53s", "loss_scale": 1.0, "consumed_samples": 61952, "global_step/max_steps": "242/6350"}
{"lm loss": 5.72600842, "grad_norm": 4.77034283, "learning_rate": 7.654e-05, "elapsed_time_per_iteration": 4.68623066, "memory(GiB)": 28.03, "elapsed_time": "19m 36s", "remaining_time": "8h 12m 44s", "loss_scale": 1.0, "consumed_samples": 62208, "global_step/max_steps": "243/6350"}
{"lm loss": 5.71117067, "grad_norm": 4.72850609, "learning_rate": 7.685e-05, "elapsed_time_per_iteration": 4.72430539, "memory(GiB)": 28.03, "elapsed_time": "19m 41s", "remaining_time": "8h 12m 37s", "loss_scale": 1.0, "consumed_samples": 62464, "global_step/max_steps": "244/6350"}
{"lm loss": 5.71897459, "grad_norm": 4.40553236, "learning_rate": 7.717e-05, "elapsed_time_per_iteration": 4.7564168, "memory(GiB)": 28.03, "elapsed_time": "19m 45s", "remaining_time": "8h 12m 30s", "loss_scale": 1.0, "consumed_samples": 62720, "global_step/max_steps": "245/6350"}
{"lm loss": 5.71271658, "grad_norm": 4.7278142, "learning_rate": 7.748e-05, "elapsed_time_per_iteration": 4.70917559, "memory(GiB)": 28.03, "elapsed_time": "19m 50s", "remaining_time": "8h 12m 22s", "loss_scale": 1.0, "consumed_samples": 62976, "global_step/max_steps": "246/6350"}
{"lm loss": 5.72475815, "grad_norm": 4.2477231, "learning_rate": 7.78e-05, "elapsed_time_per_iteration": 4.71927333, "memory(GiB)": 28.03, "elapsed_time": "19m 55s", "remaining_time": "8h 12m 14s", "loss_scale": 1.0, "consumed_samples": 63232, "global_step/max_steps": "247/6350"}
{"lm loss": 5.69648504, "grad_norm": 4.62534142, "learning_rate": 7.811e-05, "elapsed_time_per_iteration": 4.67204595, "memory(GiB)": 28.03, "elapsed_time": "19m 59s", "remaining_time": "8h 12m 5s", "loss_scale": 1.0, "consumed_samples": 63488, "global_step/max_steps": "248/6350"}
{"lm loss": 5.70975399, "grad_norm": 4.70521975, "learning_rate": 7.843e-05, "elapsed_time_per_iteration": 4.79138041, "memory(GiB)": 28.03, "elapsed_time": "20m 4s", "remaining_time": "8h 11m 59s", "loss_scale": 1.0, "consumed_samples": 63744, "global_step/max_steps": "249/6350"}
{"lm loss": 5.7071991, "grad_norm": 4.05752468, "learning_rate": 7.874e-05, "elapsed_time_per_iteration": 4.66887927, "memory(GiB)": 28.03, "elapsed_time": "20m 9s", "remaining_time": "8h 11m 50s", "loss_scale": 1.0, "consumed_samples": 64000, "global_step/max_steps": "250/6350"}
{"lm loss": 5.72080421, "grad_norm": 5.37795448, "learning_rate": 7.906e-05, "elapsed_time_per_iteration": 4.68876624, "memory(GiB)": 28.03, "elapsed_time": "20m 14s", "remaining_time": "8h 11m 41s", "loss_scale": 1.0, "consumed_samples": 64256, "global_step/max_steps": "251/6350"}
{"lm loss": 5.69250488, "grad_norm": 3.24795222, "learning_rate": 7.937e-05, "elapsed_time_per_iteration": 4.67461443, "memory(GiB)": 28.03, "elapsed_time": "20m 18s", "remaining_time": "8h 11m 33s", "loss_scale": 1.0, "consumed_samples": 64512, "global_step/max_steps": "252/6350"}
{"lm loss": 5.70239592, "grad_norm": 4.4911375, "learning_rate": 7.969e-05, "elapsed_time_per_iteration": 4.70700288, "memory(GiB)": 28.03, "elapsed_time": "20m 23s", "remaining_time": "8h 11m 25s", "loss_scale": 1.0, "consumed_samples": 64768, "global_step/max_steps": "253/6350"}
{"lm loss": 5.69472122, "grad_norm": 3.70840669, "learning_rate": 8e-05, "elapsed_time_per_iteration": 4.7991569, "memory(GiB)": 28.03, "elapsed_time": "20m 28s", "remaining_time": "8h 11m 19s", "loss_scale": 1.0, "consumed_samples": 65024, "global_step/max_steps": "254/6350"}
{"lm loss": 5.71077251, "grad_norm": 4.60475731, "learning_rate": 8.031e-05, "elapsed_time_per_iteration": 4.67426872, "memory(GiB)": 28.03, "elapsed_time": "20m 32s", "remaining_time": "8h 11m 10s", "loss_scale": 1.0, "consumed_samples": 65280, "global_step/max_steps": "255/6350"}
{"lm loss": 5.71848917, "grad_norm": 3.98194218, "learning_rate": 8.063e-05, "elapsed_time_per_iteration": 4.6782577, "memory(GiB)": 28.03, "elapsed_time": "20m 37s", "remaining_time": "8h 11m 2s", "loss_scale": 1.0, "consumed_samples": 65536, "global_step/max_steps": "256/6350"}
{"lm loss": 5.69188976, "grad_norm": 4.03341007, "learning_rate": 8.094e-05, "elapsed_time_per_iteration": 4.83979702, "memory(GiB)": 28.03, "elapsed_time": "20m 42s", "remaining_time": "8h 10m 57s", "loss_scale": 1.0, "consumed_samples": 65792, "global_step/max_steps": "257/6350"}
{"lm loss": 5.70592165, "grad_norm": 4.14696074, "learning_rate": 8.126e-05, "elapsed_time_per_iteration": 4.67559481, "memory(GiB)": 28.03, "elapsed_time": "20m 47s", "remaining_time": "8h 10m 48s", "loss_scale": 1.0, "consumed_samples": 66048, "global_step/max_steps": "258/6350"}
{"lm loss": 5.71558809, "grad_norm": 4.47671175, "learning_rate": 8.157e-05, "elapsed_time_per_iteration": 4.77152944, "memory(GiB)": 28.03, "elapsed_time": "20m 51s", "remaining_time": "8h 10m 42s", "loss_scale": 1.0, "consumed_samples": 66304, "global_step/max_steps": "259/6350"}
{"lm loss": 5.6901741, "grad_norm": 3.79205275, "learning_rate": 8.189e-05, "elapsed_time_per_iteration": 4.72512865, "memory(GiB)": 28.03, "elapsed_time": "20m 56s", "remaining_time": "8h 10m 35s", "loss_scale": 1.0, "consumed_samples": 66560, "global_step/max_steps": "260/6350"}
{"lm loss": 5.68874311, "grad_norm": 4.40171289, "learning_rate": 8.22e-05, "elapsed_time_per_iteration": 4.76461029, "memory(GiB)": 28.03, "elapsed_time": "21m 1s", "remaining_time": "8h 10m 28s", "loss_scale": 1.0, "consumed_samples": 66816, "global_step/max_steps": "261/6350"}
{"lm loss": 5.68199158, "grad_norm": 4.50703621, "learning_rate": 8.252e-05, "elapsed_time_per_iteration": 4.77274966, "memory(GiB)": 28.03, "elapsed_time": "21m 6s", "remaining_time": "8h 10m 22s", "loss_scale": 1.0, "consumed_samples": 67072, "global_step/max_steps": "262/6350"}
{"lm loss": 5.68720531, "grad_norm": 4.6035676, "learning_rate": 8.283e-05, "elapsed_time_per_iteration": 4.72916532, "memory(GiB)": 28.03, "elapsed_time": "21m 10s", "remaining_time": "8h 10m 15s", "loss_scale": 1.0, "consumed_samples": 67328, "global_step/max_steps": "263/6350"}
{"lm loss": 5.6868639, "grad_norm": 4.15011072, "learning_rate": 8.315e-05, "elapsed_time_per_iteration": 4.68825769, "memory(GiB)": 28.03, "elapsed_time": "21m 15s", "remaining_time": "8h 10m 7s", "loss_scale": 1.0, "consumed_samples": 67584, "global_step/max_steps": "264/6350"}
{"lm loss": 5.68172359, "grad_norm": 4.5109129, "learning_rate": 8.346e-05, "elapsed_time_per_iteration": 4.74459481, "memory(GiB)": 28.03, "elapsed_time": "21m 20s", "remaining_time": "8h 10m 0s", "loss_scale": 1.0, "consumed_samples": 67840, "global_step/max_steps": "265/6350"}
{"lm loss": 5.69363785, "grad_norm": 4.0942173, "learning_rate": 8.378e-05, "elapsed_time_per_iteration": 4.85922432, "memory(GiB)": 28.03, "elapsed_time": "21m 25s", "remaining_time": "8h 9m 56s", "loss_scale": 1.0, "consumed_samples": 68096, "global_step/max_steps": "266/6350"}
{"lm loss": 5.67477465, "grad_norm": 3.9883275, "learning_rate": 8.409e-05, "elapsed_time_per_iteration": 4.7549212, "memory(GiB)": 28.03, "elapsed_time": "21m 29s", "remaining_time": "8h 9m 49s", "loss_scale": 1.0, "consumed_samples": 68352, "global_step/max_steps": "267/6350"}
{"lm loss": 5.67777252, "grad_norm": 4.13854742, "learning_rate": 8.441e-05, "elapsed_time_per_iteration": 4.75660419, "memory(GiB)": 28.03, "elapsed_time": "21m 34s", "remaining_time": "8h 9m 42s", "loss_scale": 1.0, "consumed_samples": 68608, "global_step/max_steps": "268/6350"}
{"lm loss": 5.67385292, "grad_norm": 3.63355231, "learning_rate": 8.472e-05, "elapsed_time_per_iteration": 4.74161768, "memory(GiB)": 28.03, "elapsed_time": "21m 39s", "remaining_time": "8h 9m 36s", "loss_scale": 1.0, "consumed_samples": 68864, "global_step/max_steps": "269/6350"}
{"lm loss": 5.69221973, "grad_norm": 4.70197582, "learning_rate": 8.504e-05, "elapsed_time_per_iteration": 4.78895307, "memory(GiB)": 28.03, "elapsed_time": "21m 44s", "remaining_time": "8h 9m 30s", "loss_scale": 1.0, "consumed_samples": 69120, "global_step/max_steps": "270/6350"}
{"lm loss": 5.65853739, "grad_norm": 3.56003976, "learning_rate": 8.535e-05, "elapsed_time_per_iteration": 4.68688178, "memory(GiB)": 28.03, "elapsed_time": "21m 48s", "remaining_time": "8h 9m 22s", "loss_scale": 1.0, "consumed_samples": 69376, "global_step/max_steps": "271/6350"}
{"lm loss": 5.66301489, "grad_norm": 4.60079765, "learning_rate": 8.567e-05, "elapsed_time_per_iteration": 5.30755186, "memory(GiB)": 28.03, "elapsed_time": "21m 54s", "remaining_time": "8h 9m 28s", "loss_scale": 1.0, "consumed_samples": 69632, "global_step/max_steps": "272/6350"}
{"lm loss": 5.6747365, "grad_norm": 3.82462573, "learning_rate": 8.598e-05, "elapsed_time_per_iteration": 4.64440513, "memory(GiB)": 28.03, "elapsed_time": "21m 58s", "remaining_time": "8h 9m 19s", "loss_scale": 1.0, "consumed_samples": 69888, "global_step/max_steps": "273/6350"}
{"lm loss": 5.68311548, "grad_norm": 4.74586105, "learning_rate": 8.63e-05, "elapsed_time_per_iteration": 4.76110148, "memory(GiB)": 28.03, "elapsed_time": "22m 3s", "remaining_time": "8h 9m 12s", "loss_scale": 1.0, "consumed_samples": 70144, "global_step/max_steps": "274/6350"}
{"lm loss": 5.66861629, "grad_norm": 4.64576864, "learning_rate": 8.661e-05, "elapsed_time_per_iteration": 4.74023867, "memory(GiB)": 28.03, "elapsed_time": "22m 8s", "remaining_time": "8h 9m 5s", "loss_scale": 1.0, "consumed_samples": 70400, "global_step/max_steps": "275/6350"}
{"lm loss": 5.68436098, "grad_norm": 4.17727709, "learning_rate": 8.693e-05, "elapsed_time_per_iteration": 5.29903984, "memory(GiB)": 28.03, "elapsed_time": "22m 13s", "remaining_time": "8h 9m 11s", "loss_scale": 1.0, "consumed_samples": 70656, "global_step/max_steps": "276/6350"}
{"lm loss": 5.64515114, "grad_norm": 5.31591082, "learning_rate": 8.724e-05, "elapsed_time_per_iteration": 4.84421039, "memory(GiB)": 28.03, "elapsed_time": "22m 18s", "remaining_time": "8h 9m 6s", "loss_scale": 1.0, "consumed_samples": 70912, "global_step/max_steps": "277/6350"}
{"lm loss": 5.65061569, "grad_norm": 2.64131856, "learning_rate": 8.756e-05, "elapsed_time_per_iteration": 4.69323468, "memory(GiB)": 28.03, "elapsed_time": "22m 23s", "remaining_time": "8h 8m 58s", "loss_scale": 1.0, "consumed_samples": 71168, "global_step/max_steps": "278/6350"}
{"lm loss": 5.66726971, "grad_norm": 4.80148268, "learning_rate": 8.787e-05, "elapsed_time_per_iteration": 5.5079658, "memory(GiB)": 28.03, "elapsed_time": "22m 28s", "remaining_time": "8h 9m 8s", "loss_scale": 1.0, "consumed_samples": 71424, "global_step/max_steps": "279/6350"}
{"lm loss": 5.66591311, "grad_norm": 3.98960948, "learning_rate": 8.819e-05, "elapsed_time_per_iteration": 4.72213125, "memory(GiB)": 28.03, "elapsed_time": "22m 33s", "remaining_time": "8h 9m 1s", "loss_scale": 1.0, "consumed_samples": 71680, "global_step/max_steps": "280/6350"}
{"lm loss": 5.65537882, "grad_norm": 20.3100872, "learning_rate": 8.85e-05, "elapsed_time_per_iteration": 4.75466776, "memory(GiB)": 28.03, "elapsed_time": "22m 38s", "remaining_time": "8h 8m 55s", "loss_scale": 1.0, "consumed_samples": 71936, "global_step/max_steps": "281/6350"}
{"lm loss": 5.68811703, "grad_norm": 5.74484539, "learning_rate": 8.882e-05, "elapsed_time_per_iteration": 5.574512, "memory(GiB)": 28.03, "elapsed_time": "22m 43s", "remaining_time": "8h 9m 6s", "loss_scale": 1.0, "consumed_samples": 72192, "global_step/max_steps": "282/6350"}
{"lm loss": 5.6644516, "grad_norm": 4.33745861, "learning_rate": 8.913e-05, "elapsed_time_per_iteration": 4.66597486, "memory(GiB)": 28.03, "elapsed_time": "22m 48s", "remaining_time": "8h 8m 57s", "loss_scale": 1.0, "consumed_samples": 72448, "global_step/max_steps": "283/6350"}
{"lm loss": 5.66307259, "grad_norm": 4.96125746, "learning_rate": 8.945e-05, "elapsed_time_per_iteration": 5.59625649, "memory(GiB)": 28.03, "elapsed_time": "22m 54s", "remaining_time": "8h 9m 9s", "loss_scale": 1.0, "consumed_samples": 72704, "global_step/max_steps": "284/6350"}
{"lm loss": 5.6665864, "grad_norm": 3.81883311, "learning_rate": 8.976e-05, "elapsed_time_per_iteration": 4.81328058, "memory(GiB)": 28.03, "elapsed_time": "22m 58s", "remaining_time": "8h 9m 3s", "loss_scale": 1.0, "consumed_samples": 72960, "global_step/max_steps": "285/6350"}
{"lm loss": 5.66681385, "grad_norm": 6.17315102, "learning_rate": 9.008e-05, "elapsed_time_per_iteration": 5.77167726, "memory(GiB)": 28.03, "elapsed_time": "23m 4s", "remaining_time": "8h 9m 18s", "loss_scale": 1.0, "consumed_samples": 73216, "global_step/max_steps": "286/6350"}
{"lm loss": 5.65921736, "grad_norm": 2.73773694, "learning_rate": 9.039e-05, "elapsed_time_per_iteration": 4.72792816, "memory(GiB)": 28.03, "elapsed_time": "23m 9s", "remaining_time": "8h 9m 11s", "loss_scale": 1.0, "consumed_samples": 73472, "global_step/max_steps": "287/6350"}
{"lm loss": 5.6683979, "grad_norm": 5.06052876, "learning_rate": 9.071e-05, "elapsed_time_per_iteration": 4.64621401, "memory(GiB)": 28.03, "elapsed_time": "23m 14s", "remaining_time": "8h 9m 2s", "loss_scale": 1.0, "consumed_samples": 73728, "global_step/max_steps": "288/6350"}
{"lm loss": 5.66102886, "grad_norm": 3.65076947, "learning_rate": 9.102e-05, "elapsed_time_per_iteration": 4.71775341, "memory(GiB)": 28.03, "elapsed_time": "23m 18s", "remaining_time": "8h 8m 55s", "loss_scale": 1.0, "consumed_samples": 73984, "global_step/max_steps": "289/6350"}
{"lm loss": 5.66949892, "grad_norm": 4.77468681, "learning_rate": 9.134e-05, "elapsed_time_per_iteration": 4.72261667, "memory(GiB)": 28.03, "elapsed_time": "23m 23s", "remaining_time": "8h 8m 47s", "loss_scale": 1.0, "consumed_samples": 74240, "global_step/max_steps": "290/6350"}
{"lm loss": 5.64747429, "grad_norm": 3.80362988, "learning_rate": 9.165e-05, "elapsed_time_per_iteration": 5.23330474, "memory(GiB)": 28.03, "elapsed_time": "23m 28s", "remaining_time": "8h 8m 51s", "loss_scale": 1.0, "consumed_samples": 74496, "global_step/max_steps": "291/6350"}
{"lm loss": 5.65938854, "grad_norm": 3.47414732, "learning_rate": 9.197e-05, "elapsed_time_per_iteration": 4.6239512, "memory(GiB)": 28.03, "elapsed_time": "23m 33s", "remaining_time": "8h 8m 41s", "loss_scale": 1.0, "consumed_samples": 74752, "global_step/max_steps": "292/6350"}
{"lm loss": 5.66461229, "grad_norm": 4.81558514, "learning_rate": 9.228e-05, "elapsed_time_per_iteration": 4.75673652, "memory(GiB)": 28.03, "elapsed_time": "23m 38s", "remaining_time": "8h 8m 35s", "loss_scale": 1.0, "consumed_samples": 75008, "global_step/max_steps": "293/6350"}
{"lm loss": 5.6596036, "grad_norm": 3.96057773, "learning_rate": 9.26e-05, "elapsed_time_per_iteration": 4.99051142, "memory(GiB)": 28.03, "elapsed_time": "23m 43s", "remaining_time": "8h 8m 33s", "loss_scale": 1.0, "consumed_samples": 75264, "global_step/max_steps": "294/6350"}
{"lm loss": 5.65140724, "grad_norm": 4.43120003, "learning_rate": 9.291e-05, "elapsed_time_per_iteration": 4.67953157, "memory(GiB)": 28.03, "elapsed_time": "23m 47s", "remaining_time": "8h 8m 25s", "loss_scale": 1.0, "consumed_samples": 75520, "global_step/max_steps": "295/6350"}
{"lm loss": 5.66787434, "grad_norm": 4.63276386, "learning_rate": 9.323e-05, "elapsed_time_per_iteration": 4.66485977, "memory(GiB)": 28.03, "elapsed_time": "23m 52s", "remaining_time": "8h 8m 16s", "loss_scale": 1.0, "consumed_samples": 75776, "global_step/max_steps": "296/6350"}
{"lm loss": 5.6457262, "grad_norm": 3.86099815, "learning_rate": 9.354e-05, "elapsed_time_per_iteration": 4.70641732, "memory(GiB)": 28.03, "elapsed_time": "23m 57s", "remaining_time": "8h 8m 9s", "loss_scale": 1.0, "consumed_samples": 76032, "global_step/max_steps": "297/6350"}
{"lm loss": 5.63696432, "grad_norm": 3.92155313, "learning_rate": 9.386e-05, "elapsed_time_per_iteration": 4.65865159, "memory(GiB)": 28.03, "elapsed_time": "24m 1s", "remaining_time": "8h 8m 0s", "loss_scale": 1.0, "consumed_samples": 76288, "global_step/max_steps": "298/6350"}
{"lm loss": 5.6249733, "grad_norm": 4.43411636, "learning_rate": 9.417e-05, "elapsed_time_per_iteration": 4.77903295, "memory(GiB)": 28.03, "elapsed_time": "24m 6s", "remaining_time": "8h 7m 54s", "loss_scale": 1.0, "consumed_samples": 76544, "global_step/max_steps": "299/6350"}
{"lm loss": 5.63470125, "grad_norm": 3.91101122, "learning_rate": 9.449e-05, "elapsed_time_per_iteration": 4.81316066, "memory(GiB)": 28.03, "elapsed_time": "24m 11s", "remaining_time": "8h 7m 49s", "loss_scale": 1.0, "consumed_samples": 76800, "global_step/max_steps": "300/6350"}
{"lm loss": 5.63291073, "grad_norm": 3.74139977, "learning_rate": 9.48e-05, "elapsed_time_per_iteration": 4.72237849, "memory(GiB)": 28.03, "elapsed_time": "24m 16s", "remaining_time": "8h 7m 42s", "loss_scale": 1.0, "consumed_samples": 77056, "global_step/max_steps": "301/6350"}
{"lm loss": 5.64578056, "grad_norm": 4.62336683, "learning_rate": 9.512e-05, "elapsed_time_per_iteration": 4.69761944, "memory(GiB)": 28.03, "elapsed_time": "24m 20s", "remaining_time": "8h 7m 34s", "loss_scale": 1.0, "consumed_samples": 77312, "global_step/max_steps": "302/6350"}
{"lm loss": 5.63657236, "grad_norm": 3.34178352, "learning_rate": 9.543e-05, "elapsed_time_per_iteration": 4.75194144, "memory(GiB)": 28.03, "elapsed_time": "24m 25s", "remaining_time": "8h 7m 28s", "loss_scale": 1.0, "consumed_samples": 77568, "global_step/max_steps": "303/6350"}
{"lm loss": 5.63350105, "grad_norm": 3.85713959, "learning_rate": 9.575e-05, "elapsed_time_per_iteration": 4.72556233, "memory(GiB)": 28.03, "elapsed_time": "24m 30s", "remaining_time": "8h 7m 21s", "loss_scale": 1.0, "consumed_samples": 77824, "global_step/max_steps": "304/6350"}
{"lm loss": 5.60673571, "grad_norm": 3.85126519, "learning_rate": 9.606e-05, "elapsed_time_per_iteration": 4.72643185, "memory(GiB)": 28.03, "elapsed_time": "24m 35s", "remaining_time": "8h 7m 14s", "loss_scale": 1.0, "consumed_samples": 78080, "global_step/max_steps": "305/6350"}
{"lm loss": 5.62587786, "grad_norm": 4.37386942, "learning_rate": 9.638e-05, "elapsed_time_per_iteration": 4.66780496, "memory(GiB)": 28.03, "elapsed_time": "24m 39s", "remaining_time": "8h 7m 5s", "loss_scale": 1.0, "consumed_samples": 78336, "global_step/max_steps": "306/6350"}
{"lm loss": 5.63007832, "grad_norm": 3.26842928, "learning_rate": 9.669e-05, "elapsed_time_per_iteration": 4.75504303, "memory(GiB)": 28.03, "elapsed_time": "24m 44s", "remaining_time": "8h 6m 59s", "loss_scale": 1.0, "consumed_samples": 78592, "global_step/max_steps": "307/6350"}
{"lm loss": 5.63004827, "grad_norm": 6.20268345, "learning_rate": 9.701e-05, "elapsed_time_per_iteration": 4.79197383, "memory(GiB)": 28.03, "elapsed_time": "24m 49s", "remaining_time": "8h 6m 53s", "loss_scale": 1.0, "consumed_samples": 78848, "global_step/max_steps": "308/6350"}
{"lm loss": 5.62527132, "grad_norm": 3.2281723, "learning_rate": 9.732e-05, "elapsed_time_per_iteration": 4.71965718, "memory(GiB)": 28.03, "elapsed_time": "24m 53s", "remaining_time": "8h 6m 46s", "loss_scale": 1.0, "consumed_samples": 79104, "global_step/max_steps": "309/6350"}
{"lm loss": 5.652946, "grad_norm": 5.82562017, "learning_rate": 9.764e-05, "elapsed_time_per_iteration": 4.80987477, "memory(GiB)": 28.03, "elapsed_time": "24m 58s", "remaining_time": "8h 6m 41s", "loss_scale": 1.0, "consumed_samples": 79360, "global_step/max_steps": "310/6350"}
{"lm loss": 5.66119099, "grad_norm": 3.62466049, "learning_rate": 9.795e-05, "elapsed_time_per_iteration": 4.74085903, "memory(GiB)": 28.03, "elapsed_time": "25m 3s", "remaining_time": "8h 6m 34s", "loss_scale": 1.0, "consumed_samples": 79616, "global_step/max_steps": "311/6350"}
{"lm loss": 5.62782669, "grad_norm": 5.15389633, "learning_rate": 9.827e-05, "elapsed_time_per_iteration": 4.69784546, "memory(GiB)": 28.03, "elapsed_time": "25m 8s", "remaining_time": "8h 6m 27s", "loss_scale": 1.0, "consumed_samples": 79872, "global_step/max_steps": "312/6350"}
{"lm loss": 5.62010527, "grad_norm": 3.70861292, "learning_rate": 9.858e-05, "elapsed_time_per_iteration": 4.77948236, "memory(GiB)": 28.03, "elapsed_time": "25m 12s", "remaining_time": "8h 6m 21s", "loss_scale": 1.0, "consumed_samples": 80128, "global_step/max_steps": "313/6350"}
{"lm loss": 5.62517071, "grad_norm": 3.77779317, "learning_rate": 9.89e-05, "elapsed_time_per_iteration": 4.80811405, "memory(GiB)": 28.03, "elapsed_time": "25m 17s", "remaining_time": "8h 6m 16s", "loss_scale": 1.0, "consumed_samples": 80384, "global_step/max_steps": "314/6350"}
{"lm loss": 5.6116662, "grad_norm": 3.60152483, "learning_rate": 9.921e-05, "elapsed_time_per_iteration": 4.81523299, "memory(GiB)": 28.03, "elapsed_time": "25m 22s", "remaining_time": "8h 6m 10s", "loss_scale": 1.0, "consumed_samples": 80640, "global_step/max_steps": "315/6350"}
{"lm loss": 5.61381245, "grad_norm": 4.8465395, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 4.71117926, "memory(GiB)": 28.03, "elapsed_time": "25m 27s", "remaining_time": "8h 6m 3s", "loss_scale": 1.0, "consumed_samples": 80896, "global_step/max_steps": "316/6350"}
{"lm loss": 5.63166904, "grad_norm": 4.40893459, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.82449269, "memory(GiB)": 28.03, "elapsed_time": "25m 32s", "remaining_time": "8h 5m 58s", "loss_scale": 1.0, "consumed_samples": 81152, "global_step/max_steps": "317/6350"}
{"lm loss": 5.61254168, "grad_norm": 3.14795256, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.8724122, "memory(GiB)": 28.03, "elapsed_time": "25m 36s", "remaining_time": "8h 5m 54s", "loss_scale": 1.0, "consumed_samples": 81408, "global_step/max_steps": "318/6350"}
{"lm loss": 5.61851501, "grad_norm": 4.45066547, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.81963134, "memory(GiB)": 28.03, "elapsed_time": "25m 41s", "remaining_time": "8h 5m 49s", "loss_scale": 1.0, "consumed_samples": 81664, "global_step/max_steps": "319/6350"}
{"lm loss": 5.61304379, "grad_norm": 3.49789929, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.8255856, "memory(GiB)": 28.03, "elapsed_time": "25m 46s", "remaining_time": "8h 5m 44s", "loss_scale": 1.0, "consumed_samples": 81920, "global_step/max_steps": "320/6350"}
{"lm loss": 5.62410355, "grad_norm": 4.17628336, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.85500956, "memory(GiB)": 28.03, "elapsed_time": "25m 51s", "remaining_time": "8h 5m 40s", "loss_scale": 1.0, "consumed_samples": 82176, "global_step/max_steps": "321/6350"}
{"lm loss": 5.60874462, "grad_norm": 3.75418997, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.77455544, "memory(GiB)": 28.03, "elapsed_time": "25m 56s", "remaining_time": "8h 5m 34s", "loss_scale": 1.0, "consumed_samples": 82432, "global_step/max_steps": "322/6350"}
{"lm loss": 5.60675526, "grad_norm": 4.16397715, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.71580219, "memory(GiB)": 28.03, "elapsed_time": "26m 0s", "remaining_time": "8h 5m 27s", "loss_scale": 1.0, "consumed_samples": 82688, "global_step/max_steps": "323/6350"}
{"lm loss": 5.60671282, "grad_norm": 4.03536654, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.68226886, "memory(GiB)": 28.03, "elapsed_time": "26m 5s", "remaining_time": "8h 5m 19s", "loss_scale": 1.0, "consumed_samples": 82944, "global_step/max_steps": "324/6350"}
{"lm loss": 5.62579441, "grad_norm": 4.61596966, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.80632997, "memory(GiB)": 28.03, "elapsed_time": "26m 10s", "remaining_time": "8h 5m 14s", "loss_scale": 1.0, "consumed_samples": 83200, "global_step/max_steps": "325/6350"}
{"lm loss": 5.59627342, "grad_norm": 4.10343552, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.7176013, "memory(GiB)": 28.03, "elapsed_time": "26m 15s", "remaining_time": "8h 5m 7s", "loss_scale": 1.0, "consumed_samples": 83456, "global_step/max_steps": "326/6350"}
{"lm loss": 5.59554148, "grad_norm": 3.50907898, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.76894569, "memory(GiB)": 28.03, "elapsed_time": "26m 19s", "remaining_time": "8h 5m 1s", "loss_scale": 1.0, "consumed_samples": 83712, "global_step/max_steps": "327/6350"}
{"lm loss": 5.60958004, "grad_norm": 4.24494791, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.72866297, "memory(GiB)": 28.03, "elapsed_time": "26m 24s", "remaining_time": "8h 4m 54s", "loss_scale": 1.0, "consumed_samples": 83968, "global_step/max_steps": "328/6350"}
{"lm loss": 5.58697701, "grad_norm": 3.26794243, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.73739743, "memory(GiB)": 28.03, "elapsed_time": "26m 29s", "remaining_time": "8h 4m 48s", "loss_scale": 1.0, "consumed_samples": 84224, "global_step/max_steps": "329/6350"}
{"lm loss": 5.60429811, "grad_norm": 4.1114583, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.75523186, "memory(GiB)": 28.03, "elapsed_time": "26m 34s", "remaining_time": "8h 4m 41s", "loss_scale": 1.0, "consumed_samples": 84480, "global_step/max_steps": "330/6350"}
{"lm loss": 5.59085178, "grad_norm": 3.63900208, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.7732892, "memory(GiB)": 28.03, "elapsed_time": "26m 38s", "remaining_time": "8h 4m 35s", "loss_scale": 1.0, "consumed_samples": 84736, "global_step/max_steps": "331/6350"}
{"lm loss": 5.57924652, "grad_norm": 3.61083865, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.74181771, "memory(GiB)": 28.03, "elapsed_time": "26m 43s", "remaining_time": "8h 4m 29s", "loss_scale": 1.0, "consumed_samples": 84992, "global_step/max_steps": "332/6350"}
{"lm loss": 5.58733463, "grad_norm": 3.6413641, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.78924227, "memory(GiB)": 28.03, "elapsed_time": "26m 48s", "remaining_time": "8h 4m 23s", "loss_scale": 1.0, "consumed_samples": 85248, "global_step/max_steps": "333/6350"}
{"lm loss": 5.59248352, "grad_norm": 3.40894508, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.848948, "memory(GiB)": 28.03, "elapsed_time": "26m 53s", "remaining_time": "8h 4m 19s", "loss_scale": 1.0, "consumed_samples": 85504, "global_step/max_steps": "334/6350"}
{"lm loss": 5.58977795, "grad_norm": 3.61107826, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.77905798, "memory(GiB)": 28.03, "elapsed_time": "26m 58s", "remaining_time": "8h 4m 13s", "loss_scale": 1.0, "consumed_samples": 85760, "global_step/max_steps": "335/6350"}
{"lm loss": 5.58521366, "grad_norm": 4.40086651, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.74080014, "memory(GiB)": 28.03, "elapsed_time": "27m 2s", "remaining_time": "8h 4m 7s", "loss_scale": 1.0, "consumed_samples": 86016, "global_step/max_steps": "336/6350"}
{"lm loss": 5.59390688, "grad_norm": 1.90571773, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.62308335, "memory(GiB)": 28.03, "elapsed_time": "27m 7s", "remaining_time": "8h 3m 58s", "loss_scale": 1.0, "consumed_samples": 86272, "global_step/max_steps": "337/6350"}
{"lm loss": 5.60874796, "grad_norm": 5.32895088, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.63814902, "memory(GiB)": 28.03, "elapsed_time": "27m 12s", "remaining_time": "8h 3m 50s", "loss_scale": 1.0, "consumed_samples": 86528, "global_step/max_steps": "338/6350"}
{"lm loss": 5.58924723, "grad_norm": 3.44375324, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.78038263, "memory(GiB)": 28.03, "elapsed_time": "27m 16s", "remaining_time": "8h 3m 44s", "loss_scale": 1.0, "consumed_samples": 86784, "global_step/max_steps": "339/6350"}
{"lm loss": 5.59511042, "grad_norm": 3.85977125, "learning_rate": 0.0001, "elapsed_time_per_iteration": 5.46371722, "memory(GiB)": 28.03, "elapsed_time": "27m 22s", "remaining_time": "8h 3m 51s", "loss_scale": 1.0, "consumed_samples": 87040, "global_step/max_steps": "340/6350"}
{"lm loss": 5.5800333, "grad_norm": 4.12749815, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.7186904, "memory(GiB)": 28.03, "elapsed_time": "27m 27s", "remaining_time": "8h 3m 44s", "loss_scale": 1.0, "consumed_samples": 87296, "global_step/max_steps": "341/6350"}
{"lm loss": 5.59946632, "grad_norm": 3.40929723, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.76861358, "memory(GiB)": 28.03, "elapsed_time": "27m 31s", "remaining_time": "8h 3m 38s", "loss_scale": 1.0, "consumed_samples": 87552, "global_step/max_steps": "342/6350"}
{"lm loss": 5.59382772, "grad_norm": 3.37669635, "learning_rate": 0.0001, "elapsed_time_per_iteration": 5.4816277, "memory(GiB)": 28.03, "elapsed_time": "27m 37s", "remaining_time": "8h 3m 45s", "loss_scale": 1.0, "consumed_samples": 87808, "global_step/max_steps": "343/6350"}
{"lm loss": 5.59642792, "grad_norm": 4.03701687, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.75967002, "memory(GiB)": 28.03, "elapsed_time": "27m 42s", "remaining_time": "8h 3m 38s", "loss_scale": 1.0, "consumed_samples": 88064, "global_step/max_steps": "344/6350"}
{"lm loss": 5.57038403, "grad_norm": 3.57133603, "learning_rate": 0.0001, "elapsed_time_per_iteration": 4.65649462, "memory(GiB)": 28.03, "elapsed_time": "27m 46s", "remaining_time": "8h 3m 31s", "loss_scale": 1.0, "consumed_samples": 88320, "global_step/max_steps": "345/6350"}
{"lm loss": 5.58053732, "grad_norm": 3.22172046, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 5.54363132, "memory(GiB)": 28.03, "elapsed_time": "27m 52s", "remaining_time": "8h 3m 38s", "loss_scale": 1.0, "consumed_samples": 88576, "global_step/max_steps": "346/6350"}
{"lm loss": 5.58239269, "grad_norm": 3.61750317, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.70569348, "memory(GiB)": 28.03, "elapsed_time": "27m 56s", "remaining_time": "8h 3m 31s", "loss_scale": 1.0, "consumed_samples": 88832, "global_step/max_steps": "347/6350"}
{"lm loss": 5.57563066, "grad_norm": 3.31733322, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 5.64784765, "memory(GiB)": 28.03, "elapsed_time": "28m 2s", "remaining_time": "8h 3m 40s", "loss_scale": 1.0, "consumed_samples": 89088, "global_step/max_steps": "348/6350"}
{"lm loss": 5.56969881, "grad_norm": 3.46278548, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.68019748, "memory(GiB)": 28.03, "elapsed_time": "28m 7s", "remaining_time": "8h 3m 33s", "loss_scale": 1.0, "consumed_samples": 89344, "global_step/max_steps": "349/6350"}
{"lm loss": 5.57827806, "grad_norm": 3.83810115, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.68464947, "memory(GiB)": 28.03, "elapsed_time": "28m 12s", "remaining_time": "8h 3m 25s", "loss_scale": 1.0, "consumed_samples": 89600, "global_step/max_steps": "350/6350"}
{"lm loss": 5.54889488, "grad_norm": 3.33976483, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.76790929, "memory(GiB)": 28.03, "elapsed_time": "28m 16s", "remaining_time": "8h 3m 19s", "loss_scale": 1.0, "consumed_samples": 89856, "global_step/max_steps": "351/6350"}
{"lm loss": 5.57743645, "grad_norm": 3.86824155, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.73156309, "memory(GiB)": 28.03, "elapsed_time": "28m 21s", "remaining_time": "8h 3m 13s", "loss_scale": 1.0, "consumed_samples": 90112, "global_step/max_steps": "352/6350"}
{"lm loss": 5.54538631, "grad_norm": 3.4334383, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 5.58476496, "memory(GiB)": 28.03, "elapsed_time": "28m 27s", "remaining_time": "8h 3m 21s", "loss_scale": 1.0, "consumed_samples": 90368, "global_step/max_steps": "353/6350"}
{"lm loss": 5.58550406, "grad_norm": 3.83775067, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.763942, "memory(GiB)": 28.03, "elapsed_time": "28m 31s", "remaining_time": "8h 3m 15s", "loss_scale": 1.0, "consumed_samples": 90624, "global_step/max_steps": "354/6350"}
{"lm loss": 5.56099653, "grad_norm": 2.84381366, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.73988581, "memory(GiB)": 28.03, "elapsed_time": "28m 36s", "remaining_time": "8h 3m 8s", "loss_scale": 1.0, "consumed_samples": 90880, "global_step/max_steps": "355/6350"}
{"lm loss": 5.54281092, "grad_norm": 3.97197151, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.72156453, "memory(GiB)": 28.03, "elapsed_time": "28m 41s", "remaining_time": "8h 3m 1s", "loss_scale": 1.0, "consumed_samples": 91136, "global_step/max_steps": "356/6350"}
{"lm loss": 5.54825783, "grad_norm": 2.08948731, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.71911931, "memory(GiB)": 28.03, "elapsed_time": "28m 46s", "remaining_time": "8h 2m 55s", "loss_scale": 1.0, "consumed_samples": 91392, "global_step/max_steps": "357/6350"}
{"lm loss": 5.55318499, "grad_norm": 4.01404142, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 5.19733071, "memory(GiB)": 28.03, "elapsed_time": "28m 51s", "remaining_time": "8h 2m 56s", "loss_scale": 1.0, "consumed_samples": 91648, "global_step/max_steps": "358/6350"}
{"lm loss": 5.55433178, "grad_norm": 12.15216541, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 5.62180066, "memory(GiB)": 28.03, "elapsed_time": "28m 56s", "remaining_time": "8h 3m 4s", "loss_scale": 1.0, "consumed_samples": 91904, "global_step/max_steps": "359/6350"}
{"lm loss": 5.58479834, "grad_norm": 4.88196087, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.73845696, "memory(GiB)": 28.03, "elapsed_time": "29m 1s", "remaining_time": "8h 2m 58s", "loss_scale": 1.0, "consumed_samples": 92160, "global_step/max_steps": "360/6350"}
{"lm loss": 5.5599246, "grad_norm": 3.54236031, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.79617977, "memory(GiB)": 28.03, "elapsed_time": "29m 6s", "remaining_time": "8h 2m 52s", "loss_scale": 1.0, "consumed_samples": 92416, "global_step/max_steps": "361/6350"}
{"lm loss": 5.56684589, "grad_norm": 3.50041389, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.7264266, "memory(GiB)": 28.03, "elapsed_time": "29m 11s", "remaining_time": "8h 2m 46s", "loss_scale": 1.0, "consumed_samples": 92672, "global_step/max_steps": "362/6350"}
{"lm loss": 5.56302118, "grad_norm": 3.47458816, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.72045851, "memory(GiB)": 28.03, "elapsed_time": "29m 15s", "remaining_time": "8h 2m 39s", "loss_scale": 1.0, "consumed_samples": 92928, "global_step/max_steps": "363/6350"}
{"lm loss": 5.54116392, "grad_norm": 3.601264, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.68049216, "memory(GiB)": 28.03, "elapsed_time": "29m 20s", "remaining_time": "8h 2m 31s", "loss_scale": 1.0, "consumed_samples": 93184, "global_step/max_steps": "364/6350"}
{"lm loss": 5.54950714, "grad_norm": 3.69499564, "learning_rate": 9.999e-05, "elapsed_time_per_iteration": 4.6725328, "memory(GiB)": 28.03, "elapsed_time": "29m 25s", "remaining_time": "8h 2m 24s", "loss_scale": 1.0, "consumed_samples": 93440, "global_step/max_steps": "365/6350"}
{"lm loss": 5.56592607, "grad_norm": 3.56729174, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.67350602, "memory(GiB)": 28.03, "elapsed_time": "29m 29s", "remaining_time": "8h 2m 16s", "loss_scale": 1.0, "consumed_samples": 93696, "global_step/max_steps": "366/6350"}
{"lm loss": 5.55483723, "grad_norm": 2.91399765, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.67088604, "memory(GiB)": 28.03, "elapsed_time": "29m 34s", "remaining_time": "8h 2m 9s", "loss_scale": 1.0, "consumed_samples": 93952, "global_step/max_steps": "367/6350"}
{"lm loss": 5.53889847, "grad_norm": 4.20925188, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.74696136, "memory(GiB)": 28.03, "elapsed_time": "29m 39s", "remaining_time": "8h 2m 3s", "loss_scale": 1.0, "consumed_samples": 94208, "global_step/max_steps": "368/6350"}
{"lm loss": 5.52619839, "grad_norm": 2.80972052, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.79325938, "memory(GiB)": 28.03, "elapsed_time": "29m 44s", "remaining_time": "8h 1m 57s", "loss_scale": 1.0, "consumed_samples": 94464, "global_step/max_steps": "369/6350"}
{"lm loss": 5.54171038, "grad_norm": 3.53018236, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.72093034, "memory(GiB)": 28.03, "elapsed_time": "29m 48s", "remaining_time": "8h 1m 50s", "loss_scale": 1.0, "consumed_samples": 94720, "global_step/max_steps": "370/6350"}
{"lm loss": 5.52998734, "grad_norm": 3.25978732, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.66798282, "memory(GiB)": 28.03, "elapsed_time": "29m 53s", "remaining_time": "8h 1m 43s", "loss_scale": 1.0, "consumed_samples": 94976, "global_step/max_steps": "371/6350"}
{"lm loss": 5.53399611, "grad_norm": 3.74558258, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.7447741, "memory(GiB)": 28.03, "elapsed_time": "29m 58s", "remaining_time": "8h 1m 37s", "loss_scale": 1.0, "consumed_samples": 95232, "global_step/max_steps": "372/6350"}
{"lm loss": 5.54306173, "grad_norm": 2.5153451, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.80807495, "memory(GiB)": 28.03, "elapsed_time": "30m 3s", "remaining_time": "8h 1m 31s", "loss_scale": 1.0, "consumed_samples": 95488, "global_step/max_steps": "373/6350"}
{"lm loss": 5.54992676, "grad_norm": 4.01173496, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.77032471, "memory(GiB)": 28.03, "elapsed_time": "30m 7s", "remaining_time": "8h 1m 25s", "loss_scale": 1.0, "consumed_samples": 95744, "global_step/max_steps": "374/6350"}
{"lm loss": 5.52853632, "grad_norm": 2.46710086, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.66095424, "memory(GiB)": 28.03, "elapsed_time": "30m 12s", "remaining_time": "8h 1m 18s", "loss_scale": 1.0, "consumed_samples": 96000, "global_step/max_steps": "375/6350"}
{"lm loss": 5.53499174, "grad_norm": 3.52237844, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.72813439, "memory(GiB)": 28.03, "elapsed_time": "30m 17s", "remaining_time": "8h 1m 11s", "loss_scale": 1.0, "consumed_samples": 96256, "global_step/max_steps": "376/6350"}
{"lm loss": 5.51851749, "grad_norm": 2.89432192, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.73545861, "memory(GiB)": 28.03, "elapsed_time": "30m 21s", "remaining_time": "8h 1m 5s", "loss_scale": 1.0, "consumed_samples": 96512, "global_step/max_steps": "377/6350"}
{"lm loss": 5.54389334, "grad_norm": 2.88362145, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.7862606, "memory(GiB)": 28.03, "elapsed_time": "30m 26s", "remaining_time": "8h 0m 59s", "loss_scale": 1.0, "consumed_samples": 96768, "global_step/max_steps": "378/6350"}
{"lm loss": 5.53949356, "grad_norm": 4.17535925, "learning_rate": 9.998e-05, "elapsed_time_per_iteration": 4.68414092, "memory(GiB)": 28.03, "elapsed_time": "30m 31s", "remaining_time": "8h 0m 52s", "loss_scale": 1.0, "consumed_samples": 97024, "global_step/max_steps": "379/6350"}
{"lm loss": 5.53986788, "grad_norm": 3.20218372, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.73332429, "memory(GiB)": 28.03, "elapsed_time": "30m 36s", "remaining_time": "8h 0m 46s", "loss_scale": 1.0, "consumed_samples": 97280, "global_step/max_steps": "380/6350"}
{"lm loss": 5.5177145, "grad_norm": 3.46630716, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.75072694, "memory(GiB)": 28.03, "elapsed_time": "30m 40s", "remaining_time": "8h 0m 40s", "loss_scale": 1.0, "consumed_samples": 97536, "global_step/max_steps": "381/6350"}
{"lm loss": 5.52043772, "grad_norm": 2.05732346, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.715132, "memory(GiB)": 28.03, "elapsed_time": "30m 45s", "remaining_time": "8h 0m 33s", "loss_scale": 1.0, "consumed_samples": 97792, "global_step/max_steps": "382/6350"}
{"lm loss": 5.53336239, "grad_norm": 4.5067873, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.71792531, "memory(GiB)": 28.03, "elapsed_time": "30m 50s", "remaining_time": "8h 0m 27s", "loss_scale": 1.0, "consumed_samples": 98048, "global_step/max_steps": "383/6350"}
{"lm loss": 5.55362511, "grad_norm": 2.44689846, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.74900746, "memory(GiB)": 28.03, "elapsed_time": "30m 55s", "remaining_time": "8h 0m 20s", "loss_scale": 1.0, "consumed_samples": 98304, "global_step/max_steps": "384/6350"}
{"lm loss": 5.52672148, "grad_norm": 4.01668406, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.77273822, "memory(GiB)": 28.03, "elapsed_time": "30m 59s", "remaining_time": "8h 0m 15s", "loss_scale": 1.0, "consumed_samples": 98560, "global_step/max_steps": "385/6350"}
{"lm loss": 5.52656603, "grad_norm": 2.63478684, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.72225857, "memory(GiB)": 28.03, "elapsed_time": "31m 4s", "remaining_time": "8h 0m 8s", "loss_scale": 1.0, "consumed_samples": 98816, "global_step/max_steps": "386/6350"}
{"lm loss": 5.54519987, "grad_norm": 2.4399786, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.76334023, "memory(GiB)": 28.03, "elapsed_time": "31m 9s", "remaining_time": "8h 0m 2s", "loss_scale": 1.0, "consumed_samples": 99072, "global_step/max_steps": "387/6350"}
{"lm loss": 5.53583622, "grad_norm": 3.63797736, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.75603461, "memory(GiB)": 28.03, "elapsed_time": "31m 14s", "remaining_time": "7h 59m 56s", "loss_scale": 1.0, "consumed_samples": 99328, "global_step/max_steps": "388/6350"}
{"lm loss": 5.54579163, "grad_norm": 3.30345368, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 4.74916315, "memory(GiB)": 28.03, "elapsed_time": "31m 18s", "remaining_time": "7h 59m 50s", "loss_scale": 1.0, "consumed_samples": 99584, "global_step/max_steps": "389/6350"}
{"lm loss": 5.52867603, "grad_norm": 3.11895895, "learning_rate": 9.997e-05, "elapsed_time_per_iteration": 5.40362763, "memory(GiB)": 28.03, "elapsed_time": "31m 24s", "remaining_time": "7h 59m 54s", "loss_scale": 1.0, "consumed_samples": 99840, "global_step/max_steps": "390/6350"}
{"lm loss": 5.52003193, "grad_norm": 3.87952638, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.75679278, "memory(GiB)": 28.03, "elapsed_time": "31m 28s", "remaining_time": "7h 59m 48s", "loss_scale": 1.0, "consumed_samples": 100096, "global_step/max_steps": "391/6350"}
{"lm loss": 5.52437162, "grad_norm": 3.10001588, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.79458356, "memory(GiB)": 28.03, "elapsed_time": "31m 33s", "remaining_time": "7h 59m 43s", "loss_scale": 1.0, "consumed_samples": 100352, "global_step/max_steps": "392/6350"}
{"lm loss": 5.52396536, "grad_norm": 2.5549922, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.75207019, "memory(GiB)": 28.03, "elapsed_time": "31m 38s", "remaining_time": "7h 59m 37s", "loss_scale": 1.0, "consumed_samples": 100608, "global_step/max_steps": "393/6350"}
{"lm loss": 5.52707481, "grad_norm": 3.21404028, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.73276591, "memory(GiB)": 28.03, "elapsed_time": "31m 43s", "remaining_time": "7h 59m 31s", "loss_scale": 1.0, "consumed_samples": 100864, "global_step/max_steps": "394/6350"}
{"lm loss": 5.500175, "grad_norm": 3.45278621, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.71825719, "memory(GiB)": 28.03, "elapsed_time": "31m 47s", "remaining_time": "7h 59m 24s", "loss_scale": 1.0, "consumed_samples": 101120, "global_step/max_steps": "395/6350"}
{"lm loss": 5.53004551, "grad_norm": 2.77133536, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.6828413, "memory(GiB)": 28.03, "elapsed_time": "31m 52s", "remaining_time": "7h 59m 17s", "loss_scale": 1.0, "consumed_samples": 101376, "global_step/max_steps": "396/6350"}
{"lm loss": 5.51068211, "grad_norm": 2.62151241, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.74525642, "memory(GiB)": 28.03, "elapsed_time": "31m 57s", "remaining_time": "7h 59m 11s", "loss_scale": 1.0, "consumed_samples": 101632, "global_step/max_steps": "397/6350"}
{"lm loss": 5.50560999, "grad_norm": 3.27664971, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 5.48237967, "memory(GiB)": 28.03, "elapsed_time": "32m 2s", "remaining_time": "7h 59m 16s", "loss_scale": 1.0, "consumed_samples": 101888, "global_step/max_steps": "398/6350"}
{"lm loss": 5.51520252, "grad_norm": 2.97874379, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 4.67137027, "memory(GiB)": 28.03, "elapsed_time": "32m 7s", "remaining_time": "7h 59m 9s", "loss_scale": 1.0, "consumed_samples": 102144, "global_step/max_steps": "399/6350"}
{"lm loss": 5.52203035, "grad_norm": 3.38467097, "learning_rate": 9.996e-05, "elapsed_time_per_iteration": 5.571275, "memory(GiB)": 28.03, "elapsed_time": "32m 13s", "remaining_time": "7h 59m 15s", "loss_scale": 1.0, "consumed_samples": 102400, "global_step/max_steps": "400/6350"}
{"lm loss": 5.52382421, "grad_norm": 2.67882299, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 5.55064988, "memory(GiB)": 28.03, "elapsed_time": "32m 18s", "remaining_time": "7h 59m 21s", "loss_scale": 1.0, "consumed_samples": 102656, "global_step/max_steps": "401/6350"}
{"lm loss": 5.52153587, "grad_norm": 4.12550068, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.67923498, "memory(GiB)": 28.03, "elapsed_time": "32m 23s", "remaining_time": "7h 59m 13s", "loss_scale": 1.0, "consumed_samples": 102912, "global_step/max_steps": "402/6350"}
{"lm loss": 5.49865866, "grad_norm": 2.77316022, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.81881666, "memory(GiB)": 28.03, "elapsed_time": "32m 28s", "remaining_time": "7h 59m 8s", "loss_scale": 1.0, "consumed_samples": 103168, "global_step/max_steps": "403/6350"}
{"lm loss": 5.5160799, "grad_norm": 3.23892736, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.66087437, "memory(GiB)": 28.03, "elapsed_time": "32m 32s", "remaining_time": "7h 59m 1s", "loss_scale": 1.0, "consumed_samples": 103424, "global_step/max_steps": "404/6350"}
{"lm loss": 5.50342321, "grad_norm": 3.04445267, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.79402637, "memory(GiB)": 28.03, "elapsed_time": "32m 37s", "remaining_time": "7h 58m 56s", "loss_scale": 1.0, "consumed_samples": 103680, "global_step/max_steps": "405/6350"}
{"lm loss": 5.51034212, "grad_norm": 3.59228563, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 5.36625218, "memory(GiB)": 28.03, "elapsed_time": "32m 42s", "remaining_time": "7h 58m 59s", "loss_scale": 1.0, "consumed_samples": 103936, "global_step/max_steps": "406/6350"}
{"lm loss": 5.48509598, "grad_norm": 2.28144979, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.71572256, "memory(GiB)": 28.03, "elapsed_time": "32m 47s", "remaining_time": "7h 58m 52s", "loss_scale": 1.0, "consumed_samples": 104192, "global_step/max_steps": "407/6350"}
{"lm loss": 5.48444653, "grad_norm": 3.42351675, "learning_rate": 9.995e-05, "elapsed_time_per_iteration": 4.67086697, "memory(GiB)": 28.03, "elapsed_time": "32m 52s", "remaining_time": "7h 58m 45s", "loss_scale": 1.0, "consumed_samples": 104448, "global_step/max_steps": "408/6350"}
{"lm loss": 5.49420834, "grad_norm": 2.78146958, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.73797274, "memory(GiB)": 28.03, "elapsed_time": "32m 57s", "remaining_time": "7h 58m 38s", "loss_scale": 1.0, "consumed_samples": 104704, "global_step/max_steps": "409/6350"}
{"lm loss": 5.50257587, "grad_norm": 3.07978058, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.69939065, "memory(GiB)": 28.03, "elapsed_time": "33m 1s", "remaining_time": "7h 58m 32s", "loss_scale": 1.0, "consumed_samples": 104960, "global_step/max_steps": "410/6350"}
{"lm loss": 5.50560808, "grad_norm": 3.38581014, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.68869638, "memory(GiB)": 28.03, "elapsed_time": "33m 6s", "remaining_time": "7h 58m 25s", "loss_scale": 1.0, "consumed_samples": 105216, "global_step/max_steps": "411/6350"}
{"lm loss": 5.50639296, "grad_norm": 2.7242434, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.77926207, "memory(GiB)": 28.03, "elapsed_time": "33m 11s", "remaining_time": "7h 58m 19s", "loss_scale": 1.0, "consumed_samples": 105472, "global_step/max_steps": "412/6350"}
{"lm loss": 5.4957056, "grad_norm": 3.68533945, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.72916651, "memory(GiB)": 28.03, "elapsed_time": "33m 16s", "remaining_time": "7h 58m 13s", "loss_scale": 1.0, "consumed_samples": 105728, "global_step/max_steps": "413/6350"}
{"lm loss": 5.49347115, "grad_norm": 2.38006878, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.6965425, "memory(GiB)": 28.03, "elapsed_time": "33m 20s", "remaining_time": "7h 58m 6s", "loss_scale": 1.0, "consumed_samples": 105984, "global_step/max_steps": "414/6350"}
{"lm loss": 5.47978878, "grad_norm": 3.31004381, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 4.73161745, "memory(GiB)": 28.03, "elapsed_time": "33m 25s", "remaining_time": "7h 58m 0s", "loss_scale": 1.0, "consumed_samples": 106240, "global_step/max_steps": "415/6350"}
{"lm loss": 5.4892416, "grad_norm": 2.64401412, "learning_rate": 9.994e-05, "elapsed_time_per_iteration": 5.67408967, "memory(GiB)": 28.03, "elapsed_time": "33m 31s", "remaining_time": "7h 58m 7s", "loss_scale": 1.0, "consumed_samples": 106496, "global_step/max_steps": "416/6350"}
{"lm loss": 5.50480938, "grad_norm": 3.0740149, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.71027327, "memory(GiB)": 28.03, "elapsed_time": "33m 35s", "remaining_time": "7h 58m 0s", "loss_scale": 1.0, "consumed_samples": 106752, "global_step/max_steps": "417/6350"}
{"lm loss": 5.49925137, "grad_norm": 2.8068862, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.80047846, "memory(GiB)": 28.03, "elapsed_time": "33m 40s", "remaining_time": "7h 57m 55s", "loss_scale": 1.0, "consumed_samples": 107008, "global_step/max_steps": "418/6350"}
{"lm loss": 5.5092864, "grad_norm": 2.64294004, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.81364393, "memory(GiB)": 28.03, "elapsed_time": "33m 45s", "remaining_time": "7h 57m 50s", "loss_scale": 1.0, "consumed_samples": 107264, "global_step/max_steps": "419/6350"}
{"lm loss": 5.47530794, "grad_norm": 4.13883162, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 5.2796576, "memory(GiB)": 28.03, "elapsed_time": "33m 50s", "remaining_time": "7h 57m 51s", "loss_scale": 1.0, "consumed_samples": 107520, "global_step/max_steps": "420/6350"}
{"lm loss": 5.4798975, "grad_norm": 2.47341251, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.64916277, "memory(GiB)": 28.03, "elapsed_time": "33m 55s", "remaining_time": "7h 57m 44s", "loss_scale": 1.0, "consumed_samples": 107776, "global_step/max_steps": "421/6350"}
{"lm loss": 5.4951787, "grad_norm": 3.01285195, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.72687006, "memory(GiB)": 28.03, "elapsed_time": "34m 0s", "remaining_time": "7h 57m 38s", "loss_scale": 1.0, "consumed_samples": 108032, "global_step/max_steps": "422/6350"}
{"lm loss": 5.46378708, "grad_norm": 2.0605495, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.69078994, "memory(GiB)": 28.03, "elapsed_time": "34m 4s", "remaining_time": "7h 57m 31s", "loss_scale": 1.0, "consumed_samples": 108288, "global_step/max_steps": "423/6350"}
{"lm loss": 5.49389553, "grad_norm": 3.3298018, "learning_rate": 9.993e-05, "elapsed_time_per_iteration": 4.75207114, "memory(GiB)": 28.03, "elapsed_time": "34m 9s", "remaining_time": "7h 57m 25s", "loss_scale": 1.0, "consumed_samples": 108544, "global_step/max_steps": "424/6350"}
{"lm loss": 5.47245359, "grad_norm": 3.1659441, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.68121624, "memory(GiB)": 28.03, "elapsed_time": "34m 14s", "remaining_time": "7h 57m 18s", "loss_scale": 1.0, "consumed_samples": 108800, "global_step/max_steps": "425/6350"}
{"lm loss": 5.48283148, "grad_norm": 2.79118228, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.71054649, "memory(GiB)": 28.03, "elapsed_time": "34m 18s", "remaining_time": "7h 57m 11s", "loss_scale": 1.0, "consumed_samples": 109056, "global_step/max_steps": "426/6350"}
{"lm loss": 5.4864707, "grad_norm": 2.95366144, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.75564504, "memory(GiB)": 28.03, "elapsed_time": "34m 23s", "remaining_time": "7h 57m 5s", "loss_scale": 1.0, "consumed_samples": 109312, "global_step/max_steps": "427/6350"}
{"lm loss": 5.48714542, "grad_norm": 2.89276886, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.73722506, "memory(GiB)": 28.03, "elapsed_time": "34m 28s", "remaining_time": "7h 56m 59s", "loss_scale": 1.0, "consumed_samples": 109568, "global_step/max_steps": "428/6350"}
{"lm loss": 5.47294569, "grad_norm": 3.05559707, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.70072198, "memory(GiB)": 28.03, "elapsed_time": "34m 33s", "remaining_time": "7h 56m 53s", "loss_scale": 1.0, "consumed_samples": 109824, "global_step/max_steps": "429/6350"}
{"lm loss": 5.46925879, "grad_norm": 2.67557144, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.68753123, "memory(GiB)": 28.03, "elapsed_time": "34m 37s", "remaining_time": "7h 56m 46s", "loss_scale": 1.0, "consumed_samples": 110080, "global_step/max_steps": "430/6350"}
{"lm loss": 5.49103689, "grad_norm": 3.12045527, "learning_rate": 9.992e-05, "elapsed_time_per_iteration": 4.71069837, "memory(GiB)": 28.03, "elapsed_time": "34m 42s", "remaining_time": "7h 56m 39s", "loss_scale": 1.0, "consumed_samples": 110336, "global_step/max_steps": "431/6350"}
{"lm loss": 5.47669935, "grad_norm": 2.71998072, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.68647075, "memory(GiB)": 28.03, "elapsed_time": "34m 47s", "remaining_time": "7h 56m 32s", "loss_scale": 1.0, "consumed_samples": 110592, "global_step/max_steps": "432/6350"}
{"lm loss": 5.4554472, "grad_norm": 3.30618834, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.68323088, "memory(GiB)": 28.03, "elapsed_time": "34m 51s", "remaining_time": "7h 56m 26s", "loss_scale": 1.0, "consumed_samples": 110848, "global_step/max_steps": "433/6350"}
{"lm loss": 5.45657444, "grad_norm": 2.80735707, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.7616601, "memory(GiB)": 28.03, "elapsed_time": "34m 56s", "remaining_time": "7h 56m 20s", "loss_scale": 1.0, "consumed_samples": 111104, "global_step/max_steps": "434/6350"}
{"lm loss": 5.48771906, "grad_norm": 2.92759371, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.70058084, "memory(GiB)": 28.03, "elapsed_time": "35m 1s", "remaining_time": "7h 56m 13s", "loss_scale": 1.0, "consumed_samples": 111360, "global_step/max_steps": "435/6350"}
{"lm loss": 5.46428394, "grad_norm": 2.26646924, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.73704171, "memory(GiB)": 28.03, "elapsed_time": "35m 6s", "remaining_time": "7h 56m 7s", "loss_scale": 1.0, "consumed_samples": 111616, "global_step/max_steps": "436/6350"}
{"lm loss": 5.4923749, "grad_norm": 3.55193734, "learning_rate": 9.991e-05, "elapsed_time_per_iteration": 4.74287462, "memory(GiB)": 28.03, "elapsed_time": "35m 10s", "remaining_time": "7h 56m 1s", "loss_scale": 1.0, "consumed_samples": 111872, "global_step/max_steps": "437/6350"}
{"lm loss": 5.46068478, "grad_norm": 2.83637571, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.70625162, "memory(GiB)": 28.03, "elapsed_time": "35m 15s", "remaining_time": "7h 55m 54s", "loss_scale": 1.0, "consumed_samples": 112128, "global_step/max_steps": "438/6350"}
{"lm loss": 5.47513533, "grad_norm": 3.29251957, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.65626979, "memory(GiB)": 28.03, "elapsed_time": "35m 20s", "remaining_time": "7h 55m 47s", "loss_scale": 1.0, "consumed_samples": 112384, "global_step/max_steps": "439/6350"}
{"lm loss": 5.44576693, "grad_norm": 2.39913487, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.70234323, "memory(GiB)": 28.03, "elapsed_time": "35m 24s", "remaining_time": "7h 55m 41s", "loss_scale": 1.0, "consumed_samples": 112640, "global_step/max_steps": "440/6350"}
{"lm loss": 5.48602724, "grad_norm": 3.0790422, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.68137574, "memory(GiB)": 28.03, "elapsed_time": "35m 29s", "remaining_time": "7h 55m 34s", "loss_scale": 1.0, "consumed_samples": 112896, "global_step/max_steps": "441/6350"}
{"lm loss": 5.47604942, "grad_norm": 2.71069336, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.731601, "memory(GiB)": 28.03, "elapsed_time": "35m 34s", "remaining_time": "7h 55m 28s", "loss_scale": 1.0, "consumed_samples": 113152, "global_step/max_steps": "442/6350"}
{"lm loss": 5.46815491, "grad_norm": 2.72894597, "learning_rate": 9.99e-05, "elapsed_time_per_iteration": 4.73017812, "memory(GiB)": 28.03, "elapsed_time": "35m 39s", "remaining_time": "7h 55m 22s", "loss_scale": 1.0, "consumed_samples": 113408, "global_step/max_steps": "443/6350"}
{"lm loss": 5.44580317, "grad_norm": 3.2829926, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.7744472, "memory(GiB)": 28.03, "elapsed_time": "35m 43s", "remaining_time": "7h 55m 16s", "loss_scale": 1.0, "consumed_samples": 113664, "global_step/max_steps": "444/6350"}
{"lm loss": 5.45590878, "grad_norm": 2.24103308, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.73425698, "memory(GiB)": 28.03, "elapsed_time": "35m 48s", "remaining_time": "7h 55m 10s", "loss_scale": 1.0, "consumed_samples": 113920, "global_step/max_steps": "445/6350"}
{"lm loss": 5.4625349, "grad_norm": 3.0556612, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 5.37999916, "memory(GiB)": 28.03, "elapsed_time": "35m 53s", "remaining_time": "7h 55m 13s", "loss_scale": 1.0, "consumed_samples": 114176, "global_step/max_steps": "446/6350"}
{"lm loss": 5.45096159, "grad_norm": 3.71233988, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.66922522, "memory(GiB)": 28.03, "elapsed_time": "35m 58s", "remaining_time": "7h 55m 6s", "loss_scale": 1.0, "consumed_samples": 114432, "global_step/max_steps": "447/6350"}
{"lm loss": 5.44314051, "grad_norm": 1.92164409, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.73279953, "memory(GiB)": 28.03, "elapsed_time": "36m 3s", "remaining_time": "7h 55m 0s", "loss_scale": 1.0, "consumed_samples": 114688, "global_step/max_steps": "448/6350"}
{"lm loss": 5.47546864, "grad_norm": 3.21146297, "learning_rate": 9.989e-05, "elapsed_time_per_iteration": 4.70811105, "memory(GiB)": 28.03, "elapsed_time": "36m 8s", "remaining_time": "7h 54m 53s", "loss_scale": 1.0, "consumed_samples": 114944, "global_step/max_steps": "449/6350"}
{"lm loss": 5.47522783, "grad_norm": 2.28121805, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.69740486, "memory(GiB)": 28.03, "elapsed_time": "36m 12s", "remaining_time": "7h 54m 47s", "loss_scale": 1.0, "consumed_samples": 115200, "global_step/max_steps": "450/6350"}
{"lm loss": 5.46751404, "grad_norm": 4.40853405, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 5.29369473, "memory(GiB)": 28.03, "elapsed_time": "36m 18s", "remaining_time": "7h 54m 48s", "loss_scale": 1.0, "consumed_samples": 115456, "global_step/max_steps": "451/6350"}
{"lm loss": 5.47057152, "grad_norm": 2.33080482, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 5.65289521, "memory(GiB)": 28.03, "elapsed_time": "36m 23s", "remaining_time": "7h 54m 54s", "loss_scale": 1.0, "consumed_samples": 115712, "global_step/max_steps": "452/6350"}
{"lm loss": 5.46266747, "grad_norm": 3.05831909, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 5.59638119, "memory(GiB)": 28.03, "elapsed_time": "36m 29s", "remaining_time": "7h 54m 59s", "loss_scale": 1.0, "consumed_samples": 115968, "global_step/max_steps": "453/6350"}
{"lm loss": 5.46842813, "grad_norm": 3.77293301, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.67618036, "memory(GiB)": 28.03, "elapsed_time": "36m 33s", "remaining_time": "7h 54m 52s", "loss_scale": 1.0, "consumed_samples": 116224, "global_step/max_steps": "454/6350"}
{"lm loss": 5.47424793, "grad_norm": 2.15650916, "learning_rate": 9.988e-05, "elapsed_time_per_iteration": 4.74775577, "memory(GiB)": 28.03, "elapsed_time": "36m 38s", "remaining_time": "7h 54m 46s", "loss_scale": 1.0, "consumed_samples": 116480, "global_step/max_steps": "455/6350"}
{"lm loss": 5.4543457, "grad_norm": 3.43660235, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.69517612, "memory(GiB)": 28.03, "elapsed_time": "36m 43s", "remaining_time": "7h 54m 39s", "loss_scale": 1.0, "consumed_samples": 116736, "global_step/max_steps": "456/6350"}
{"lm loss": 5.45201349, "grad_norm": 2.18405271, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.70530152, "memory(GiB)": 28.03, "elapsed_time": "36m 48s", "remaining_time": "7h 54m 33s", "loss_scale": 1.0, "consumed_samples": 116992, "global_step/max_steps": "457/6350"}
{"lm loss": 5.47756147, "grad_norm": 3.53772449, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.72069049, "memory(GiB)": 28.03, "elapsed_time": "36m 52s", "remaining_time": "7h 54m 27s", "loss_scale": 1.0, "consumed_samples": 117248, "global_step/max_steps": "458/6350"}
{"lm loss": 5.46513987, "grad_norm": 3.28486705, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.66786337, "memory(GiB)": 28.03, "elapsed_time": "36m 57s", "remaining_time": "7h 54m 20s", "loss_scale": 1.0, "consumed_samples": 117504, "global_step/max_steps": "459/6350"}
{"lm loss": 5.43600368, "grad_norm": 2.61081314, "learning_rate": 9.987e-05, "elapsed_time_per_iteration": 4.71968842, "memory(GiB)": 28.03, "elapsed_time": "37m 2s", "remaining_time": "7h 54m 14s", "loss_scale": 1.0, "consumed_samples": 117760, "global_step/max_steps": "460/6350"}
{"lm loss": 5.46421862, "grad_norm": 3.71333265, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.73911548, "memory(GiB)": 28.03, "elapsed_time": "37m 6s", "remaining_time": "7h 54m 8s", "loss_scale": 1.0, "consumed_samples": 118016, "global_step/max_steps": "461/6350"}
{"lm loss": 5.4637351, "grad_norm": 2.29821444, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.81911731, "memory(GiB)": 28.03, "elapsed_time": "37m 11s", "remaining_time": "7h 54m 3s", "loss_scale": 1.0, "consumed_samples": 118272, "global_step/max_steps": "462/6350"}
{"lm loss": 5.45019388, "grad_norm": 3.24971557, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.77095032, "memory(GiB)": 28.03, "elapsed_time": "37m 16s", "remaining_time": "7h 53m 57s", "loss_scale": 1.0, "consumed_samples": 118528, "global_step/max_steps": "463/6350"}
{"lm loss": 5.44101334, "grad_norm": 2.86224341, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.92356443, "memory(GiB)": 28.03, "elapsed_time": "37m 21s", "remaining_time": "7h 53m 53s", "loss_scale": 1.0, "consumed_samples": 118784, "global_step/max_steps": "464/6350"}
{"lm loss": 5.44459152, "grad_norm": 2.428231, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.7539041, "memory(GiB)": 28.03, "elapsed_time": "37m 26s", "remaining_time": "7h 53m 48s", "loss_scale": 1.0, "consumed_samples": 119040, "global_step/max_steps": "465/6350"}
{"lm loss": 5.41963673, "grad_norm": 3.16880488, "learning_rate": 9.986e-05, "elapsed_time_per_iteration": 4.85170674, "memory(GiB)": 28.03, "elapsed_time": "37m 31s", "remaining_time": "7h 53m 43s", "loss_scale": 1.0, "consumed_samples": 119296, "global_step/max_steps": "466/6350"}
{"lm loss": 5.43603659, "grad_norm": 2.84043479, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.82195234, "memory(GiB)": 28.03, "elapsed_time": "37m 35s", "remaining_time": "7h 53m 38s", "loss_scale": 1.0, "consumed_samples": 119552, "global_step/max_steps": "467/6350"}
{"lm loss": 5.43497562, "grad_norm": 2.08612871, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.85590506, "memory(GiB)": 28.03, "elapsed_time": "37m 40s", "remaining_time": "7h 53m 33s", "loss_scale": 1.0, "consumed_samples": 119808, "global_step/max_steps": "468/6350"}
{"lm loss": 5.45213509, "grad_norm": 3.64855051, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.83974957, "memory(GiB)": 28.03, "elapsed_time": "37m 45s", "remaining_time": "7h 53m 29s", "loss_scale": 1.0, "consumed_samples": 120064, "global_step/max_steps": "469/6350"}
{"lm loss": 5.43318844, "grad_norm": 2.12119269, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.81046486, "memory(GiB)": 28.03, "elapsed_time": "37m 50s", "remaining_time": "7h 53m 24s", "loss_scale": 1.0, "consumed_samples": 120320, "global_step/max_steps": "470/6350"}
{"lm loss": 5.46722937, "grad_norm": 3.0709548, "learning_rate": 9.985e-05, "elapsed_time_per_iteration": 4.94367814, "memory(GiB)": 28.03, "elapsed_time": "37m 55s", "remaining_time": "7h 53m 20s", "loss_scale": 1.0, "consumed_samples": 120576, "global_step/max_steps": "471/6350"}
{"lm loss": 5.45404816, "grad_norm": 2.35298538, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 5.63061047, "memory(GiB)": 28.03, "elapsed_time": "38m 0s", "remaining_time": "7h 53m 25s", "loss_scale": 1.0, "consumed_samples": 120832, "global_step/max_steps": "472/6350"}
{"lm loss": 5.42072344, "grad_norm": 2.66384482, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.73625684, "memory(GiB)": 28.03, "elapsed_time": "38m 5s", "remaining_time": "7h 53m 19s", "loss_scale": 1.0, "consumed_samples": 121088, "global_step/max_steps": "473/6350"}
{"lm loss": 5.42782068, "grad_norm": 2.74298143, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.73285604, "memory(GiB)": 28.03, "elapsed_time": "38m 10s", "remaining_time": "7h 53m 13s", "loss_scale": 1.0, "consumed_samples": 121344, "global_step/max_steps": "474/6350"}
{"lm loss": 5.44474936, "grad_norm": 2.65260935, "learning_rate": 9.984e-05, "elapsed_time_per_iteration": 4.72629523, "memory(GiB)": 28.03, "elapsed_time": "38m 15s", "remaining_time": "7h 53m 7s", "loss_scale": 1.0, "consumed_samples": 121600, "global_step/max_steps": "475/6350"}
{"lm loss": 5.42166185, "grad_norm": 2.71953011, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.72998476, "memory(GiB)": 28.03, "elapsed_time": "38m 19s", "remaining_time": "7h 53m 1s", "loss_scale": 1.0, "consumed_samples": 121856, "global_step/max_steps": "476/6350"}
{"lm loss": 5.42286968, "grad_norm": 2.02943301, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 5.62310314, "memory(GiB)": 28.03, "elapsed_time": "38m 25s", "remaining_time": "7h 53m 6s", "loss_scale": 1.0, "consumed_samples": 122112, "global_step/max_steps": "477/6350"}
{"lm loss": 5.439816, "grad_norm": 2.96174073, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.64756918, "memory(GiB)": 28.03, "elapsed_time": "38m 30s", "remaining_time": "7h 52m 59s", "loss_scale": 1.0, "consumed_samples": 122368, "global_step/max_steps": "478/6350"}
{"lm loss": 5.44437122, "grad_norm": 2.99711061, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.80397391, "memory(GiB)": 28.03, "elapsed_time": "38m 34s", "remaining_time": "7h 52m 54s", "loss_scale": 1.0, "consumed_samples": 122624, "global_step/max_steps": "479/6350"}
{"lm loss": 5.4405098, "grad_norm": 3.13070655, "learning_rate": 9.983e-05, "elapsed_time_per_iteration": 4.86744475, "memory(GiB)": 28.03, "elapsed_time": "38m 39s", "remaining_time": "7h 52m 49s", "loss_scale": 1.0, "consumed_samples": 122880, "global_step/max_steps": "480/6350"}
{"lm loss": 5.46964502, "grad_norm": 2.25273204, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.69872642, "memory(GiB)": 28.03, "elapsed_time": "38m 44s", "remaining_time": "7h 52m 43s", "loss_scale": 1.0, "consumed_samples": 123136, "global_step/max_steps": "481/6350"}
{"lm loss": 5.44209814, "grad_norm": 2.98719239, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 5.56282949, "memory(GiB)": 28.03, "elapsed_time": "38m 50s", "remaining_time": "7h 52m 47s", "loss_scale": 1.0, "consumed_samples": 123392, "global_step/max_steps": "482/6350"}
{"lm loss": 5.42596817, "grad_norm": 2.83082938, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.66789436, "memory(GiB)": 28.03, "elapsed_time": "38m 54s", "remaining_time": "7h 52m 40s", "loss_scale": 1.0, "consumed_samples": 123648, "global_step/max_steps": "483/6350"}
{"lm loss": 5.43326664, "grad_norm": 2.94455576, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.68077898, "memory(GiB)": 28.03, "elapsed_time": "38m 59s", "remaining_time": "7h 52m 33s", "loss_scale": 1.0, "consumed_samples": 123904, "global_step/max_steps": "484/6350"}
{"lm loss": 5.43194914, "grad_norm": 2.25981617, "learning_rate": 9.982e-05, "elapsed_time_per_iteration": 4.74521661, "memory(GiB)": 28.03, "elapsed_time": "39m 4s", "remaining_time": "7h 52m 27s", "loss_scale": 1.0, "consumed_samples": 124160, "global_step/max_steps": "485/6350"}
{"lm loss": 5.4407444, "grad_norm": 2.65164876, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.76185584, "memory(GiB)": 28.03, "elapsed_time": "39m 8s", "remaining_time": "7h 52m 22s", "loss_scale": 1.0, "consumed_samples": 124416, "global_step/max_steps": "486/6350"}
{"lm loss": 5.43372583, "grad_norm": 2.92582321, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.71443892, "memory(GiB)": 28.03, "elapsed_time": "39m 13s", "remaining_time": "7h 52m 15s", "loss_scale": 1.0, "consumed_samples": 124672, "global_step/max_steps": "487/6350"}
{"lm loss": 5.43677187, "grad_norm": 2.54211402, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.68436003, "memory(GiB)": 28.03, "elapsed_time": "39m 18s", "remaining_time": "7h 52m 9s", "loss_scale": 1.0, "consumed_samples": 124928, "global_step/max_steps": "488/6350"}
{"lm loss": 5.41646242, "grad_norm": 3.31395984, "learning_rate": 9.981e-05, "elapsed_time_per_iteration": 4.70526433, "memory(GiB)": 28.03, "elapsed_time": "39m 23s", "remaining_time": "7h 52m 2s", "loss_scale": 1.0, "consumed_samples": 125184, "global_step/max_steps": "489/6350"}
{"lm loss": 5.42185402, "grad_norm": 1.99929726, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.69411969, "memory(GiB)": 28.03, "elapsed_time": "39m 27s", "remaining_time": "7h 51m 56s", "loss_scale": 1.0, "consumed_samples": 125440, "global_step/max_steps": "490/6350"}
{"lm loss": 5.40639877, "grad_norm": 2.90833306, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.71141434, "memory(GiB)": 28.03, "elapsed_time": "39m 32s", "remaining_time": "7h 51m 50s", "loss_scale": 1.0, "consumed_samples": 125696, "global_step/max_steps": "491/6350"}
{"lm loss": 5.43283415, "grad_norm": 2.17048645, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.66723704, "memory(GiB)": 28.03, "elapsed_time": "39m 37s", "remaining_time": "7h 51m 43s", "loss_scale": 1.0, "consumed_samples": 125952, "global_step/max_steps": "492/6350"}
{"lm loss": 5.4211874, "grad_norm": 2.81481647, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.69713354, "memory(GiB)": 28.03, "elapsed_time": "39m 41s", "remaining_time": "7h 51m 36s", "loss_scale": 1.0, "consumed_samples": 126208, "global_step/max_steps": "493/6350"}
{"lm loss": 5.4342947, "grad_norm": 2.40078568, "learning_rate": 9.98e-05, "elapsed_time_per_iteration": 4.67092299, "memory(GiB)": 28.03, "elapsed_time": "39m 46s", "remaining_time": "7h 51m 30s", "loss_scale": 1.0, "consumed_samples": 126464, "global_step/max_steps": "494/6350"}
{"lm loss": 5.41916847, "grad_norm": 2.9741075, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.71634173, "memory(GiB)": 28.03, "elapsed_time": "39m 51s", "remaining_time": "7h 51m 24s", "loss_scale": 1.0, "consumed_samples": 126720, "global_step/max_steps": "495/6350"}
{"lm loss": 5.39997721, "grad_norm": 2.23905611, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.7248745, "memory(GiB)": 28.03, "elapsed_time": "39m 55s", "remaining_time": "7h 51m 17s", "loss_scale": 1.0, "consumed_samples": 126976, "global_step/max_steps": "496/6350"}
{"lm loss": 5.40526247, "grad_norm": 3.30648804, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 4.70799923, "memory(GiB)": 28.03, "elapsed_time": "40m 0s", "remaining_time": "7h 51m 11s", "loss_scale": 1.0, "consumed_samples": 127232, "global_step/max_steps": "497/6350"}
{"lm loss": 5.40954733, "grad_norm": 2.62899899, "learning_rate": 9.979e-05, "elapsed_time_per_iteration": 5.02807307, "memory(GiB)": 28.03, "elapsed_time": "40m 5s", "remaining_time": "7h 51m 9s", "loss_scale": 1.0, "consumed_samples": 127488, "global_step/max_steps": "498/6350"}
{"lm loss": 5.41893291, "grad_norm": 2.40103984, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.62400961, "memory(GiB)": 28.03, "elapsed_time": "40m 10s", "remaining_time": "7h 51m 1s", "loss_scale": 1.0, "consumed_samples": 127744, "global_step/max_steps": "499/6350"}
{"lm loss": 5.40757561, "grad_norm": 3.43342447, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.61192036, "memory(GiB)": 28.03, "elapsed_time": "40m 14s", "remaining_time": "7h 50m 54s", "loss_scale": 1.0, "consumed_samples": 128000, "global_step/max_steps": "500/6350"}
{"lm loss": 5.40758276, "grad_norm": 1.78320169, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.70012426, "memory(GiB)": 28.03, "elapsed_time": "40m 19s", "remaining_time": "7h 50m 48s", "loss_scale": 1.0, "consumed_samples": 128256, "global_step/max_steps": "501/6350"}
{"lm loss": 5.4129777, "grad_norm": 3.21496391, "learning_rate": 9.978e-05, "elapsed_time_per_iteration": 4.67109299, "memory(GiB)": 28.03, "elapsed_time": "40m 24s", "remaining_time": "7h 50m 41s", "loss_scale": 1.0, "consumed_samples": 128512, "global_step/max_steps": "502/6350"}
{"lm loss": 5.41663694, "grad_norm": 2.91509771, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.69024038, "memory(GiB)": 28.03, "elapsed_time": "40m 28s", "remaining_time": "7h 50m 35s", "loss_scale": 1.0, "consumed_samples": 128768, "global_step/max_steps": "503/6350"}
{"lm loss": 5.40984869, "grad_norm": 2.16210723, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.77025414, "memory(GiB)": 28.03, "elapsed_time": "40m 33s", "remaining_time": "7h 50m 29s", "loss_scale": 1.0, "consumed_samples": 129024, "global_step/max_steps": "504/6350"}
{"lm loss": 5.4091382, "grad_norm": 2.60774255, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.75789785, "memory(GiB)": 28.03, "elapsed_time": "40m 38s", "remaining_time": "7h 50m 23s", "loss_scale": 1.0, "consumed_samples": 129280, "global_step/max_steps": "505/6350"}
{"lm loss": 5.40978003, "grad_norm": 1.96381915, "learning_rate": 9.977e-05, "elapsed_time_per_iteration": 4.73920107, "memory(GiB)": 28.03, "elapsed_time": "40m 43s", "remaining_time": "7h 50m 18s", "loss_scale": 1.0, "consumed_samples": 129536, "global_step/max_steps": "506/6350"}
{"lm loss": 5.4182663, "grad_norm": 2.53305173, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.76851678, "memory(GiB)": 28.03, "elapsed_time": "40m 48s", "remaining_time": "7h 50m 12s", "loss_scale": 1.0, "consumed_samples": 129792, "global_step/max_steps": "507/6350"}
{"lm loss": 5.41597652, "grad_norm": 2.90462661, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.70653987, "memory(GiB)": 28.03, "elapsed_time": "40m 52s", "remaining_time": "7h 50m 6s", "loss_scale": 1.0, "consumed_samples": 130048, "global_step/max_steps": "508/6350"}
{"lm loss": 5.39279366, "grad_norm": 2.66653061, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.70250964, "memory(GiB)": 28.03, "elapsed_time": "40m 57s", "remaining_time": "7h 50m 0s", "loss_scale": 1.0, "consumed_samples": 130304, "global_step/max_steps": "509/6350"}
{"lm loss": 5.42760992, "grad_norm": 2.90039396, "learning_rate": 9.976e-05, "elapsed_time_per_iteration": 4.67899776, "memory(GiB)": 28.03, "elapsed_time": "41m 2s", "remaining_time": "7h 49m 53s", "loss_scale": 1.0, "consumed_samples": 130560, "global_step/max_steps": "510/6350"}
{"lm loss": 5.40657377, "grad_norm": 2.73681235, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.67970324, "memory(GiB)": 28.03, "elapsed_time": "41m 6s", "remaining_time": "7h 49m 47s", "loss_scale": 1.0, "consumed_samples": 130816, "global_step/max_steps": "511/6350"}
{"lm loss": 5.40502787, "grad_norm": 2.65097046, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.64526844, "memory(GiB)": 28.03, "elapsed_time": "41m 11s", "remaining_time": "7h 49m 40s", "loss_scale": 1.0, "consumed_samples": 131072, "global_step/max_steps": "512/6350"}
{"lm loss": 5.4023757, "grad_norm": 2.47522545, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.74469972, "memory(GiB)": 28.03, "elapsed_time": "41m 16s", "remaining_time": "7h 49m 34s", "loss_scale": 1.0, "consumed_samples": 131328, "global_step/max_steps": "513/6350"}
{"lm loss": 5.39532566, "grad_norm": 2.98655224, "learning_rate": 9.975e-05, "elapsed_time_per_iteration": 4.718045, "memory(GiB)": 28.03, "elapsed_time": "41m 20s", "remaining_time": "7h 49m 28s", "loss_scale": 1.0, "consumed_samples": 131584, "global_step/max_steps": "514/6350"}
{"lm loss": 5.41348457, "grad_norm": 2.34938693, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 5.53753662, "memory(GiB)": 28.03, "elapsed_time": "41m 26s", "remaining_time": "7h 49m 31s", "loss_scale": 1.0, "consumed_samples": 131840, "global_step/max_steps": "515/6350"}
{"lm loss": 5.40682793, "grad_norm": 2.92583847, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 4.68780661, "memory(GiB)": 28.03, "elapsed_time": "41m 31s", "remaining_time": "7h 49m 25s", "loss_scale": 1.0, "consumed_samples": 132096, "global_step/max_steps": "516/6350"}
{"lm loss": 5.40376234, "grad_norm": 2.35277009, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 4.703269, "memory(GiB)": 28.03, "elapsed_time": "41m 35s", "remaining_time": "7h 49m 18s", "loss_scale": 1.0, "consumed_samples": 132352, "global_step/max_steps": "517/6350"}
{"lm loss": 5.39669991, "grad_norm": 2.58109283, "learning_rate": 9.974e-05, "elapsed_time_per_iteration": 4.77042627, "memory(GiB)": 28.03, "elapsed_time": "41m 40s", "remaining_time": "7h 49m 13s", "loss_scale": 1.0, "consumed_samples": 132608, "global_step/max_steps": "518/6350"}
{"lm loss": 5.39345598, "grad_norm": 2.25762725, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.69293976, "memory(GiB)": 28.03, "elapsed_time": "41m 45s", "remaining_time": "7h 49m 7s", "loss_scale": 1.0, "consumed_samples": 132864, "global_step/max_steps": "519/6350"}
{"lm loss": 5.40974951, "grad_norm": 2.33226895, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 4.76355648, "memory(GiB)": 28.03, "elapsed_time": "41m 50s", "remaining_time": "7h 49m 1s", "loss_scale": 1.0, "consumed_samples": 133120, "global_step/max_steps": "520/6350"}
{"lm loss": 5.39724684, "grad_norm": 2.30949259, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 5.57806969, "memory(GiB)": 28.03, "elapsed_time": "41m 55s", "remaining_time": "7h 49m 5s", "loss_scale": 1.0, "consumed_samples": 133376, "global_step/max_steps": "521/6350"}
{"lm loss": 5.39435625, "grad_norm": 2.93331027, "learning_rate": 9.973e-05, "elapsed_time_per_iteration": 5.28222871, "memory(GiB)": 28.03, "elapsed_time": "42m 0s", "remaining_time": "7h 49m 5s", "loss_scale": 1.0, "consumed_samples": 133632, "global_step/max_steps": "522/6350"}
{"lm loss": 5.4184823, "grad_norm": 2.22015738, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.72001004, "memory(GiB)": 28.03, "elapsed_time": "42m 5s", "remaining_time": "7h 48m 59s", "loss_scale": 1.0, "consumed_samples": 133888, "global_step/max_steps": "523/6350"}
{"lm loss": 5.3961134, "grad_norm": 2.85411644, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.70069408, "memory(GiB)": 28.03, "elapsed_time": "42m 10s", "remaining_time": "7h 48m 53s", "loss_scale": 1.0, "consumed_samples": 134144, "global_step/max_steps": "524/6350"}
{"lm loss": 5.3929534, "grad_norm": 1.86525726, "learning_rate": 9.972e-05, "elapsed_time_per_iteration": 4.75069618, "memory(GiB)": 28.03, "elapsed_time": "42m 15s", "remaining_time": "7h 48m 47s", "loss_scale": 1.0, "consumed_samples": 134400, "global_step/max_steps": "525/6350"}
{"lm loss": 5.40171146, "grad_norm": 3.60027027, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.7604382, "memory(GiB)": 28.03, "elapsed_time": "42m 19s", "remaining_time": "7h 48m 41s", "loss_scale": 1.0, "consumed_samples": 134656, "global_step/max_steps": "526/6350"}
{"lm loss": 5.40733576, "grad_norm": 1.74694228, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 5.46227264, "memory(GiB)": 28.03, "elapsed_time": "42m 25s", "remaining_time": "7h 48m 43s", "loss_scale": 1.0, "consumed_samples": 134912, "global_step/max_steps": "527/6350"}
{"lm loss": 5.41007614, "grad_norm": 3.07778549, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.7001431, "memory(GiB)": 28.03, "elapsed_time": "42m 30s", "remaining_time": "7h 48m 37s", "loss_scale": 1.0, "consumed_samples": 135168, "global_step/max_steps": "528/6350"}
{"lm loss": 5.38002253, "grad_norm": 2.91300988, "learning_rate": 9.971e-05, "elapsed_time_per_iteration": 4.73980355, "memory(GiB)": 28.03, "elapsed_time": "42m 34s", "remaining_time": "7h 48m 31s", "loss_scale": 1.0, "consumed_samples": 135424, "global_step/max_steps": "529/6350"}
{"lm loss": 5.39538431, "grad_norm": 2.29292059, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.70365167, "memory(GiB)": 28.03, "elapsed_time": "42m 39s", "remaining_time": "7h 48m 25s", "loss_scale": 1.0, "consumed_samples": 135680, "global_step/max_steps": "530/6350"}
{"lm loss": 5.39457703, "grad_norm": 2.89297867, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.69729471, "memory(GiB)": 28.03, "elapsed_time": "42m 44s", "remaining_time": "7h 48m 19s", "loss_scale": 1.0, "consumed_samples": 135936, "global_step/max_steps": "531/6350"}
{"lm loss": 5.40156031, "grad_norm": 2.75338793, "learning_rate": 9.97e-05, "elapsed_time_per_iteration": 4.77568746, "memory(GiB)": 28.03, "elapsed_time": "42m 48s", "remaining_time": "7h 48m 13s", "loss_scale": 1.0, "consumed_samples": 136192, "global_step/max_steps": "532/6350"}
{"lm loss": 5.41017771, "grad_norm": 1.53147793, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 4.75738859, "memory(GiB)": 28.03, "elapsed_time": "42m 53s", "remaining_time": "7h 48m 8s", "loss_scale": 1.0, "consumed_samples": 136448, "global_step/max_steps": "533/6350"}
{"lm loss": 5.38764095, "grad_norm": 2.63975573, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 4.74306035, "memory(GiB)": 28.03, "elapsed_time": "42m 58s", "remaining_time": "7h 48m 2s", "loss_scale": 1.0, "consumed_samples": 136704, "global_step/max_steps": "534/6350"}
{"lm loss": 5.4134078, "grad_norm": 1.97483933, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 4.73054695, "memory(GiB)": 28.03, "elapsed_time": "43m 3s", "remaining_time": "7h 47m 56s", "loss_scale": 1.0, "consumed_samples": 136960, "global_step/max_steps": "535/6350"}
{"lm loss": 5.40664339, "grad_norm": 3.44773054, "learning_rate": 9.969e-05, "elapsed_time_per_iteration": 5.43388677, "memory(GiB)": 28.03, "elapsed_time": "43m 8s", "remaining_time": "7h 47m 58s", "loss_scale": 1.0, "consumed_samples": 137216, "global_step/max_steps": "536/6350"}
{"lm loss": 5.39916277, "grad_norm": 2.35273004, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 4.66493273, "memory(GiB)": 28.03, "elapsed_time": "43m 13s", "remaining_time": "7h 47m 51s", "loss_scale": 1.0, "consumed_samples": 137472, "global_step/max_steps": "537/6350"}
{"lm loss": 5.38351202, "grad_norm": 3.2418766, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 4.77671218, "memory(GiB)": 28.03, "elapsed_time": "43m 18s", "remaining_time": "7h 47m 46s", "loss_scale": 1.0, "consumed_samples": 137728, "global_step/max_steps": "538/6350"}
{"lm loss": 5.39204168, "grad_norm": 2.10023618, "learning_rate": 9.968e-05, "elapsed_time_per_iteration": 4.71445274, "memory(GiB)": 28.03, "elapsed_time": "43m 22s", "remaining_time": "7h 47m 40s", "loss_scale": 1.0, "consumed_samples": 137984, "global_step/max_steps": "539/6350"}
{"lm loss": 5.40175056, "grad_norm": 2.72626281, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.83798194, "memory(GiB)": 28.03, "elapsed_time": "43m 27s", "remaining_time": "7h 47m 35s", "loss_scale": 1.0, "consumed_samples": 138240, "global_step/max_steps": "540/6350"}
{"lm loss": 5.4096508, "grad_norm": 2.2064836, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.72582197, "memory(GiB)": 28.03, "elapsed_time": "43m 32s", "remaining_time": "7h 47m 29s", "loss_scale": 1.0, "consumed_samples": 138496, "global_step/max_steps": "541/6350"}
{"lm loss": 5.3672657, "grad_norm": 2.92069507, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.82858467, "memory(GiB)": 28.03, "elapsed_time": "43m 37s", "remaining_time": "7h 47m 24s", "loss_scale": 1.0, "consumed_samples": 138752, "global_step/max_steps": "542/6350"}
{"lm loss": 5.39920282, "grad_norm": 1.80689979, "learning_rate": 9.967e-05, "elapsed_time_per_iteration": 4.83034539, "memory(GiB)": 28.03, "elapsed_time": "43m 41s", "remaining_time": "7h 47m 20s", "loss_scale": 1.0, "consumed_samples": 139008, "global_step/max_steps": "543/6350"}
{"lm loss": 5.39704752, "grad_norm": 3.09133077, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.84267235, "memory(GiB)": 28.03, "elapsed_time": "43m 46s", "remaining_time": "7h 47m 15s", "loss_scale": 1.0, "consumed_samples": 139264, "global_step/max_steps": "544/6350"}
{"lm loss": 5.40607452, "grad_norm": 2.78698301, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.7817235, "memory(GiB)": 28.03, "elapsed_time": "43m 51s", "remaining_time": "7h 47m 10s", "loss_scale": 1.0, "consumed_samples": 139520, "global_step/max_steps": "545/6350"}
{"lm loss": 5.38242197, "grad_norm": 2.18282723, "learning_rate": 9.966e-05, "elapsed_time_per_iteration": 4.87994075, "memory(GiB)": 28.03, "elapsed_time": "43m 56s", "remaining_time": "7h 47m 5s", "loss_scale": 1.0, "consumed_samples": 139776, "global_step/max_steps": "546/6350"}
{"lm loss": 5.3786521, "grad_norm": 2.74391007, "learning_rate": 9.965e-05, "elapsed_time_per_iteration": 4.78365898, "memory(GiB)": 28.03, "elapsed_time": "44m 1s", "remaining_time": "7h 47m 0s", "loss_scale": 1.0, "consumed_samples": 140032, "global_step/max_steps": "547/6350"}
{"lm loss": 5.38336086, "grad_norm": 1.93616116, "learning_rate": 9.965e-05, "elapsed_time_per_iteration": 4.7289238, "memory(GiB)": 28.03, "elapsed_time": "44m 5s", "remaining_time": "7h 46m 54s", "loss_scale": 1.0, "consumed_samples": 140288, "global_step/max_steps": "548/6350"}
{"lm loss": 5.37012672, "grad_norm": 2.55299568, "learning_rate": 9.965e-05, "elapsed_time_per_iteration": 4.72978854, "memory(GiB)": 28.03, "elapsed_time": "44m 10s", "remaining_time": "7h 46m 48s", "loss_scale": 1.0, "consumed_samples": 140544, "global_step/max_steps": "549/6350"}
{"lm loss": 5.38266373, "grad_norm": 2.00467706, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.71987438, "memory(GiB)": 28.03, "elapsed_time": "44m 15s", "remaining_time": "7h 46m 42s", "loss_scale": 1.0, "consumed_samples": 140800, "global_step/max_steps": "550/6350"}
{"lm loss": 5.37104177, "grad_norm": 3.24679947, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.72472811, "memory(GiB)": 28.03, "elapsed_time": "44m 20s", "remaining_time": "7h 46m 36s", "loss_scale": 1.0, "consumed_samples": 141056, "global_step/max_steps": "551/6350"}
{"lm loss": 5.36916113, "grad_norm": 1.81509078, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.75764966, "memory(GiB)": 28.03, "elapsed_time": "44m 24s", "remaining_time": "7h 46m 31s", "loss_scale": 1.0, "consumed_samples": 141312, "global_step/max_steps": "552/6350"}
{"lm loss": 5.36409616, "grad_norm": 2.55350542, "learning_rate": 9.964e-05, "elapsed_time_per_iteration": 4.74001884, "memory(GiB)": 28.03, "elapsed_time": "44m 29s", "remaining_time": "7h 46m 25s", "loss_scale": 1.0, "consumed_samples": 141568, "global_step/max_steps": "553/6350"}
{"lm loss": 5.37855339, "grad_norm": 2.72192121, "learning_rate": 9.963e-05, "elapsed_time_per_iteration": 4.79254103, "memory(GiB)": 28.03, "elapsed_time": "44m 34s", "remaining_time": "7h 46m 20s", "loss_scale": 1.0, "consumed_samples": 141824, "global_step/max_steps": "554/6350"}
{"lm loss": 5.38397408, "grad_norm": 2.06026363, "learning_rate": 9.963e-05, "elapsed_time_per_iteration": 4.81633329, "memory(GiB)": 28.03, "elapsed_time": "44m 39s", "remaining_time": "7h 46m 15s", "loss_scale": 1.0, "consumed_samples": 142080, "global_step/max_steps": "555/6350"}
{"lm loss": 5.38896656, "grad_norm": 2.55437326, "learning_rate": 9.963e-05, "elapsed_time_per_iteration": 4.77398539, "memory(GiB)": 28.03, "elapsed_time": "44m 44s", "remaining_time": "7h 46m 9s", "loss_scale": 1.0, "consumed_samples": 142336, "global_step/max_steps": "556/6350"}
{"lm loss": 5.35830641, "grad_norm": 2.68234921, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.77137399, "memory(GiB)": 28.03, "elapsed_time": "44m 48s", "remaining_time": "7h 46m 4s", "loss_scale": 1.0, "consumed_samples": 142592, "global_step/max_steps": "557/6350"}
{"lm loss": 5.36666441, "grad_norm": 1.77036953, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.72207952, "memory(GiB)": 28.03, "elapsed_time": "44m 53s", "remaining_time": "7h 45m 58s", "loss_scale": 1.0, "consumed_samples": 142848, "global_step/max_steps": "558/6350"}
{"lm loss": 5.37430382, "grad_norm": 2.17269444, "learning_rate": 9.962e-05, "elapsed_time_per_iteration": 4.88965607, "memory(GiB)": 28.03, "elapsed_time": "44m 58s", "remaining_time": "7h 45m 54s", "loss_scale": 1.0, "consumed_samples": 143104, "global_step/max_steps": "559/6350"}
{"lm loss": 5.35836077, "grad_norm": 1.80518174, "learning_rate": 9.961e-05, "elapsed_time_per_iteration": 5.52420211, "memory(GiB)": 28.03, "elapsed_time": "45m 3s", "remaining_time": "7h 45m 56s", "loss_scale": 1.0, "consumed_samples": 143360, "global_step/max_steps": "560/6350"}
{"lm loss": 5.38520813, "grad_norm": 2.77191401, "learning_rate": 9.961e-05, "elapsed_time_per_iteration": 4.65543175, "memory(GiB)": 28.03, "elapsed_time": "45m 8s", "remaining_time": "7h 45m 50s", "loss_scale": 1.0, "consumed_samples": 143616, "global_step/max_steps": "561/6350"}
{"lm loss": 5.36851311, "grad_norm": 2.18307066, "learning_rate": 9.961e-05, "elapsed_time_per_iteration": 5.49897671, "memory(GiB)": 28.03, "elapsed_time": "45m 14s", "remaining_time": "7h 45m 52s", "loss_scale": 1.0, "consumed_samples": 143872, "global_step/max_steps": "562/6350"}
{"lm loss": 5.3803277, "grad_norm": 3.0420177, "learning_rate": 9.96e-05, "elapsed_time_per_iteration": 4.71127772, "memory(GiB)": 28.03, "elapsed_time": "45m 18s", "remaining_time": "7h 45m 46s", "loss_scale": 1.0, "consumed_samples": 144128, "global_step/max_steps": "563/6350"}
{"lm loss": 5.36089516, "grad_norm": 2.4258883, "learning_rate": 9.96e-05, "elapsed_time_per_iteration": 4.80950785, "memory(GiB)": 28.03, "elapsed_time": "45m 23s", "remaining_time": "7h 45m 41s", "loss_scale": 1.0, "consumed_samples": 144384, "global_step/max_steps": "564/6350"}
{"lm loss": 5.36586761, "grad_norm": 3.48557234, "learning_rate": 9.96e-05, "elapsed_time_per_iteration": 4.7481966, "memory(GiB)": 28.03, "elapsed_time": "45m 28s", "remaining_time": "7h 45m 35s", "loss_scale": 1.0, "consumed_samples": 144640, "global_step/max_steps": "565/6350"}
{"lm loss": 5.37517595, "grad_norm": 1.71630371, "learning_rate": 9.959e-05, "elapsed_time_per_iteration": 4.72941971, "memory(GiB)": 28.03, "elapsed_time": "45m 33s", "remaining_time": "7h 45m 29s", "loss_scale": 1.0, "consumed_samples": 144896, "global_step/max_steps": "566/6350"}
{"lm loss": 5.3887763, "grad_norm": 3.7024312, "learning_rate": 9.959e-05, "elapsed_time_per_iteration": 4.75990605, "memory(GiB)": 28.03, "elapsed_time": "45m 37s", "remaining_time": "7h 45m 24s", "loss_scale": 1.0, "consumed_samples": 145152, "global_step/max_steps": "567/6350"}
{"lm loss": 5.38524246, "grad_norm": 2.57966232, "learning_rate": 9.959e-05, "elapsed_time_per_iteration": 4.74153638, "memory(GiB)": 28.03, "elapsed_time": "45m 42s", "remaining_time": "7h 45m 18s", "loss_scale": 1.0, "consumed_samples": 145408, "global_step/max_steps": "568/6350"}
{"lm loss": 5.37260103, "grad_norm": 2.14756942, "learning_rate": 9.958e-05, "elapsed_time_per_iteration": 4.67408538, "memory(GiB)": 28.03, "elapsed_time": "45m 47s", "remaining_time": "7h 45m 12s", "loss_scale": 1.0, "consumed_samples": 145664, "global_step/max_steps": "569/6350"}
{"lm loss": 5.368608, "grad_norm": 2.44587803, "learning_rate": 9.958e-05, "elapsed_time_per_iteration": 5.42222643, "memory(GiB)": 28.03, "elapsed_time": "45m 52s", "remaining_time": "7h 45m 13s", "loss_scale": 1.0, "consumed_samples": 145920, "global_step/max_steps": "570/6350"}
{"lm loss": 5.37939596, "grad_norm": 2.49657655, "learning_rate": 9.958e-05, "elapsed_time_per_iteration": 4.71652341, "memory(GiB)": 28.03, "elapsed_time": "45m 57s", "remaining_time": "7h 45m 7s", "loss_scale": 1.0, "consumed_samples": 146176, "global_step/max_steps": "571/6350"}
{"lm loss": 5.36675358, "grad_norm": 2.65522504, "learning_rate": 9.957e-05, "elapsed_time_per_iteration": 4.72169805, "memory(GiB)": 28.03, "elapsed_time": "46m 2s", "remaining_time": "7h 45m 1s", "loss_scale": 1.0, "consumed_samples": 146432, "global_step/max_steps": "572/6350"}
{"lm loss": 5.38956308, "grad_norm": 2.51578689, "learning_rate": 9.957e-05, "elapsed_time_per_iteration": 5.28087068, "memory(GiB)": 28.03, "elapsed_time": "46m 7s", "remaining_time": "7h 45m 1s", "loss_scale": 1.0, "consumed_samples": 146688, "global_step/max_steps": "573/6350"}
{"lm loss": 5.37832069, "grad_norm": 2.32949519, "learning_rate": 9.957e-05, "elapsed_time_per_iteration": 4.74177408, "memory(GiB)": 28.03, "elapsed_time": "46m 12s", "remaining_time": "7h 44m 55s", "loss_scale": 1.0, "consumed_samples": 146944, "global_step/max_steps": "574/6350"}
{"lm loss": 5.36697531, "grad_norm": 2.56970882, "learning_rate": 9.956e-05, "elapsed_time_per_iteration": 5.59979773, "memory(GiB)": 28.03, "elapsed_time": "46m 17s", "remaining_time": "7h 44m 58s", "loss_scale": 1.0, "consumed_samples": 147200, "global_step/max_steps": "575/6350"}
{"lm loss": 5.39177656, "grad_norm": 2.56923079, "learning_rate": 9.956e-05, "elapsed_time_per_iteration": 4.67837763, "memory(GiB)": 28.03, "elapsed_time": "46m 22s", "remaining_time": "7h 44m 51s", "loss_scale": 1.0, "consumed_samples": 147456, "global_step/max_steps": "576/6350"}
{"lm loss": 5.37007904, "grad_norm": 2.54966593, "learning_rate": 9.956e-05, "elapsed_time_per_iteration": 4.73066807, "memory(GiB)": 28.03, "elapsed_time": "46m 27s", "remaining_time": "7h 44m 46s", "loss_scale": 1.0, "consumed_samples": 147712, "global_step/max_steps": "577/6350"}
{"lm loss": 5.37959814, "grad_norm": 2.24298906, "learning_rate": 9.955e-05, "elapsed_time_per_iteration": 5.57570481, "memory(GiB)": 28.03, "elapsed_time": "46m 32s", "remaining_time": "7h 44m 48s", "loss_scale": 1.0, "consumed_samples": 147968, "global_step/max_steps": "578/6350"}
{"lm loss": 5.3717804, "grad_norm": 2.3300879, "learning_rate": 9.955e-05, "elapsed_time_per_iteration": 4.70980525, "memory(GiB)": 28.03, "elapsed_time": "46m 37s", "remaining_time": "7h 44m 42s", "loss_scale": 1.0, "consumed_samples": 148224, "global_step/max_steps": "579/6350"}
{"lm loss": 5.35703039, "grad_norm": 2.45000935, "learning_rate": 9.955e-05, "elapsed_time_per_iteration": 4.67753649, "memory(GiB)": 28.03, "elapsed_time": "46m 42s", "remaining_time": "7h 44m 36s", "loss_scale": 1.0, "consumed_samples": 148480, "global_step/max_steps": "580/6350"}
{"lm loss": 5.35274076, "grad_norm": 2.15105844, "learning_rate": 9.954e-05, "elapsed_time_per_iteration": 4.72380042, "memory(GiB)": 28.03, "elapsed_time": "46m 46s", "remaining_time": "7h 44m 30s", "loss_scale": 1.0, "consumed_samples": 148736, "global_step/max_steps": "581/6350"}
{"lm loss": 5.36408091, "grad_norm": 2.38912296, "learning_rate": 9.954e-05, "elapsed_time_per_iteration": 4.76244855, "memory(GiB)": 28.03, "elapsed_time": "46m 51s", "remaining_time": "7h 44m 24s", "loss_scale": 1.0, "consumed_samples": 148992, "global_step/max_steps": "582/6350"}
{"lm loss": 5.35550261, "grad_norm": 1.78974092, "learning_rate": 9.954e-05, "elapsed_time_per_iteration": 4.70643306, "memory(GiB)": 28.03, "elapsed_time": "46m 56s", "remaining_time": "7h 44m 18s", "loss_scale": 1.0, "consumed_samples": 149248, "global_step/max_steps": "583/6350"}
{"lm loss": 5.34509945, "grad_norm": 3.31104875, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 4.74067283, "memory(GiB)": 28.03, "elapsed_time": "47m 1s", "remaining_time": "7h 44m 13s", "loss_scale": 1.0, "consumed_samples": 149504, "global_step/max_steps": "584/6350"}
{"lm loss": 5.36607933, "grad_norm": 1.38204455, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 5.0815556, "memory(GiB)": 28.03, "elapsed_time": "47m 6s", "remaining_time": "7h 44m 10s", "loss_scale": 1.0, "consumed_samples": 149760, "global_step/max_steps": "585/6350"}
{"lm loss": 5.36678123, "grad_norm": 3.31968474, "learning_rate": 9.953e-05, "elapsed_time_per_iteration": 4.76565027, "memory(GiB)": 28.03, "elapsed_time": "47m 10s", "remaining_time": "7h 44m 5s", "loss_scale": 1.0, "consumed_samples": 150016, "global_step/max_steps": "586/6350"}
{"lm loss": 5.35613155, "grad_norm": 2.01100135, "learning_rate": 9.952e-05, "elapsed_time_per_iteration": 4.78650403, "memory(GiB)": 28.03, "elapsed_time": "47m 15s", "remaining_time": "7h 44m 0s", "loss_scale": 1.0, "consumed_samples": 150272, "global_step/max_steps": "587/6350"}
{"lm loss": 5.3749094, "grad_norm": 2.63214421, "learning_rate": 9.952e-05, "elapsed_time_per_iteration": 4.76267576, "memory(GiB)": 28.03, "elapsed_time": "47m 20s", "remaining_time": "7h 43m 54s", "loss_scale": 1.0, "consumed_samples": 150528, "global_step/max_steps": "588/6350"}
{"lm loss": 5.37448215, "grad_norm": 2.13202524, "learning_rate": 9.952e-05, "elapsed_time_per_iteration": 4.76967072, "memory(GiB)": 28.03, "elapsed_time": "47m 25s", "remaining_time": "7h 43m 49s", "loss_scale": 1.0, "consumed_samples": 150784, "global_step/max_steps": "589/6350"}
{"lm loss": 5.3603344, "grad_norm": 1.94978368, "learning_rate": 9.951e-05, "elapsed_time_per_iteration": 4.69189453, "memory(GiB)": 28.03, "elapsed_time": "47m 29s", "remaining_time": "7h 43m 42s", "loss_scale": 1.0, "consumed_samples": 151040, "global_step/max_steps": "590/6350"}
{"lm loss": 5.36423779, "grad_norm": 3.57578039, "learning_rate": 9.951e-05, "elapsed_time_per_iteration": 4.80601549, "memory(GiB)": 28.03, "elapsed_time": "47m 34s", "remaining_time": "7h 43m 37s", "loss_scale": 1.0, "consumed_samples": 151296, "global_step/max_steps": "591/6350"}
{"lm loss": 5.36202574, "grad_norm": 1.97199118, "learning_rate": 9.951e-05, "elapsed_time_per_iteration": 4.80398512, "memory(GiB)": 28.03, "elapsed_time": "47m 39s", "remaining_time": "7h 43m 32s", "loss_scale": 1.0, "consumed_samples": 151552, "global_step/max_steps": "592/6350"}
{"lm loss": 5.36120987, "grad_norm": 3.25980687, "learning_rate": 9.95e-05, "elapsed_time_per_iteration": 4.72067046, "memory(GiB)": 28.03, "elapsed_time": "47m 44s", "remaining_time": "7h 43m 26s", "loss_scale": 1.0, "consumed_samples": 151808, "global_step/max_steps": "593/6350"}
{"lm loss": 5.34120893, "grad_norm": 2.10678244, "learning_rate": 9.95e-05, "elapsed_time_per_iteration": 4.7597568, "memory(GiB)": 28.03, "elapsed_time": "47m 49s", "remaining_time": "7h 43m 21s", "loss_scale": 1.0, "consumed_samples": 152064, "global_step/max_steps": "594/6350"}
{"lm loss": 5.36570215, "grad_norm": 2.26740289, "learning_rate": 9.949e-05, "elapsed_time_per_iteration": 4.81800461, "memory(GiB)": 28.03, "elapsed_time": "47m 53s", "remaining_time": "7h 43m 16s", "loss_scale": 1.0, "consumed_samples": 152320, "global_step/max_steps": "595/6350"}
{"lm loss": 5.34460735, "grad_norm": 3.03175998, "learning_rate": 9.949e-05, "elapsed_time_per_iteration": 4.78374481, "memory(GiB)": 28.03, "elapsed_time": "47m 58s", "remaining_time": "7h 43m 11s", "loss_scale": 1.0, "consumed_samples": 152576, "global_step/max_steps": "596/6350"}
{"lm loss": 5.3564086, "grad_norm": 2.14264941, "learning_rate": 9.949e-05, "elapsed_time_per_iteration": 4.80237293, "memory(GiB)": 28.03, "elapsed_time": "48m 3s", "remaining_time": "7h 43m 6s", "loss_scale": 1.0, "consumed_samples": 152832, "global_step/max_steps": "597/6350"}
{"lm loss": 5.34369707, "grad_norm": 2.84080291, "learning_rate": 9.948e-05, "elapsed_time_per_iteration": 5.45629478, "memory(GiB)": 28.03, "elapsed_time": "48m 8s", "remaining_time": "7h 43m 7s", "loss_scale": 1.0, "consumed_samples": 153088, "global_step/max_steps": "598/6350"}
{"lm loss": 5.35247374, "grad_norm": 2.15905261, "learning_rate": 9.948e-05, "elapsed_time_per_iteration": 4.71400046, "memory(GiB)": 28.03, "elapsed_time": "48m 13s", "remaining_time": "7h 43m 1s", "loss_scale": 1.0, "consumed_samples": 153344, "global_step/max_steps": "599/6350"}
{"lm loss": 5.35268402, "grad_norm": 2.53535771, "learning_rate": 9.948e-05, "elapsed_time_per_iteration": 4.76848626, "memory(GiB)": 28.03, "elapsed_time": "48m 18s", "remaining_time": "7h 42m 55s", "loss_scale": 1.0, "consumed_samples": 153600, "global_step/max_steps": "600/6350"}
{"lm loss": 5.35587168, "grad_norm": 2.29574966, "learning_rate": 9.947e-05, "elapsed_time_per_iteration": 4.68174863, "memory(GiB)": 28.03, "elapsed_time": "48m 23s", "remaining_time": "7h 42m 49s", "loss_scale": 1.0, "consumed_samples": 153856, "global_step/max_steps": "601/6350"}
{"lm loss": 5.37178469, "grad_norm": 3.36007929, "learning_rate": 9.947e-05, "elapsed_time_per_iteration": 4.71772313, "memory(GiB)": 28.03, "elapsed_time": "48m 27s", "remaining_time": "7h 42m 43s", "loss_scale": 1.0, "consumed_samples": 154112, "global_step/max_steps": "602/6350"}
{"lm loss": 5.36040545, "grad_norm": 1.38748157, "learning_rate": 9.946e-05, "elapsed_time_per_iteration": 4.77965093, "memory(GiB)": 28.03, "elapsed_time": "48m 32s", "remaining_time": "7h 42m 38s", "loss_scale": 1.0, "consumed_samples": 154368, "global_step/max_steps": "603/6350"}
{"lm loss": 5.34315205, "grad_norm": 2.69794464, "learning_rate": 9.946e-05, "elapsed_time_per_iteration": 4.71756983, "memory(GiB)": 28.03, "elapsed_time": "48m 37s", "remaining_time": "7h 42m 32s", "loss_scale": 1.0, "consumed_samples": 154624, "global_step/max_steps": "604/6350"}
{"lm loss": 5.36342573, "grad_norm": 2.98826838, "learning_rate": 9.946e-05, "elapsed_time_per_iteration": 4.81096172, "memory(GiB)": 28.03, "elapsed_time": "48m 42s", "remaining_time": "7h 42m 27s", "loss_scale": 1.0, "consumed_samples": 154880, "global_step/max_steps": "605/6350"}
{"lm loss": 5.34330893, "grad_norm": 2.30226731, "learning_rate": 9.945e-05, "elapsed_time_per_iteration": 4.75215149, "memory(GiB)": 28.03, "elapsed_time": "48m 46s", "remaining_time": "7h 42m 21s", "loss_scale": 1.0, "consumed_samples": 155136, "global_step/max_steps": "606/6350"}
{"lm loss": 5.35350609, "grad_norm": 1.95724058, "learning_rate": 9.945e-05, "elapsed_time_per_iteration": 4.69765973, "memory(GiB)": 28.03, "elapsed_time": "48m 51s", "remaining_time": "7h 42m 15s", "loss_scale": 1.0, "consumed_samples": 155392, "global_step/max_steps": "607/6350"}
{"lm loss": 5.36240721, "grad_norm": 2.24540496, "learning_rate": 9.945e-05, "elapsed_time_per_iteration": 4.71397519, "memory(GiB)": 28.03, "elapsed_time": "48m 56s", "remaining_time": "7h 42m 9s", "loss_scale": 1.0, "consumed_samples": 155648, "global_step/max_steps": "608/6350"}
{"lm loss": 5.35721064, "grad_norm": 2.50466037, "learning_rate": 9.944e-05, "elapsed_time_per_iteration": 4.75971794, "memory(GiB)": 28.03, "elapsed_time": "49m 0s", "remaining_time": "7h 42m 4s", "loss_scale": 1.0, "consumed_samples": 155904, "global_step/max_steps": "609/6350"}
{"lm loss": 5.34955502, "grad_norm": 3.07656193, "learning_rate": 9.944e-05, "elapsed_time_per_iteration": 4.83427691, "memory(GiB)": 28.03, "elapsed_time": "49m 5s", "remaining_time": "7h 41m 59s", "loss_scale": 1.0, "consumed_samples": 156160, "global_step/max_steps": "610/6350"}
{"lm loss": 5.34030628, "grad_norm": 1.69520402, "learning_rate": 9.943e-05, "elapsed_time_per_iteration": 4.77677798, "memory(GiB)": 28.03, "elapsed_time": "49m 10s", "remaining_time": "7h 41m 54s", "loss_scale": 1.0, "consumed_samples": 156416, "global_step/max_steps": "611/6350"}
{"lm loss": 5.35316277, "grad_norm": 2.50372267, "learning_rate": 9.943e-05, "elapsed_time_per_iteration": 4.73456025, "memory(GiB)": 28.03, "elapsed_time": "49m 15s", "remaining_time": "7h 41m 48s", "loss_scale": 1.0, "consumed_samples": 156672, "global_step/max_steps": "612/6350"}
{"lm loss": 5.35024357, "grad_norm": 1.6800853, "learning_rate": 9.943e-05, "elapsed_time_per_iteration": 4.71885586, "memory(GiB)": 28.03, "elapsed_time": "49m 20s", "remaining_time": "7h 41m 42s", "loss_scale": 1.0, "consumed_samples": 156928, "global_step/max_steps": "613/6350"}
{"lm loss": 5.31285572, "grad_norm": 3.11664605, "learning_rate": 9.942e-05, "elapsed_time_per_iteration": 4.68189335, "memory(GiB)": 28.03, "elapsed_time": "49m 24s", "remaining_time": "7h 41m 36s", "loss_scale": 1.0, "consumed_samples": 157184, "global_step/max_steps": "614/6350"}
{"lm loss": 5.33199072, "grad_norm": 2.5210669, "learning_rate": 9.942e-05, "elapsed_time_per_iteration": 4.7405293, "memory(GiB)": 28.03, "elapsed_time": "49m 29s", "remaining_time": "7h 41m 30s", "loss_scale": 1.0, "consumed_samples": 157440, "global_step/max_steps": "615/6350"}
{"lm loss": 5.32444668, "grad_norm": 1.48430705, "learning_rate": 9.942e-05, "elapsed_time_per_iteration": 4.88779402, "memory(GiB)": 28.03, "elapsed_time": "49m 34s", "remaining_time": "7h 41m 26s", "loss_scale": 1.0, "consumed_samples": 157696, "global_step/max_steps": "616/6350"}
{"lm loss": 5.3451004, "grad_norm": 2.48665905, "learning_rate": 9.941e-05, "elapsed_time_per_iteration": 6.06393147, "memory(GiB)": 28.03, "elapsed_time": "49m 40s", "remaining_time": "7h 41m 33s", "loss_scale": 1.0, "consumed_samples": 157952, "global_step/max_steps": "617/6350"}
{"lm loss": 5.35439682, "grad_norm": 1.86950243, "learning_rate": 9.941e-05, "elapsed_time_per_iteration": 5.51844001, "memory(GiB)": 28.03, "elapsed_time": "49m 45s", "remaining_time": "7h 41m 34s", "loss_scale": 1.0, "consumed_samples": 158208, "global_step/max_steps": "618/6350"}
{"lm loss": 5.32574081, "grad_norm": 2.2705195, "learning_rate": 9.94e-05, "elapsed_time_per_iteration": 4.72804117, "memory(GiB)": 28.03, "elapsed_time": "49m 50s", "remaining_time": "7h 41m 29s", "loss_scale": 1.0, "consumed_samples": 158464, "global_step/max_steps": "619/6350"}
{"lm loss": 5.32695007, "grad_norm": 2.47616863, "learning_rate": 9.94e-05, "elapsed_time_per_iteration": 4.7167697, "memory(GiB)": 28.03, "elapsed_time": "49m 55s", "remaining_time": "7h 41m 23s", "loss_scale": 1.0, "consumed_samples": 158720, "global_step/max_steps": "620/6350"}
{"lm loss": 5.3205328, "grad_norm": 2.7014029, "learning_rate": 9.94e-05, "elapsed_time_per_iteration": 4.7378459, "memory(GiB)": 28.03, "elapsed_time": "50m 0s", "remaining_time": "7h 41m 17s", "loss_scale": 1.0, "consumed_samples": 158976, "global_step/max_steps": "621/6350"}
{"lm loss": 5.33584642, "grad_norm": 1.82278454, "learning_rate": 9.939e-05, "elapsed_time_per_iteration": 4.70267129, "memory(GiB)": 28.03, "elapsed_time": "50m 4s", "remaining_time": "7h 41m 11s", "loss_scale": 1.0, "consumed_samples": 159232, "global_step/max_steps": "622/6350"}
{"lm loss": 5.33992147, "grad_norm": 2.43054581, "learning_rate": 9.939e-05, "elapsed_time_per_iteration": 4.69541383, "memory(GiB)": 28.03, "elapsed_time": "50m 9s", "remaining_time": "7h 41m 5s", "loss_scale": 1.0, "consumed_samples": 159488, "global_step/max_steps": "623/6350"}
{"lm loss": 5.34454107, "grad_norm": 2.02531266, "learning_rate": 9.938e-05, "elapsed_time_per_iteration": 5.63650799, "memory(GiB)": 28.03, "elapsed_time": "50m 15s", "remaining_time": "7h 41m 7s", "loss_scale": 1.0, "consumed_samples": 159744, "global_step/max_steps": "624/6350"}
{"lm loss": 5.3341527, "grad_norm": 2.79118347, "learning_rate": 9.938e-05, "elapsed_time_per_iteration": 4.70208502, "memory(GiB)": 28.03, "elapsed_time": "50m 19s", "remaining_time": "7h 41m 1s", "loss_scale": 1.0, "consumed_samples": 160000, "global_step/max_steps": "625/6350"}
{"lm loss": 5.33856773, "grad_norm": 2.03958058, "learning_rate": 9.938e-05, "elapsed_time_per_iteration": 4.74397254, "memory(GiB)": 28.03, "elapsed_time": "50m 24s", "remaining_time": "7h 40m 56s", "loss_scale": 1.0, "consumed_samples": 160256, "global_step/max_steps": "626/6350"}
{"lm loss": 5.33207893, "grad_norm": 2.018466, "learning_rate": 9.937e-05, "elapsed_time_per_iteration": 5.30549812, "memory(GiB)": 28.03, "elapsed_time": "50m 29s", "remaining_time": "7h 40m 55s", "loss_scale": 1.0, "consumed_samples": 160512, "global_step/max_steps": "627/6350"}
{"lm loss": 5.31941414, "grad_norm": 2.07749605, "learning_rate": 9.937e-05, "elapsed_time_per_iteration": 4.71895218, "memory(GiB)": 28.03, "elapsed_time": "50m 34s", "remaining_time": "7h 40m 49s", "loss_scale": 1.0, "consumed_samples": 160768, "global_step/max_steps": "628/6350"}
{"lm loss": 5.32163906, "grad_norm": 1.96751571, "learning_rate": 9.936e-05, "elapsed_time_per_iteration": 4.84392571, "memory(GiB)": 28.03, "elapsed_time": "50m 39s", "remaining_time": "7h 40m 45s", "loss_scale": 1.0, "consumed_samples": 161024, "global_step/max_steps": "629/6350"}
{"lm loss": 5.34667301, "grad_norm": 2.87213326, "learning_rate": 9.936e-05, "elapsed_time_per_iteration": 4.70187187, "memory(GiB)": 28.03, "elapsed_time": "50m 44s", "remaining_time": "7h 40m 39s", "loss_scale": 1.0, "consumed_samples": 161280, "global_step/max_steps": "630/6350"}
{"lm loss": 5.34638596, "grad_norm": 2.43425655, "learning_rate": 9.936e-05, "elapsed_time_per_iteration": 4.76738811, "memory(GiB)": 28.03, "elapsed_time": "50m 48s", "remaining_time": "7h 40m 33s", "loss_scale": 1.0, "consumed_samples": 161536, "global_step/max_steps": "631/6350"}
{"lm loss": 5.3330574, "grad_norm": 2.0983696, "learning_rate": 9.935e-05, "elapsed_time_per_iteration": 4.7355063, "memory(GiB)": 28.03, "elapsed_time": "50m 53s", "remaining_time": "7h 40m 28s", "loss_scale": 1.0, "consumed_samples": 161792, "global_step/max_steps": "632/6350"}
{"lm loss": 5.32985973, "grad_norm": 1.76776671, "learning_rate": 9.935e-05, "elapsed_time_per_iteration": 4.71438146, "memory(GiB)": 28.03, "elapsed_time": "50m 58s", "remaining_time": "7h 40m 22s", "loss_scale": 1.0, "consumed_samples": 162048, "global_step/max_steps": "633/6350"}
{"lm loss": 5.33258867, "grad_norm": 2.96908879, "learning_rate": 9.934e-05, "elapsed_time_per_iteration": 5.56541491, "memory(GiB)": 28.03, "elapsed_time": "51m 3s", "remaining_time": "7h 40m 23s", "loss_scale": 1.0, "consumed_samples": 162304, "global_step/max_steps": "634/6350"}
{"lm loss": 5.32690096, "grad_norm": 1.93452322, "learning_rate": 9.934e-05, "elapsed_time_per_iteration": 4.68448377, "memory(GiB)": 28.03, "elapsed_time": "51m 8s", "remaining_time": "7h 40m 17s", "loss_scale": 1.0, "consumed_samples": 162560, "global_step/max_steps": "635/6350"}
{"lm loss": 5.33185768, "grad_norm": 2.58559299, "learning_rate": 9.933e-05, "elapsed_time_per_iteration": 4.79893541, "memory(GiB)": 28.03, "elapsed_time": "51m 13s", "remaining_time": "7h 40m 12s", "loss_scale": 1.0, "consumed_samples": 162816, "global_step/max_steps": "636/6350"}
{"lm loss": 5.31717014, "grad_norm": 1.74860668, "learning_rate": 9.933e-05, "elapsed_time_per_iteration": 4.6833539, "memory(GiB)": 28.03, "elapsed_time": "51m 18s", "remaining_time": "7h 40m 6s", "loss_scale": 1.0, "consumed_samples": 163072, "global_step/max_steps": "637/6350"}
{"lm loss": 5.32150984, "grad_norm": 2.34861445, "learning_rate": 9.933e-05, "elapsed_time_per_iteration": 4.7272954, "memory(GiB)": 28.03, "elapsed_time": "51m 22s", "remaining_time": "7h 40m 0s", "loss_scale": 1.0, "consumed_samples": 163328, "global_step/max_steps": "638/6350"}
{"lm loss": 5.32591009, "grad_norm": 1.90625012, "learning_rate": 9.932e-05, "elapsed_time_per_iteration": 4.79997063, "memory(GiB)": 28.03, "elapsed_time": "51m 27s", "remaining_time": "7h 39m 55s", "loss_scale": 1.0, "consumed_samples": 163584, "global_step/max_steps": "639/6350"}
{"lm loss": 5.32676029, "grad_norm": 2.14014006, "learning_rate": 9.932e-05, "elapsed_time_per_iteration": 4.70457792, "memory(GiB)": 28.03, "elapsed_time": "51m 32s", "remaining_time": "7h 39m 49s", "loss_scale": 1.0, "consumed_samples": 163840, "global_step/max_steps": "640/6350"}
{"lm loss": 5.33717346, "grad_norm": 2.15454245, "learning_rate": 9.931e-05, "elapsed_time_per_iteration": 4.84109759, "memory(GiB)": 28.03, "elapsed_time": "51m 37s", "remaining_time": "7h 39m 44s", "loss_scale": 1.0, "consumed_samples": 164096, "global_step/max_steps": "641/6350"}
{"lm loss": 5.33332539, "grad_norm": 2.26590204, "learning_rate": 9.931e-05, "elapsed_time_per_iteration": 5.53074574, "memory(GiB)": 28.03, "elapsed_time": "51m 42s", "remaining_time": "7h 39m 46s", "loss_scale": 1.0, "consumed_samples": 164352, "global_step/max_steps": "642/6350"}
{"lm loss": 5.30917025, "grad_norm": 1.9223429, "learning_rate": 9.93e-05, "elapsed_time_per_iteration": 4.74848437, "memory(GiB)": 28.03, "elapsed_time": "51m 47s", "remaining_time": "7h 39m 40s", "loss_scale": 1.0, "consumed_samples": 164608, "global_step/max_steps": "643/6350"}
{"lm loss": 5.3152957, "grad_norm": 3.30602574, "learning_rate": 9.93e-05, "elapsed_time_per_iteration": 4.65051031, "memory(GiB)": 28.03, "elapsed_time": "51m 52s", "remaining_time": "7h 39m 34s", "loss_scale": 1.0, "consumed_samples": 164864, "global_step/max_steps": "644/6350"}
{"lm loss": 5.32843447, "grad_norm": 1.70490336, "learning_rate": 9.93e-05, "elapsed_time_per_iteration": 5.51089382, "memory(GiB)": 28.03, "elapsed_time": "51m 57s", "remaining_time": "7h 39m 35s", "loss_scale": 1.0, "consumed_samples": 165120, "global_step/max_steps": "645/6350"}
{"lm loss": 5.34256268, "grad_norm": 2.54848695, "learning_rate": 9.929e-05, "elapsed_time_per_iteration": 4.78452492, "memory(GiB)": 28.03, "elapsed_time": "52m 2s", "remaining_time": "7h 39m 30s", "loss_scale": 1.0, "consumed_samples": 165376, "global_step/max_steps": "646/6350"}
{"lm loss": 5.31199932, "grad_norm": 1.71382034, "learning_rate": 9.929e-05, "elapsed_time_per_iteration": 4.81699014, "memory(GiB)": 28.03, "elapsed_time": "52m 7s", "remaining_time": "7h 39m 25s", "loss_scale": 1.0, "consumed_samples": 165632, "global_step/max_steps": "647/6350"}
{"lm loss": 5.32198238, "grad_norm": 2.26066828, "learning_rate": 9.928e-05, "elapsed_time_per_iteration": 4.75568891, "memory(GiB)": 28.03, "elapsed_time": "52m 11s", "remaining_time": "7h 39m 19s", "loss_scale": 1.0, "consumed_samples": 165888, "global_step/max_steps": "648/6350"}
{"lm loss": 5.3371191, "grad_norm": 2.11241627, "learning_rate": 9.928e-05, "elapsed_time_per_iteration": 4.76886725, "memory(GiB)": 28.03, "elapsed_time": "52m 16s", "remaining_time": "7h 39m 14s", "loss_scale": 1.0, "consumed_samples": 166144, "global_step/max_steps": "649/6350"}
{"lm loss": 5.33797979, "grad_norm": 2.60899973, "learning_rate": 9.927e-05, "elapsed_time_per_iteration": 4.71634507, "memory(GiB)": 28.03, "elapsed_time": "52m 21s", "remaining_time": "7h 39m 8s", "loss_scale": 1.0, "consumed_samples": 166400, "global_step/max_steps": "650/6350"}
{"lm loss": 5.31856823, "grad_norm": 2.45292115, "learning_rate": 9.927e-05, "elapsed_time_per_iteration": 4.82427025, "memory(GiB)": 28.03, "elapsed_time": "52m 26s", "remaining_time": "7h 39m 3s", "loss_scale": 1.0, "consumed_samples": 166656, "global_step/max_steps": "651/6350"}
{"lm loss": 5.31585312, "grad_norm": 1.98616421, "learning_rate": 9.927e-05, "elapsed_time_per_iteration": 4.81748462, "memory(GiB)": 28.03, "elapsed_time": "52m 31s", "remaining_time": "7h 38m 58s", "loss_scale": 1.0, "consumed_samples": 166912, "global_step/max_steps": "652/6350"}
{"lm loss": 5.30452204, "grad_norm": 2.38861394, "learning_rate": 9.926e-05, "elapsed_time_per_iteration": 4.76228476, "memory(GiB)": 28.03, "elapsed_time": "52m 35s", "remaining_time": "7h 38m 53s", "loss_scale": 1.0, "consumed_samples": 167168, "global_step/max_steps": "653/6350"}
{"lm loss": 5.31823587, "grad_norm": 2.1861136, "learning_rate": 9.926e-05, "elapsed_time_per_iteration": 4.75205946, "memory(GiB)": 28.03, "elapsed_time": "52m 40s", "remaining_time": "7h 38m 47s", "loss_scale": 1.0, "consumed_samples": 167424, "global_step/max_steps": "654/6350"}
{"lm loss": 5.32397795, "grad_norm": 2.23790622, "learning_rate": 9.925e-05, "elapsed_time_per_iteration": 4.79458189, "memory(GiB)": 28.03, "elapsed_time": "52m 45s", "remaining_time": "7h 38m 42s", "loss_scale": 1.0, "consumed_samples": 167680, "global_step/max_steps": "655/6350"}
{"lm loss": 5.3078208, "grad_norm": 2.09182453, "learning_rate": 9.925e-05, "elapsed_time_per_iteration": 4.73667216, "memory(GiB)": 28.03, "elapsed_time": "52m 50s", "remaining_time": "7h 38m 36s", "loss_scale": 1.0, "consumed_samples": 167936, "global_step/max_steps": "656/6350"}
{"lm loss": 5.31925201, "grad_norm": 2.69325089, "learning_rate": 9.924e-05, "elapsed_time_per_iteration": 4.78625727, "memory(GiB)": 28.03, "elapsed_time": "52m 54s", "remaining_time": "7h 38m 31s", "loss_scale": 1.0, "consumed_samples": 168192, "global_step/max_steps": "657/6350"}
{"lm loss": 5.31169748, "grad_norm": 1.63964593, "learning_rate": 9.924e-05, "elapsed_time_per_iteration": 4.71759725, "memory(GiB)": 28.03, "elapsed_time": "52m 59s", "remaining_time": "7h 38m 25s", "loss_scale": 1.0, "consumed_samples": 168448, "global_step/max_steps": "658/6350"}
{"lm loss": 5.30976629, "grad_norm": 2.8925581, "learning_rate": 9.924e-05, "elapsed_time_per_iteration": 4.67870784, "memory(GiB)": 28.03, "elapsed_time": "53m 4s", "remaining_time": "7h 38m 19s", "loss_scale": 1.0, "consumed_samples": 168704, "global_step/max_steps": "659/6350"}
{"lm loss": 5.3163619, "grad_norm": 1.49410558, "learning_rate": 9.923e-05, "elapsed_time_per_iteration": 4.78233624, "memory(GiB)": 28.03, "elapsed_time": "53m 9s", "remaining_time": "7h 38m 14s", "loss_scale": 1.0, "consumed_samples": 168960, "global_step/max_steps": "660/6350"}
{"lm loss": 5.33349228, "grad_norm": 1.60129392, "learning_rate": 9.923e-05, "elapsed_time_per_iteration": 4.80484796, "memory(GiB)": 28.03, "elapsed_time": "53m 13s", "remaining_time": "7h 38m 9s", "loss_scale": 1.0, "consumed_samples": 169216, "global_step/max_steps": "661/6350"}
{"lm loss": 5.32358694, "grad_norm": 2.28497314, "learning_rate": 9.922e-05, "elapsed_time_per_iteration": 4.75651217, "memory(GiB)": 28.03, "elapsed_time": "53m 18s", "remaining_time": "7h 38m 3s", "loss_scale": 1.0, "consumed_samples": 169472, "global_step/max_steps": "662/6350"}
{"lm loss": 5.32416248, "grad_norm": 2.21059465, "learning_rate": 9.922e-05, "elapsed_time_per_iteration": 5.88626552, "memory(GiB)": 28.03, "elapsed_time": "53m 24s", "remaining_time": "7h 38m 7s", "loss_scale": 1.0, "consumed_samples": 169728, "global_step/max_steps": "663/6350"}
{"lm loss": 5.32048512, "grad_norm": 2.35014677, "learning_rate": 9.921e-05, "elapsed_time_per_iteration": 4.72456574, "memory(GiB)": 28.03, "elapsed_time": "53m 29s", "remaining_time": "7h 38m 2s", "loss_scale": 1.0, "consumed_samples": 169984, "global_step/max_steps": "664/6350"}
{"lm loss": 5.29209089, "grad_norm": 2.59770513, "learning_rate": 9.921e-05, "elapsed_time_per_iteration": 4.72192812, "memory(GiB)": 28.03, "elapsed_time": "53m 34s", "remaining_time": "7h 37m 56s", "loss_scale": 1.0, "consumed_samples": 170240, "global_step/max_steps": "665/6350"}
{"lm loss": 5.31783581, "grad_norm": 2.01837015, "learning_rate": 9.92e-05, "elapsed_time_per_iteration": 4.73145485, "memory(GiB)": 28.03, "elapsed_time": "53m 38s", "remaining_time": "7h 37m 50s", "loss_scale": 1.0, "consumed_samples": 170496, "global_step/max_steps": "666/6350"}
{"lm loss": 5.31450081, "grad_norm": 2.14134097, "learning_rate": 9.92e-05, "elapsed_time_per_iteration": 4.71834493, "memory(GiB)": 28.03, "elapsed_time": "53m 43s", "remaining_time": "7h 37m 44s", "loss_scale": 1.0, "consumed_samples": 170752, "global_step/max_steps": "667/6350"}
{"lm loss": 5.32671118, "grad_norm": 1.72755587, "learning_rate": 9.919e-05, "elapsed_time_per_iteration": 4.74370074, "memory(GiB)": 28.03, "elapsed_time": "53m 48s", "remaining_time": "7h 37m 39s", "loss_scale": 1.0, "consumed_samples": 171008, "global_step/max_steps": "668/6350"}
{"lm loss": 5.31394672, "grad_norm": 2.54170799, "learning_rate": 9.919e-05, "elapsed_time_per_iteration": 5.22274685, "memory(GiB)": 28.03, "elapsed_time": "53m 53s", "remaining_time": "7h 37m 37s", "loss_scale": 1.0, "consumed_samples": 171264, "global_step/max_steps": "669/6350"}
{"lm loss": 5.32258701, "grad_norm": 2.29207945, "learning_rate": 9.919e-05, "elapsed_time_per_iteration": 4.73052502, "memory(GiB)": 28.03, "elapsed_time": "53m 58s", "remaining_time": "7h 37m 31s", "loss_scale": 1.0, "consumed_samples": 171520, "global_step/max_steps": "670/6350"}
{"lm loss": 5.32181692, "grad_norm": 1.7609688, "learning_rate": 9.918e-05, "elapsed_time_per_iteration": 4.76440239, "memory(GiB)": 28.03, "elapsed_time": "54m 2s", "remaining_time": "7h 37m 26s", "loss_scale": 1.0, "consumed_samples": 171776, "global_step/max_steps": "671/6350"}
{"lm loss": 5.32655096, "grad_norm": 2.37256718, "learning_rate": 9.918e-05, "elapsed_time_per_iteration": 4.83972096, "memory(GiB)": 28.03, "elapsed_time": "54m 7s", "remaining_time": "7h 37m 21s", "loss_scale": 1.0, "consumed_samples": 172032, "global_step/max_steps": "672/6350"}
{"lm loss": 5.307446, "grad_norm": 2.49561405, "learning_rate": 9.917e-05, "elapsed_time_per_iteration": 4.79761815, "memory(GiB)": 28.03, "elapsed_time": "54m 12s", "remaining_time": "7h 37m 16s", "loss_scale": 1.0, "consumed_samples": 172288, "global_step/max_steps": "673/6350"}
{"lm loss": 5.32085896, "grad_norm": 1.7919265, "learning_rate": 9.917e-05, "elapsed_time_per_iteration": 4.72573733, "memory(GiB)": 28.03, "elapsed_time": "54m 17s", "remaining_time": "7h 37m 10s", "loss_scale": 1.0, "consumed_samples": 172544, "global_step/max_steps": "674/6350"}
{"lm loss": 5.32304049, "grad_norm": 1.84660935, "learning_rate": 9.916e-05, "elapsed_time_per_iteration": 4.82256842, "memory(GiB)": 28.03, "elapsed_time": "54m 22s", "remaining_time": "7h 37m 5s", "loss_scale": 1.0, "consumed_samples": 172800, "global_step/max_steps": "675/6350"}
{"lm loss": 5.28071404, "grad_norm": 2.37490344, "learning_rate": 9.916e-05, "elapsed_time_per_iteration": 4.65223765, "memory(GiB)": 28.03, "elapsed_time": "54m 26s", "remaining_time": "7h 36m 59s", "loss_scale": 1.0, "consumed_samples": 173056, "global_step/max_steps": "676/6350"}
{"lm loss": 5.29902315, "grad_norm": 1.72841048, "learning_rate": 9.915e-05, "elapsed_time_per_iteration": 4.69022584, "memory(GiB)": 28.03, "elapsed_time": "54m 31s", "remaining_time": "7h 36m 53s", "loss_scale": 1.0, "consumed_samples": 173312, "global_step/max_steps": "677/6350"}
{"lm loss": 5.31195641, "grad_norm": 3.01209545, "learning_rate": 9.915e-05, "elapsed_time_per_iteration": 4.72166514, "memory(GiB)": 28.03, "elapsed_time": "54m 36s", "remaining_time": "7h 36m 47s", "loss_scale": 1.0, "consumed_samples": 173568, "global_step/max_steps": "678/6350"}
{"lm loss": 5.29165745, "grad_norm": 2.07137823, "learning_rate": 9.914e-05, "elapsed_time_per_iteration": 5.55728292, "memory(GiB)": 28.03, "elapsed_time": "54m 41s", "remaining_time": "7h 36m 49s", "loss_scale": 1.0, "consumed_samples": 173824, "global_step/max_steps": "679/6350"}
{"lm loss": 5.29694271, "grad_norm": 1.39107466, "learning_rate": 9.914e-05, "elapsed_time_per_iteration": 5.55552769, "memory(GiB)": 28.03, "elapsed_time": "54m 47s", "remaining_time": "7h 36m 50s", "loss_scale": 1.0, "consumed_samples": 174080, "global_step/max_steps": "680/6350"}
{"lm loss": 5.29884768, "grad_norm": 2.7358129, "learning_rate": 9.913e-05, "elapsed_time_per_iteration": 4.75611758, "memory(GiB)": 28.03, "elapsed_time": "54m 52s", "remaining_time": "7h 36m 44s", "loss_scale": 1.0, "consumed_samples": 174336, "global_step/max_steps": "681/6350"}
{"lm loss": 5.31349039, "grad_norm": 1.51069999, "learning_rate": 9.913e-05, "elapsed_time_per_iteration": 4.72339225, "memory(GiB)": 28.03, "elapsed_time": "54m 56s", "remaining_time": "7h 36m 39s", "loss_scale": 1.0, "consumed_samples": 174592, "global_step/max_steps": "682/6350"}
{"lm loss": 5.28745556, "grad_norm": 2.66478467, "learning_rate": 9.912e-05, "elapsed_time_per_iteration": 4.72040033, "memory(GiB)": 28.03, "elapsed_time": "55m 1s", "remaining_time": "7h 36m 33s", "loss_scale": 1.0, "consumed_samples": 174848, "global_step/max_steps": "683/6350"}
{"lm loss": 5.310256, "grad_norm": 2.53649044, "learning_rate": 9.912e-05, "elapsed_time_per_iteration": 4.73663378, "memory(GiB)": 28.03, "elapsed_time": "55m 6s", "remaining_time": "7h 36m 27s", "loss_scale": 1.0, "consumed_samples": 175104, "global_step/max_steps": "684/6350"}
{"lm loss": 5.30552292, "grad_norm": 1.90126407, "learning_rate": 9.911e-05, "elapsed_time_per_iteration": 4.74444079, "memory(GiB)": 28.03, "elapsed_time": "55m 10s", "remaining_time": "7h 36m 22s", "loss_scale": 1.0, "consumed_samples": 175360, "global_step/max_steps": "685/6350"}
{"lm loss": 5.30655956, "grad_norm": 1.93910992, "learning_rate": 9.911e-05, "elapsed_time_per_iteration": 4.71607041, "memory(GiB)": 28.03, "elapsed_time": "55m 15s", "remaining_time": "7h 36m 16s", "loss_scale": 1.0, "consumed_samples": 175616, "global_step/max_steps": "686/6350"}
{"lm loss": 5.30358744, "grad_norm": 1.97760844, "learning_rate": 9.91e-05, "elapsed_time_per_iteration": 4.69346929, "memory(GiB)": 28.03, "elapsed_time": "55m 20s", "remaining_time": "7h 36m 10s", "loss_scale": 1.0, "consumed_samples": 175872, "global_step/max_steps": "687/6350"}
{"lm loss": 5.30901003, "grad_norm": 2.20965433, "learning_rate": 9.91e-05, "elapsed_time_per_iteration": 4.75196099, "memory(GiB)": 28.03, "elapsed_time": "55m 25s", "remaining_time": "7h 36m 4s", "loss_scale": 1.0, "consumed_samples": 176128, "global_step/max_steps": "688/6350"}
{"lm loss": 5.28302145, "grad_norm": 2.34452009, "learning_rate": 9.91e-05, "elapsed_time_per_iteration": 4.74064755, "memory(GiB)": 28.03, "elapsed_time": "55m 29s", "remaining_time": "7h 35m 59s", "loss_scale": 1.0, "consumed_samples": 176384, "global_step/max_steps": "689/6350"}
{"lm loss": 5.30210018, "grad_norm": 2.42728853, "learning_rate": 9.909e-05, "elapsed_time_per_iteration": 4.79074121, "memory(GiB)": 28.03, "elapsed_time": "55m 34s", "remaining_time": "7h 35m 53s", "loss_scale": 1.0, "consumed_samples": 176640, "global_step/max_steps": "690/6350"}
{"lm loss": 5.28963995, "grad_norm": 1.95755899, "learning_rate": 9.909e-05, "elapsed_time_per_iteration": 4.7613616, "memory(GiB)": 28.03, "elapsed_time": "55m 39s", "remaining_time": "7h 35m 48s", "loss_scale": 1.0, "consumed_samples": 176896, "global_step/max_steps": "691/6350"}
{"lm loss": 5.30104685, "grad_norm": 2.22631669, "learning_rate": 9.908e-05, "elapsed_time_per_iteration": 4.72009659, "memory(GiB)": 28.03, "elapsed_time": "55m 44s", "remaining_time": "7h 35m 42s", "loss_scale": 1.0, "consumed_samples": 177152, "global_step/max_steps": "692/6350"}
{"lm loss": 5.31124544, "grad_norm": 2.03061414, "learning_rate": 9.908e-05, "elapsed_time_per_iteration": 4.7264266, "memory(GiB)": 28.03, "elapsed_time": "55m 48s", "remaining_time": "7h 35m 37s", "loss_scale": 1.0, "consumed_samples": 177408, "global_step/max_steps": "693/6350"}
{"lm loss": 5.30187988, "grad_norm": 2.49896717, "learning_rate": 9.907e-05, "elapsed_time_per_iteration": 4.73128915, "memory(GiB)": 28.03, "elapsed_time": "55m 53s", "remaining_time": "7h 35m 31s", "loss_scale": 1.0, "consumed_samples": 177664, "global_step/max_steps": "694/6350"}
{"lm loss": 5.30440521, "grad_norm": 1.49007666, "learning_rate": 9.907e-05, "elapsed_time_per_iteration": 5.37820959, "memory(GiB)": 28.03, "elapsed_time": "55m 58s", "remaining_time": "7h 35m 31s", "loss_scale": 1.0, "consumed_samples": 177920, "global_step/max_steps": "695/6350"}
{"lm loss": 5.30418873, "grad_norm": 2.29000044, "learning_rate": 9.906e-05, "elapsed_time_per_iteration": 4.67519093, "memory(GiB)": 28.03, "elapsed_time": "56m 3s", "remaining_time": "7h 35m 24s", "loss_scale": 1.0, "consumed_samples": 178176, "global_step/max_steps": "696/6350"}
{"lm loss": 5.28871107, "grad_norm": 1.62170589, "learning_rate": 9.906e-05, "elapsed_time_per_iteration": 4.67318916, "memory(GiB)": 28.03, "elapsed_time": "56m 8s", "remaining_time": "7h 35m 18s", "loss_scale": 1.0, "consumed_samples": 178432, "global_step/max_steps": "697/6350"}
{"lm loss": 5.31247663, "grad_norm": 2.18044114, "learning_rate": 9.905e-05, "elapsed_time_per_iteration": 4.684026, "memory(GiB)": 28.03, "elapsed_time": "56m 13s", "remaining_time": "7h 35m 12s", "loss_scale": 1.0, "consumed_samples": 178688, "global_step/max_steps": "698/6350"}
{"lm loss": 5.30071068, "grad_norm": 1.95398319, "learning_rate": 9.905e-05, "elapsed_time_per_iteration": 4.68100691, "memory(GiB)": 28.03, "elapsed_time": "56m 17s", "remaining_time": "7h 35m 6s", "loss_scale": 1.0, "consumed_samples": 178944, "global_step/max_steps": "699/6350"}
{"lm loss": 5.29497957, "grad_norm": 1.97923195, "learning_rate": 9.904e-05, "elapsed_time_per_iteration": 4.71607494, "memory(GiB)": 28.03, "elapsed_time": "56m 22s", "remaining_time": "7h 35m 0s", "loss_scale": 1.0, "consumed_samples": 179200, "global_step/max_steps": "700/6350"}
{"lm loss": 5.31475115, "grad_norm": 2.38040113, "learning_rate": 9.904e-05, "elapsed_time_per_iteration": 4.73226166, "memory(GiB)": 28.03, "elapsed_time": "56m 27s", "remaining_time": "7h 34m 55s", "loss_scale": 1.0, "consumed_samples": 179456, "global_step/max_steps": "701/6350"}
{"lm loss": 5.29253387, "grad_norm": 1.99581635, "learning_rate": 9.903e-05, "elapsed_time_per_iteration": 4.76697874, "memory(GiB)": 28.03, "elapsed_time": "56m 31s", "remaining_time": "7h 34m 49s", "loss_scale": 1.0, "consumed_samples": 179712, "global_step/max_steps": "702/6350"}
{"lm loss": 5.29582405, "grad_norm": 2.61254668, "learning_rate": 9.903e-05, "elapsed_time_per_iteration": 5.14438081, "memory(GiB)": 28.03, "elapsed_time": "56m 37s", "remaining_time": "7h 34m 47s", "loss_scale": 1.0, "consumed_samples": 179968, "global_step/max_steps": "703/6350"}
{"lm loss": 5.28675747, "grad_norm": 1.5879215, "learning_rate": 9.902e-05, "elapsed_time_per_iteration": 4.81177902, "memory(GiB)": 28.03, "elapsed_time": "56m 41s", "remaining_time": "7h 34m 42s", "loss_scale": 1.0, "consumed_samples": 180224, "global_step/max_steps": "704/6350"}
{"lm loss": 5.30630541, "grad_norm": 2.50992751, "learning_rate": 9.902e-05, "elapsed_time_per_iteration": 4.72348499, "memory(GiB)": 28.03, "elapsed_time": "56m 46s", "remaining_time": "7h 34m 36s", "loss_scale": 1.0, "consumed_samples": 180480, "global_step/max_steps": "705/6350"}
{"lm loss": 5.29782391, "grad_norm": 1.69731665, "learning_rate": 9.901e-05, "elapsed_time_per_iteration": 5.1972487, "memory(GiB)": 28.03, "elapsed_time": "56m 51s", "remaining_time": "7h 34m 35s", "loss_scale": 1.0, "consumed_samples": 180736, "global_step/max_steps": "706/6350"}
{"lm loss": 5.30386209, "grad_norm": 2.46997714, "learning_rate": 9.901e-05, "elapsed_time_per_iteration": 4.72076964, "memory(GiB)": 28.03, "elapsed_time": "56m 56s", "remaining_time": "7h 34m 29s", "loss_scale": 1.0, "consumed_samples": 180992, "global_step/max_steps": "707/6350"}
{"lm loss": 5.29839516, "grad_norm": 1.58313632, "learning_rate": 9.9e-05, "elapsed_time_per_iteration": 4.80748916, "memory(GiB)": 28.03, "elapsed_time": "57m 1s", "remaining_time": "7h 34m 24s", "loss_scale": 1.0, "consumed_samples": 181248, "global_step/max_steps": "708/6350"}
{"lm loss": 5.28258705, "grad_norm": 2.24995399, "learning_rate": 9.9e-05, "elapsed_time_per_iteration": 4.71539021, "memory(GiB)": 28.03, "elapsed_time": "57m 6s", "remaining_time": "7h 34m 18s", "loss_scale": 1.0, "consumed_samples": 181504, "global_step/max_steps": "709/6350"}
{"lm loss": 5.26735592, "grad_norm": 1.91825557, "learning_rate": 9.899e-05, "elapsed_time_per_iteration": 4.77068162, "memory(GiB)": 28.03, "elapsed_time": "57m 10s", "remaining_time": "7h 34m 13s", "loss_scale": 1.0, "consumed_samples": 181760, "global_step/max_steps": "710/6350"}
{"lm loss": 5.28246355, "grad_norm": 2.30906749, "learning_rate": 9.899e-05, "elapsed_time_per_iteration": 4.7941308, "memory(GiB)": 28.03, "elapsed_time": "57m 15s", "remaining_time": "7h 34m 8s", "loss_scale": 1.0, "consumed_samples": 182016, "global_step/max_steps": "711/6350"}
{"lm loss": 5.29207563, "grad_norm": 1.97521877, "learning_rate": 9.898e-05, "elapsed_time_per_iteration": 4.72860718, "memory(GiB)": 28.03, "elapsed_time": "57m 20s", "remaining_time": "7h 34m 2s", "loss_scale": 1.0, "consumed_samples": 182272, "global_step/max_steps": "712/6350"}
{"lm loss": 5.2919035, "grad_norm": 2.14011598, "learning_rate": 9.897e-05, "elapsed_time_per_iteration": 4.68416119, "memory(GiB)": 28.03, "elapsed_time": "57m 25s", "remaining_time": "7h 33m 56s", "loss_scale": 1.0, "consumed_samples": 182528, "global_step/max_steps": "713/6350"}
{"lm loss": 5.28504992, "grad_norm": 2.13007116, "learning_rate": 9.897e-05, "elapsed_time_per_iteration": 4.75061631, "memory(GiB)": 28.03, "elapsed_time": "57m 29s", "remaining_time": "7h 33m 50s", "loss_scale": 1.0, "consumed_samples": 182784, "global_step/max_steps": "714/6350"}
{"lm loss": 5.27990675, "grad_norm": 2.00411034, "learning_rate": 9.896e-05, "elapsed_time_per_iteration": 4.79299641, "memory(GiB)": 28.03, "elapsed_time": "57m 34s", "remaining_time": "7h 33m 45s", "loss_scale": 1.0, "consumed_samples": 183040, "global_step/max_steps": "715/6350"}
{"lm loss": 5.29153538, "grad_norm": 2.04373813, "learning_rate": 9.896e-05, "elapsed_time_per_iteration": 5.02357841, "memory(GiB)": 28.03, "elapsed_time": "57m 39s", "remaining_time": "7h 33m 42s", "loss_scale": 1.0, "consumed_samples": 183296, "global_step/max_steps": "716/6350"}
{"lm loss": 5.2758522, "grad_norm": 2.37744832, "learning_rate": 9.895e-05, "elapsed_time_per_iteration": 4.81774998, "memory(GiB)": 28.03, "elapsed_time": "57m 44s", "remaining_time": "7h 33m 37s", "loss_scale": 1.0, "consumed_samples": 183552, "global_step/max_steps": "717/6350"}
{"lm loss": 5.28830242, "grad_norm": 1.6412971, "learning_rate": 9.895e-05, "elapsed_time_per_iteration": 4.69112206, "memory(GiB)": 28.03, "elapsed_time": "57m 49s", "remaining_time": "7h 33m 31s", "loss_scale": 1.0, "consumed_samples": 183808, "global_step/max_steps": "718/6350"}
{"lm loss": 5.30539274, "grad_norm": 2.28292084, "learning_rate": 9.894e-05, "elapsed_time_per_iteration": 4.76664972, "memory(GiB)": 28.03, "elapsed_time": "57m 53s", "remaining_time": "7h 33m 26s", "loss_scale": 1.0, "consumed_samples": 184064, "global_step/max_steps": "719/6350"}
{"lm loss": 5.26552534, "grad_norm": 1.73372722, "learning_rate": 9.894e-05, "elapsed_time_per_iteration": 4.70934176, "memory(GiB)": 28.03, "elapsed_time": "57m 58s", "remaining_time": "7h 33m 20s", "loss_scale": 1.0, "consumed_samples": 184320, "global_step/max_steps": "720/6350"}
{"lm loss": 5.27360725, "grad_norm": 1.61946523, "learning_rate": 9.893e-05, "elapsed_time_per_iteration": 4.72254467, "memory(GiB)": 28.03, "elapsed_time": "58m 3s", "remaining_time": "7h 33m 14s", "loss_scale": 1.0, "consumed_samples": 184576, "global_step/max_steps": "721/6350"}
{"lm loss": 5.27830076, "grad_norm": 2.01756811, "learning_rate": 9.893e-05, "elapsed_time_per_iteration": 4.74502134, "memory(GiB)": 28.03, "elapsed_time": "58m 8s", "remaining_time": "7h 33m 9s", "loss_scale": 1.0, "consumed_samples": 184832, "global_step/max_steps": "722/6350"}
{"lm loss": 5.28577328, "grad_norm": 2.15336847, "learning_rate": 9.892e-05, "elapsed_time_per_iteration": 4.6542666, "memory(GiB)": 28.03, "elapsed_time": "58m 12s", "remaining_time": "7h 33m 3s", "loss_scale": 1.0, "consumed_samples": 185088, "global_step/max_steps": "723/6350"}
{"lm loss": 5.28349686, "grad_norm": 1.85548639, "learning_rate": 9.892e-05, "elapsed_time_per_iteration": 4.76590562, "memory(GiB)": 28.03, "elapsed_time": "58m 17s", "remaining_time": "7h 32m 57s", "loss_scale": 1.0, "consumed_samples": 185344, "global_step/max_steps": "724/6350"}
{"lm loss": 5.2749505, "grad_norm": 2.43721867, "learning_rate": 9.891e-05, "elapsed_time_per_iteration": 4.63689566, "memory(GiB)": 28.03, "elapsed_time": "58m 22s", "remaining_time": "7h 32m 51s", "loss_scale": 1.0, "consumed_samples": 185600, "global_step/max_steps": "725/6350"}
{"lm loss": 5.28695917, "grad_norm": 2.15505695, "learning_rate": 9.891e-05, "elapsed_time_per_iteration": 4.6890347, "memory(GiB)": 28.03, "elapsed_time": "58m 26s", "remaining_time": "7h 32m 45s", "loss_scale": 1.0, "consumed_samples": 185856, "global_step/max_steps": "726/6350"}
{"lm loss": 5.28307152, "grad_norm": 1.65372765, "learning_rate": 9.89e-05, "elapsed_time_per_iteration": 4.76490259, "memory(GiB)": 28.03, "elapsed_time": "58m 31s", "remaining_time": "7h 32m 40s", "loss_scale": 1.0, "consumed_samples": 186112, "global_step/max_steps": "727/6350"}
{"lm loss": 5.31242609, "grad_norm": 2.15095663, "learning_rate": 9.89e-05, "elapsed_time_per_iteration": 4.70034289, "memory(GiB)": 28.03, "elapsed_time": "58m 36s", "remaining_time": "7h 32m 34s", "loss_scale": 1.0, "consumed_samples": 186368, "global_step/max_steps": "728/6350"}
{"lm loss": 5.27254629, "grad_norm": 2.2523725, "learning_rate": 9.889e-05, "elapsed_time_per_iteration": 4.66576147, "memory(GiB)": 28.03, "elapsed_time": "58m 40s", "remaining_time": "7h 32m 28s", "loss_scale": 1.0, "consumed_samples": 186624, "global_step/max_steps": "729/6350"}
{"lm loss": 5.29276466, "grad_norm": 2.29192805, "learning_rate": 9.889e-05, "elapsed_time_per_iteration": 4.76147914, "memory(GiB)": 28.03, "elapsed_time": "58m 45s", "remaining_time": "7h 32m 22s", "loss_scale": 1.0, "consumed_samples": 186880, "global_step/max_steps": "730/6350"}
{"lm loss": 5.28441, "grad_norm": 1.93650615, "learning_rate": 9.888e-05, "elapsed_time_per_iteration": 4.74625826, "memory(GiB)": 28.03, "elapsed_time": "58m 50s", "remaining_time": "7h 32m 17s", "loss_scale": 1.0, "consumed_samples": 187136, "global_step/max_steps": "731/6350"}
{"lm loss": 5.27810335, "grad_norm": 2.17722964, "learning_rate": 9.887e-05, "elapsed_time_per_iteration": 4.69649649, "memory(GiB)": 28.03, "elapsed_time": "58m 55s", "remaining_time": "7h 32m 11s", "loss_scale": 1.0, "consumed_samples": 187392, "global_step/max_steps": "732/6350"}
{"lm loss": 5.27661705, "grad_norm": 1.76744568, "learning_rate": 9.887e-05, "elapsed_time_per_iteration": 4.64788389, "memory(GiB)": 28.03, "elapsed_time": "58m 59s", "remaining_time": "7h 32m 5s", "loss_scale": 1.0, "consumed_samples": 187648, "global_step/max_steps": "733/6350"}
{"lm loss": 5.28475046, "grad_norm": 2.44649601, "learning_rate": 9.886e-05, "elapsed_time_per_iteration": 4.74909067, "memory(GiB)": 28.03, "elapsed_time": "59m 4s", "remaining_time": "7h 31m 59s", "loss_scale": 1.0, "consumed_samples": 187904, "global_step/max_steps": "734/6350"}
{"lm loss": 5.26809502, "grad_norm": 1.56430125, "learning_rate": 9.886e-05, "elapsed_time_per_iteration": 4.72010064, "memory(GiB)": 28.03, "elapsed_time": "59m 9s", "remaining_time": "7h 31m 54s", "loss_scale": 1.0, "consumed_samples": 188160, "global_step/max_steps": "735/6350"}
{"lm loss": 5.30262041, "grad_norm": 2.18053293, "learning_rate": 9.885e-05, "elapsed_time_per_iteration": 4.66930366, "memory(GiB)": 28.03, "elapsed_time": "59m 13s", "remaining_time": "7h 31m 48s", "loss_scale": 1.0, "consumed_samples": 188416, "global_step/max_steps": "736/6350"}
{"lm loss": 5.28966475, "grad_norm": 1.71106935, "learning_rate": 9.885e-05, "elapsed_time_per_iteration": 4.6946516, "memory(GiB)": 28.03, "elapsed_time": "59m 18s", "remaining_time": "7h 31m 42s", "loss_scale": 1.0, "consumed_samples": 188672, "global_step/max_steps": "737/6350"}
{"lm loss": 5.29138374, "grad_norm": 1.93328071, "learning_rate": 9.884e-05, "elapsed_time_per_iteration": 4.67655683, "memory(GiB)": 28.03, "elapsed_time": "59m 23s", "remaining_time": "7h 31m 36s", "loss_scale": 1.0, "consumed_samples": 188928, "global_step/max_steps": "738/6350"}
{"lm loss": 5.28779554, "grad_norm": 2.31464791, "learning_rate": 9.884e-05, "elapsed_time_per_iteration": 4.78065872, "memory(GiB)": 28.03, "elapsed_time": "59m 28s", "remaining_time": "7h 31m 31s", "loss_scale": 1.0, "consumed_samples": 189184, "global_step/max_steps": "739/6350"}
{"lm loss": 5.28350496, "grad_norm": 1.70449352, "learning_rate": 9.883e-05, "elapsed_time_per_iteration": 4.69985843, "memory(GiB)": 28.03, "elapsed_time": "59m 32s", "remaining_time": "7h 31m 25s", "loss_scale": 1.0, "consumed_samples": 189440, "global_step/max_steps": "740/6350"}
{"lm loss": 5.26605177, "grad_norm": 1.86072958, "learning_rate": 9.883e-05, "elapsed_time_per_iteration": 4.7089057, "memory(GiB)": 28.03, "elapsed_time": "59m 37s", "remaining_time": "7h 31m 19s", "loss_scale": 1.0, "consumed_samples": 189696, "global_step/max_steps": "741/6350"}
{"lm loss": 5.28776026, "grad_norm": 2.53709459, "learning_rate": 9.882e-05, "elapsed_time_per_iteration": 4.73388958, "memory(GiB)": 28.03, "elapsed_time": "59m 42s", "remaining_time": "7h 31m 14s", "loss_scale": 1.0, "consumed_samples": 189952, "global_step/max_steps": "742/6350"}
{"lm loss": 5.26068258, "grad_norm": 2.01712155, "learning_rate": 9.881e-05, "elapsed_time_per_iteration": 4.7633121, "memory(GiB)": 28.03, "elapsed_time": "59m 46s", "remaining_time": "7h 31m 8s", "loss_scale": 1.0, "consumed_samples": 190208, "global_step/max_steps": "743/6350"}
{"lm loss": 5.28265476, "grad_norm": 1.94478571, "learning_rate": 9.881e-05, "elapsed_time_per_iteration": 4.7608428, "memory(GiB)": 28.03, "elapsed_time": "59m 51s", "remaining_time": "7h 31m 3s", "loss_scale": 1.0, "consumed_samples": 190464, "global_step/max_steps": "744/6350"}
{"lm loss": 5.26302528, "grad_norm": 1.8307395, "learning_rate": 9.88e-05, "elapsed_time_per_iteration": 5.63100147, "memory(GiB)": 28.03, "elapsed_time": "59m 57s", "remaining_time": "7h 31m 4s", "loss_scale": 1.0, "consumed_samples": 190720, "global_step/max_steps": "745/6350"}
{"lm loss": 5.28681374, "grad_norm": 2.09213471, "learning_rate": 9.88e-05, "elapsed_time_per_iteration": 4.75487733, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 2s", "remaining_time": "7h 30m 59s", "loss_scale": 1.0, "consumed_samples": 190976, "global_step/max_steps": "746/6350"}
{"lm loss": 5.2977252, "grad_norm": 1.55669701, "learning_rate": 9.879e-05, "elapsed_time_per_iteration": 5.09524679, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 7s", "remaining_time": "7h 30m 56s", "loss_scale": 1.0, "consumed_samples": 191232, "global_step/max_steps": "747/6350"}
{"lm loss": 5.27587032, "grad_norm": 2.58956671, "learning_rate": 9.879e-05, "elapsed_time_per_iteration": 5.58417273, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 12s", "remaining_time": "7h 30m 57s", "loss_scale": 1.0, "consumed_samples": 191488, "global_step/max_steps": "748/6350"}
{"lm loss": 5.27541685, "grad_norm": 1.44578457, "learning_rate": 9.878e-05, "elapsed_time_per_iteration": 4.72261667, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 17s", "remaining_time": "7h 30m 51s", "loss_scale": 1.0, "consumed_samples": 191744, "global_step/max_steps": "749/6350"}
{"lm loss": 5.2771554, "grad_norm": 2.57451057, "learning_rate": 9.877e-05, "elapsed_time_per_iteration": 4.70963597, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 22s", "remaining_time": "7h 30m 45s", "loss_scale": 1.0, "consumed_samples": 192000, "global_step/max_steps": "750/6350"}
{"lm loss": 5.26316881, "grad_norm": 1.90705943, "learning_rate": 9.877e-05, "elapsed_time_per_iteration": 4.79957986, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 27s", "remaining_time": "7h 30m 40s", "loss_scale": 1.0, "consumed_samples": 192256, "global_step/max_steps": "751/6350"}
{"lm loss": 5.25400686, "grad_norm": 1.80498099, "learning_rate": 9.876e-05, "elapsed_time_per_iteration": 5.69035959, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 32s", "remaining_time": "7h 30m 42s", "loss_scale": 1.0, "consumed_samples": 192512, "global_step/max_steps": "752/6350"}
{"lm loss": 5.28003311, "grad_norm": 2.15879941, "learning_rate": 9.876e-05, "elapsed_time_per_iteration": 5.49749207, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 38s", "remaining_time": "7h 30m 42s", "loss_scale": 1.0, "consumed_samples": 192768, "global_step/max_steps": "753/6350"}
{"lm loss": 5.26695299, "grad_norm": 2.10123849, "learning_rate": 9.875e-05, "elapsed_time_per_iteration": 5.44433045, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 43s", "remaining_time": "7h 30m 42s", "loss_scale": 1.0, "consumed_samples": 193024, "global_step/max_steps": "754/6350"}
{"lm loss": 5.28333092, "grad_norm": 1.56755662, "learning_rate": 9.875e-05, "elapsed_time_per_iteration": 4.72195339, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 48s", "remaining_time": "7h 30m 36s", "loss_scale": 1.0, "consumed_samples": 193280, "global_step/max_steps": "755/6350"}
{"lm loss": 5.25856638, "grad_norm": 1.99643528, "learning_rate": 9.874e-05, "elapsed_time_per_iteration": 4.84597707, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 53s", "remaining_time": "7h 30m 31s", "loss_scale": 1.0, "consumed_samples": 193536, "global_step/max_steps": "756/6350"}
{"lm loss": 5.2929883, "grad_norm": 2.45565581, "learning_rate": 9.874e-05, "elapsed_time_per_iteration": 4.78111815, "memory(GiB)": 28.03, "elapsed_time": "1h 0m 58s", "remaining_time": "7h 30m 26s", "loss_scale": 1.0, "consumed_samples": 193792, "global_step/max_steps": "757/6350"}
{"lm loss": 5.25281334, "grad_norm": 1.45044112, "learning_rate": 9.873e-05, "elapsed_time_per_iteration": 4.7235477, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 2s", "remaining_time": "7h 30m 21s", "loss_scale": 1.0, "consumed_samples": 194048, "global_step/max_steps": "758/6350"}
{"lm loss": 5.28836489, "grad_norm": 2.75346637, "learning_rate": 9.872e-05, "elapsed_time_per_iteration": 4.80324697, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 7s", "remaining_time": "7h 30m 15s", "loss_scale": 1.0, "consumed_samples": 194304, "global_step/max_steps": "759/6350"}
{"lm loss": 5.26595402, "grad_norm": 1.5649724, "learning_rate": 9.872e-05, "elapsed_time_per_iteration": 4.75981832, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 12s", "remaining_time": "7h 30m 10s", "loss_scale": 1.0, "consumed_samples": 194560, "global_step/max_steps": "760/6350"}
{"lm loss": 5.2759347, "grad_norm": 2.06890273, "learning_rate": 9.871e-05, "elapsed_time_per_iteration": 5.17706132, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 17s", "remaining_time": "7h 30m 8s", "loss_scale": 1.0, "consumed_samples": 194816, "global_step/max_steps": "761/6350"}
{"lm loss": 5.3057394, "grad_norm": 1.94518077, "learning_rate": 9.871e-05, "elapsed_time_per_iteration": 4.77972889, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 22s", "remaining_time": "7h 30m 3s", "loss_scale": 1.0, "consumed_samples": 195072, "global_step/max_steps": "762/6350"}
{"lm loss": 5.27478409, "grad_norm": 1.96582603, "learning_rate": 9.87e-05, "elapsed_time_per_iteration": 4.71651936, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 26s", "remaining_time": "7h 29m 57s", "loss_scale": 1.0, "consumed_samples": 195328, "global_step/max_steps": "763/6350"}
{"lm loss": 5.2637639, "grad_norm": 2.09464574, "learning_rate": 9.869e-05, "elapsed_time_per_iteration": 4.67461419, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 31s", "remaining_time": "7h 29m 51s", "loss_scale": 1.0, "consumed_samples": 195584, "global_step/max_steps": "764/6350"}
{"lm loss": 5.27668953, "grad_norm": 2.51135898, "learning_rate": 9.869e-05, "elapsed_time_per_iteration": 4.8010416, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 36s", "remaining_time": "7h 29m 46s", "loss_scale": 1.0, "consumed_samples": 195840, "global_step/max_steps": "765/6350"}
{"lm loss": 5.28449249, "grad_norm": 1.70150948, "learning_rate": 9.868e-05, "elapsed_time_per_iteration": 4.71041942, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 41s", "remaining_time": "7h 29m 40s", "loss_scale": 1.0, "consumed_samples": 196096, "global_step/max_steps": "766/6350"}
{"lm loss": 5.26685572, "grad_norm": 1.93163288, "learning_rate": 9.868e-05, "elapsed_time_per_iteration": 4.66783285, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 45s", "remaining_time": "7h 29m 34s", "loss_scale": 1.0, "consumed_samples": 196352, "global_step/max_steps": "767/6350"}
{"lm loss": 5.25351858, "grad_norm": 1.72829843, "learning_rate": 9.867e-05, "elapsed_time_per_iteration": 4.68864298, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 50s", "remaining_time": "7h 29m 28s", "loss_scale": 1.0, "consumed_samples": 196608, "global_step/max_steps": "768/6350"}
{"lm loss": 5.26726437, "grad_norm": 2.00848293, "learning_rate": 9.867e-05, "elapsed_time_per_iteration": 4.78914952, "memory(GiB)": 28.03, "elapsed_time": "1h 1m 55s", "remaining_time": "7h 29m 23s", "loss_scale": 1.0, "consumed_samples": 196864, "global_step/max_steps": "769/6350"}
{"lm loss": 5.23773813, "grad_norm": 2.20585585, "learning_rate": 9.866e-05, "elapsed_time_per_iteration": 4.84956026, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 0s", "remaining_time": "7h 29m 18s", "loss_scale": 1.0, "consumed_samples": 197120, "global_step/max_steps": "770/6350"}
{"lm loss": 5.25143003, "grad_norm": 2.21040869, "learning_rate": 9.865e-05, "elapsed_time_per_iteration": 4.88721299, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 5s", "remaining_time": "7h 29m 14s", "loss_scale": 1.0, "consumed_samples": 197376, "global_step/max_steps": "771/6350"}
{"lm loss": 5.26530933, "grad_norm": 1.49333799, "learning_rate": 9.865e-05, "elapsed_time_per_iteration": 4.74775696, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 9s", "remaining_time": "7h 29m 9s", "loss_scale": 1.0, "consumed_samples": 197632, "global_step/max_steps": "772/6350"}
{"lm loss": 5.28174877, "grad_norm": 3.01404715, "learning_rate": 9.864e-05, "elapsed_time_per_iteration": 4.78233433, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 14s", "remaining_time": "7h 29m 3s", "loss_scale": 1.0, "consumed_samples": 197888, "global_step/max_steps": "773/6350"}
{"lm loss": 5.27154684, "grad_norm": 1.32476926, "learning_rate": 9.864e-05, "elapsed_time_per_iteration": 4.812603, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 19s", "remaining_time": "7h 28m 58s", "loss_scale": 1.0, "consumed_samples": 198144, "global_step/max_steps": "774/6350"}
{"lm loss": 5.27851582, "grad_norm": 2.23516917, "learning_rate": 9.863e-05, "elapsed_time_per_iteration": 4.83386111, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 24s", "remaining_time": "7h 28m 54s", "loss_scale": 1.0, "consumed_samples": 198400, "global_step/max_steps": "775/6350"}
{"lm loss": 5.27803946, "grad_norm": 1.83581281, "learning_rate": 9.862e-05, "elapsed_time_per_iteration": 4.78593707, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 28s", "remaining_time": "7h 28m 48s", "loss_scale": 1.0, "consumed_samples": 198656, "global_step/max_steps": "776/6350"}
{"lm loss": 5.26655197, "grad_norm": 1.91552651, "learning_rate": 9.862e-05, "elapsed_time_per_iteration": 4.71741676, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 33s", "remaining_time": "7h 28m 43s", "loss_scale": 1.0, "consumed_samples": 198912, "global_step/max_steps": "777/6350"}
{"lm loss": 5.25249434, "grad_norm": 2.41375232, "learning_rate": 9.861e-05, "elapsed_time_per_iteration": 5.6135807, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 39s", "remaining_time": "7h 28m 44s", "loss_scale": 1.0, "consumed_samples": 199168, "global_step/max_steps": "778/6350"}
{"lm loss": 5.25482512, "grad_norm": 1.94794261, "learning_rate": 9.861e-05, "elapsed_time_per_iteration": 4.75274825, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 44s", "remaining_time": "7h 28m 38s", "loss_scale": 1.0, "consumed_samples": 199424, "global_step/max_steps": "779/6350"}
{"lm loss": 5.26748419, "grad_norm": 2.02718854, "learning_rate": 9.86e-05, "elapsed_time_per_iteration": 4.7060914, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 48s", "remaining_time": "7h 28m 32s", "loss_scale": 1.0, "consumed_samples": 199680, "global_step/max_steps": "780/6350"}
{"lm loss": 5.27481079, "grad_norm": 1.80931878, "learning_rate": 9.859e-05, "elapsed_time_per_iteration": 4.76218987, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 53s", "remaining_time": "7h 28m 27s", "loss_scale": 1.0, "consumed_samples": 199936, "global_step/max_steps": "781/6350"}
{"lm loss": 5.24480534, "grad_norm": 2.33935237, "learning_rate": 9.859e-05, "elapsed_time_per_iteration": 4.67034745, "memory(GiB)": 28.03, "elapsed_time": "1h 2m 58s", "remaining_time": "7h 28m 21s", "loss_scale": 1.0, "consumed_samples": 200192, "global_step/max_steps": "782/6350"}
{"lm loss": 5.25267649, "grad_norm": 1.81929028, "learning_rate": 9.858e-05, "elapsed_time_per_iteration": 4.74243879, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 2s", "remaining_time": "7h 28m 16s", "loss_scale": 1.0, "consumed_samples": 200448, "global_step/max_steps": "783/6350"}
{"lm loss": 5.27084589, "grad_norm": 2.01906252, "learning_rate": 9.858e-05, "elapsed_time_per_iteration": 4.67318606, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 7s", "remaining_time": "7h 28m 10s", "loss_scale": 1.0, "consumed_samples": 200704, "global_step/max_steps": "784/6350"}
{"lm loss": 5.24740314, "grad_norm": 1.664608, "learning_rate": 9.857e-05, "elapsed_time_per_iteration": 4.82332468, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 12s", "remaining_time": "7h 28m 5s", "loss_scale": 1.0, "consumed_samples": 200960, "global_step/max_steps": "785/6350"}
{"lm loss": 5.26521826, "grad_norm": 2.50317311, "learning_rate": 9.856e-05, "elapsed_time_per_iteration": 4.76284051, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 17s", "remaining_time": "7h 28m 0s", "loss_scale": 1.0, "consumed_samples": 201216, "global_step/max_steps": "786/6350"}
{"lm loss": 5.24633932, "grad_norm": 1.63562191, "learning_rate": 9.856e-05, "elapsed_time_per_iteration": 4.70312524, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 21s", "remaining_time": "7h 27m 54s", "loss_scale": 1.0, "consumed_samples": 201472, "global_step/max_steps": "787/6350"}
{"lm loss": 5.24895763, "grad_norm": 2.62114453, "learning_rate": 9.855e-05, "elapsed_time_per_iteration": 4.7092638, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 26s", "remaining_time": "7h 27m 48s", "loss_scale": 1.0, "consumed_samples": 201728, "global_step/max_steps": "788/6350"}
{"lm loss": 5.26862669, "grad_norm": 1.52253747, "learning_rate": 9.855e-05, "elapsed_time_per_iteration": 4.7039659, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 31s", "remaining_time": "7h 27m 42s", "loss_scale": 1.0, "consumed_samples": 201984, "global_step/max_steps": "789/6350"}
{"lm loss": 5.26800632, "grad_norm": 2.14128017, "learning_rate": 9.854e-05, "elapsed_time_per_iteration": 4.67181325, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 36s", "remaining_time": "7h 27m 36s", "loss_scale": 1.0, "consumed_samples": 202240, "global_step/max_steps": "790/6350"}
{"lm loss": 5.27286053, "grad_norm": 2.40579367, "learning_rate": 9.853e-05, "elapsed_time_per_iteration": 4.79263973, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 40s", "remaining_time": "7h 27m 31s", "loss_scale": 1.0, "consumed_samples": 202496, "global_step/max_steps": "791/6350"}
{"lm loss": 5.23883533, "grad_norm": 1.41736627, "learning_rate": 9.853e-05, "elapsed_time_per_iteration": 4.75187683, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 45s", "remaining_time": "7h 27m 26s", "loss_scale": 1.0, "consumed_samples": 202752, "global_step/max_steps": "792/6350"}
{"lm loss": 5.25475454, "grad_norm": 2.85387993, "learning_rate": 9.852e-05, "elapsed_time_per_iteration": 4.69498825, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 50s", "remaining_time": "7h 27m 20s", "loss_scale": 1.0, "consumed_samples": 203008, "global_step/max_steps": "793/6350"}
{"lm loss": 5.26175547, "grad_norm": 1.36600447, "learning_rate": 9.851e-05, "elapsed_time_per_iteration": 4.66556549, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 54s", "remaining_time": "7h 27m 14s", "loss_scale": 1.0, "consumed_samples": 203264, "global_step/max_steps": "794/6350"}
{"lm loss": 5.27152634, "grad_norm": 2.16923356, "learning_rate": 9.851e-05, "elapsed_time_per_iteration": 4.77317762, "memory(GiB)": 28.03, "elapsed_time": "1h 3m 59s", "remaining_time": "7h 27m 9s", "loss_scale": 1.0, "consumed_samples": 203520, "global_step/max_steps": "795/6350"}
{"lm loss": 5.25620317, "grad_norm": 1.95470953, "learning_rate": 9.85e-05, "elapsed_time_per_iteration": 4.67777729, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 4s", "remaining_time": "7h 27m 3s", "loss_scale": 1.0, "consumed_samples": 203776, "global_step/max_steps": "796/6350"}
{"lm loss": 5.26863289, "grad_norm": 2.25526786, "learning_rate": 9.85e-05, "elapsed_time_per_iteration": 4.69946432, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 9s", "remaining_time": "7h 26m 57s", "loss_scale": 1.0, "consumed_samples": 204032, "global_step/max_steps": "797/6350"}
{"lm loss": 5.25529909, "grad_norm": 1.8520236, "learning_rate": 9.849e-05, "elapsed_time_per_iteration": 4.70494938, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 13s", "remaining_time": "7h 26m 52s", "loss_scale": 1.0, "consumed_samples": 204288, "global_step/max_steps": "798/6350"}
{"lm loss": 5.24614716, "grad_norm": 1.98089957, "learning_rate": 9.848e-05, "elapsed_time_per_iteration": 4.80549288, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 18s", "remaining_time": "7h 26m 47s", "loss_scale": 1.0, "consumed_samples": 204544, "global_step/max_steps": "799/6350"}
{"lm loss": 5.23321342, "grad_norm": 2.25228429, "learning_rate": 9.848e-05, "elapsed_time_per_iteration": 5.77878928, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 24s", "remaining_time": "7h 26m 48s", "loss_scale": 1.0, "consumed_samples": 204800, "global_step/max_steps": "800/6350"}
{"lm loss": 5.25346565, "grad_norm": 1.52804494, "learning_rate": 9.847e-05, "elapsed_time_per_iteration": 5.86100531, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 30s", "remaining_time": "7h 26m 51s", "loss_scale": 1.0, "consumed_samples": 205056, "global_step/max_steps": "801/6350"}
{"lm loss": 5.26375628, "grad_norm": 2.21736979, "learning_rate": 9.846e-05, "elapsed_time_per_iteration": 4.77327323, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 34s", "remaining_time": "7h 26m 45s", "loss_scale": 1.0, "consumed_samples": 205312, "global_step/max_steps": "802/6350"}
{"lm loss": 5.25492859, "grad_norm": 1.88676441, "learning_rate": 9.846e-05, "elapsed_time_per_iteration": 4.7046752, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 39s", "remaining_time": "7h 26m 40s", "loss_scale": 1.0, "consumed_samples": 205568, "global_step/max_steps": "803/6350"}
{"lm loss": 5.26279068, "grad_norm": 1.8703407, "learning_rate": 9.845e-05, "elapsed_time_per_iteration": 4.71416831, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 44s", "remaining_time": "7h 26m 34s", "loss_scale": 1.0, "consumed_samples": 205824, "global_step/max_steps": "804/6350"}
{"lm loss": 5.23766851, "grad_norm": 2.19748282, "learning_rate": 9.845e-05, "elapsed_time_per_iteration": 4.73609066, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 49s", "remaining_time": "7h 26m 29s", "loss_scale": 1.0, "consumed_samples": 206080, "global_step/max_steps": "805/6350"}
{"lm loss": 5.26908159, "grad_norm": 1.9663341, "learning_rate": 9.844e-05, "elapsed_time_per_iteration": 4.77645612, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 53s", "remaining_time": "7h 26m 23s", "loss_scale": 1.0, "consumed_samples": 206336, "global_step/max_steps": "806/6350"}
{"lm loss": 5.25879955, "grad_norm": 1.6778264, "learning_rate": 9.843e-05, "elapsed_time_per_iteration": 5.63560271, "memory(GiB)": 28.03, "elapsed_time": "1h 4m 59s", "remaining_time": "7h 26m 24s", "loss_scale": 1.0, "consumed_samples": 206592, "global_step/max_steps": "807/6350"}
{"lm loss": 5.26270151, "grad_norm": 2.2977643, "learning_rate": 9.843e-05, "elapsed_time_per_iteration": 4.80007601, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 4s", "remaining_time": "7h 26m 19s", "loss_scale": 1.0, "consumed_samples": 206848, "global_step/max_steps": "808/6350"}
{"lm loss": 5.2378788, "grad_norm": 1.47719812, "learning_rate": 9.842e-05, "elapsed_time_per_iteration": 4.74533463, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 9s", "remaining_time": "7h 26m 14s", "loss_scale": 1.0, "consumed_samples": 207104, "global_step/max_steps": "809/6350"}
{"lm loss": 5.23809719, "grad_norm": 2.18634057, "learning_rate": 9.841e-05, "elapsed_time_per_iteration": 4.77068353, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 13s", "remaining_time": "7h 26m 8s", "loss_scale": 1.0, "consumed_samples": 207360, "global_step/max_steps": "810/6350"}
{"lm loss": 5.25734425, "grad_norm": 1.71779513, "learning_rate": 9.841e-05, "elapsed_time_per_iteration": 4.77653646, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 18s", "remaining_time": "7h 26m 3s", "loss_scale": 1.0, "consumed_samples": 207616, "global_step/max_steps": "811/6350"}
{"lm loss": 5.24107599, "grad_norm": 1.89752471, "learning_rate": 9.84e-05, "elapsed_time_per_iteration": 5.57476687, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 24s", "remaining_time": "7h 26m 3s", "loss_scale": 1.0, "consumed_samples": 207872, "global_step/max_steps": "812/6350"}
{"lm loss": 5.22692299, "grad_norm": 1.7088294, "learning_rate": 9.839e-05, "elapsed_time_per_iteration": 4.74932384, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 28s", "remaining_time": "7h 25m 58s", "loss_scale": 1.0, "consumed_samples": 208128, "global_step/max_steps": "813/6350"}
{"lm loss": 5.26839542, "grad_norm": 2.23695874, "learning_rate": 9.839e-05, "elapsed_time_per_iteration": 4.72006631, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 33s", "remaining_time": "7h 25m 52s", "loss_scale": 1.0, "consumed_samples": 208384, "global_step/max_steps": "814/6350"}
{"lm loss": 5.2486949, "grad_norm": 1.71982431, "learning_rate": 9.838e-05, "elapsed_time_per_iteration": 4.76454115, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 38s", "remaining_time": "7h 25m 47s", "loss_scale": 1.0, "consumed_samples": 208640, "global_step/max_steps": "815/6350"}
{"lm loss": 5.23693275, "grad_norm": 1.71868908, "learning_rate": 9.837e-05, "elapsed_time_per_iteration": 4.71749544, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 43s", "remaining_time": "7h 25m 42s", "loss_scale": 1.0, "consumed_samples": 208896, "global_step/max_steps": "816/6350"}
{"lm loss": 5.24738789, "grad_norm": 2.51814628, "learning_rate": 9.837e-05, "elapsed_time_per_iteration": 4.74974394, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 47s", "remaining_time": "7h 25m 36s", "loss_scale": 1.0, "consumed_samples": 209152, "global_step/max_steps": "817/6350"}
{"lm loss": 5.25987577, "grad_norm": 1.54877377, "learning_rate": 9.836e-05, "elapsed_time_per_iteration": 4.74107671, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 52s", "remaining_time": "7h 25m 31s", "loss_scale": 1.0, "consumed_samples": 209408, "global_step/max_steps": "818/6350"}
{"lm loss": 5.25938606, "grad_norm": 1.76922071, "learning_rate": 9.836e-05, "elapsed_time_per_iteration": 4.83448148, "memory(GiB)": 28.03, "elapsed_time": "1h 5m 57s", "remaining_time": "7h 25m 26s", "loss_scale": 1.0, "consumed_samples": 209664, "global_step/max_steps": "819/6350"}
{"lm loss": 5.25565004, "grad_norm": 2.43679714, "learning_rate": 9.835e-05, "elapsed_time_per_iteration": 4.67477131, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 2s", "remaining_time": "7h 25m 20s", "loss_scale": 1.0, "consumed_samples": 209920, "global_step/max_steps": "820/6350"}
{"lm loss": 5.273633, "grad_norm": 1.86440599, "learning_rate": 9.834e-05, "elapsed_time_per_iteration": 4.64728642, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 6s", "remaining_time": "7h 25m 14s", "loss_scale": 1.0, "consumed_samples": 210176, "global_step/max_steps": "821/6350"}
{"lm loss": 5.24462175, "grad_norm": 1.52378225, "learning_rate": 9.834e-05, "elapsed_time_per_iteration": 5.61484385, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 12s", "remaining_time": "7h 25m 14s", "loss_scale": 1.0, "consumed_samples": 210432, "global_step/max_steps": "822/6350"}
{"lm loss": 5.24801922, "grad_norm": 2.27551532, "learning_rate": 9.833e-05, "elapsed_time_per_iteration": 5.5158391, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 17s", "remaining_time": "7h 25m 14s", "loss_scale": 1.0, "consumed_samples": 210688, "global_step/max_steps": "823/6350"}
{"lm loss": 5.24029064, "grad_norm": 1.86518586, "learning_rate": 9.832e-05, "elapsed_time_per_iteration": 4.79933429, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 22s", "remaining_time": "7h 25m 9s", "loss_scale": 1.0, "consumed_samples": 210944, "global_step/max_steps": "824/6350"}
{"lm loss": 5.2593174, "grad_norm": 1.8757484, "learning_rate": 9.832e-05, "elapsed_time_per_iteration": 4.77052283, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 27s", "remaining_time": "7h 25m 4s", "loss_scale": 1.0, "consumed_samples": 211200, "global_step/max_steps": "825/6350"}
{"lm loss": 5.24477386, "grad_norm": 2.10148501, "learning_rate": 9.831e-05, "elapsed_time_per_iteration": 4.84862351, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 32s", "remaining_time": "7h 24m 59s", "loss_scale": 1.0, "consumed_samples": 211456, "global_step/max_steps": "826/6350"}
{"lm loss": 5.25646019, "grad_norm": 1.92282391, "learning_rate": 9.83e-05, "elapsed_time_per_iteration": 4.80695319, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 37s", "remaining_time": "7h 24m 54s", "loss_scale": 1.0, "consumed_samples": 211712, "global_step/max_steps": "827/6350"}
{"lm loss": 5.22938061, "grad_norm": 1.89621341, "learning_rate": 9.83e-05, "elapsed_time_per_iteration": 4.82635236, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 41s", "remaining_time": "7h 24m 49s", "loss_scale": 1.0, "consumed_samples": 211968, "global_step/max_steps": "828/6350"}
{"lm loss": 5.25832844, "grad_norm": 1.81459165, "learning_rate": 9.829e-05, "elapsed_time_per_iteration": 4.77106309, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 46s", "remaining_time": "7h 24m 44s", "loss_scale": 1.0, "consumed_samples": 212224, "global_step/max_steps": "829/6350"}
{"lm loss": 5.24725056, "grad_norm": 1.91901493, "learning_rate": 9.828e-05, "elapsed_time_per_iteration": 4.79706693, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 51s", "remaining_time": "7h 24m 39s", "loss_scale": 1.0, "consumed_samples": 212480, "global_step/max_steps": "830/6350"}
{"lm loss": 5.24296093, "grad_norm": 2.49881339, "learning_rate": 9.828e-05, "elapsed_time_per_iteration": 4.71462178, "memory(GiB)": 28.03, "elapsed_time": "1h 6m 56s", "remaining_time": "7h 24m 33s", "loss_scale": 1.0, "consumed_samples": 212736, "global_step/max_steps": "831/6350"}
{"lm loss": 5.2457757, "grad_norm": 1.04652536, "learning_rate": 9.827e-05, "elapsed_time_per_iteration": 4.73099637, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 1s", "remaining_time": "7h 24m 28s", "loss_scale": 1.0, "consumed_samples": 212992, "global_step/max_steps": "832/6350"}
{"lm loss": 5.23583078, "grad_norm": 2.79800844, "learning_rate": 9.826e-05, "elapsed_time_per_iteration": 4.79509521, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 5s", "remaining_time": "7h 24m 23s", "loss_scale": 1.0, "consumed_samples": 213248, "global_step/max_steps": "833/6350"}
{"lm loss": 5.23467684, "grad_norm": 1.78640401, "learning_rate": 9.826e-05, "elapsed_time_per_iteration": 4.68013215, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 10s", "remaining_time": "7h 24m 17s", "loss_scale": 1.0, "consumed_samples": 213504, "global_step/max_steps": "834/6350"}
{"lm loss": 5.24075842, "grad_norm": 1.85897017, "learning_rate": 9.825e-05, "elapsed_time_per_iteration": 4.72929454, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 15s", "remaining_time": "7h 24m 11s", "loss_scale": 1.0, "consumed_samples": 213760, "global_step/max_steps": "835/6350"}
{"lm loss": 5.25271416, "grad_norm": 2.0604558, "learning_rate": 9.824e-05, "elapsed_time_per_iteration": 4.76534224, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 19s", "remaining_time": "7h 24m 6s", "loss_scale": 1.0, "consumed_samples": 214016, "global_step/max_steps": "836/6350"}
{"lm loss": 5.24331331, "grad_norm": 1.36674869, "learning_rate": 9.824e-05, "elapsed_time_per_iteration": 4.76422834, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 24s", "remaining_time": "7h 24m 1s", "loss_scale": 1.0, "consumed_samples": 214272, "global_step/max_steps": "837/6350"}
{"lm loss": 5.25695181, "grad_norm": 1.61546111, "learning_rate": 9.823e-05, "elapsed_time_per_iteration": 4.77857518, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 29s", "remaining_time": "7h 23m 56s", "loss_scale": 1.0, "consumed_samples": 214528, "global_step/max_steps": "838/6350"}
{"lm loss": 5.25165129, "grad_norm": 2.05767632, "learning_rate": 9.822e-05, "elapsed_time_per_iteration": 4.7236588, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 34s", "remaining_time": "7h 23m 50s", "loss_scale": 1.0, "consumed_samples": 214784, "global_step/max_steps": "839/6350"}
{"lm loss": 5.24861908, "grad_norm": 1.65091765, "learning_rate": 9.822e-05, "elapsed_time_per_iteration": 4.72509289, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 38s", "remaining_time": "7h 23m 44s", "loss_scale": 1.0, "consumed_samples": 215040, "global_step/max_steps": "840/6350"}
{"lm loss": 5.25307417, "grad_norm": 2.01254129, "learning_rate": 9.821e-05, "elapsed_time_per_iteration": 5.60162449, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 44s", "remaining_time": "7h 23m 45s", "loss_scale": 1.0, "consumed_samples": 215296, "global_step/max_steps": "841/6350"}
{"lm loss": 5.23785973, "grad_norm": 2.75673962, "learning_rate": 9.82e-05, "elapsed_time_per_iteration": 4.80423594, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 49s", "remaining_time": "7h 23m 40s", "loss_scale": 1.0, "consumed_samples": 215552, "global_step/max_steps": "842/6350"}
{"lm loss": 5.23559284, "grad_norm": 1.57496393, "learning_rate": 9.82e-05, "elapsed_time_per_iteration": 4.77450943, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 54s", "remaining_time": "7h 23m 34s", "loss_scale": 1.0, "consumed_samples": 215808, "global_step/max_steps": "843/6350"}
{"lm loss": 5.24422455, "grad_norm": 1.73430562, "learning_rate": 9.819e-05, "elapsed_time_per_iteration": 4.77431488, "memory(GiB)": 28.03, "elapsed_time": "1h 7m 58s", "remaining_time": "7h 23m 29s", "loss_scale": 1.0, "consumed_samples": 216064, "global_step/max_steps": "844/6350"}
{"lm loss": 5.25578737, "grad_norm": 1.4477948, "learning_rate": 9.818e-05, "elapsed_time_per_iteration": 4.80473948, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 3s", "remaining_time": "7h 23m 24s", "loss_scale": 1.0, "consumed_samples": 216320, "global_step/max_steps": "845/6350"}
{"lm loss": 5.24400806, "grad_norm": 2.29337358, "learning_rate": 9.817e-05, "elapsed_time_per_iteration": 4.73623109, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 8s", "remaining_time": "7h 23m 19s", "loss_scale": 1.0, "consumed_samples": 216576, "global_step/max_steps": "846/6350"}
{"lm loss": 5.22351217, "grad_norm": 1.6632148, "learning_rate": 9.817e-05, "elapsed_time_per_iteration": 4.68921733, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 13s", "remaining_time": "7h 23m 13s", "loss_scale": 1.0, "consumed_samples": 216832, "global_step/max_steps": "847/6350"}
{"lm loss": 5.243577, "grad_norm": 2.36325622, "learning_rate": 9.816e-05, "elapsed_time_per_iteration": 4.79171586, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 17s", "remaining_time": "7h 23m 8s", "loss_scale": 1.0, "consumed_samples": 217088, "global_step/max_steps": "848/6350"}
{"lm loss": 5.24635267, "grad_norm": 1.67123199, "learning_rate": 9.815e-05, "elapsed_time_per_iteration": 4.73865414, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 22s", "remaining_time": "7h 23m 2s", "loss_scale": 1.0, "consumed_samples": 217344, "global_step/max_steps": "849/6350"}
{"lm loss": 5.24319553, "grad_norm": 2.005831, "learning_rate": 9.815e-05, "elapsed_time_per_iteration": 4.72837043, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 27s", "remaining_time": "7h 22m 57s", "loss_scale": 1.0, "consumed_samples": 217600, "global_step/max_steps": "850/6350"}
{"lm loss": 5.25623178, "grad_norm": 2.06744909, "learning_rate": 9.814e-05, "elapsed_time_per_iteration": 5.56334352, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 32s", "remaining_time": "7h 22m 57s", "loss_scale": 1.0, "consumed_samples": 217856, "global_step/max_steps": "851/6350"}
{"lm loss": 5.24094868, "grad_norm": 1.83120525, "learning_rate": 9.813e-05, "elapsed_time_per_iteration": 4.68075776, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 37s", "remaining_time": "7h 22m 51s", "loss_scale": 1.0, "consumed_samples": 218112, "global_step/max_steps": "852/6350"}
{"lm loss": 5.23690176, "grad_norm": 2.25226235, "learning_rate": 9.813e-05, "elapsed_time_per_iteration": 4.69798112, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 42s", "remaining_time": "7h 22m 45s", "loss_scale": 1.0, "consumed_samples": 218368, "global_step/max_steps": "853/6350"}
{"lm loss": 5.23533487, "grad_norm": 1.48896885, "learning_rate": 9.812e-05, "elapsed_time_per_iteration": 4.84692645, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 47s", "remaining_time": "7h 22m 41s", "loss_scale": 1.0, "consumed_samples": 218624, "global_step/max_steps": "854/6350"}
{"lm loss": 5.23430777, "grad_norm": 1.83088541, "learning_rate": 9.811e-05, "elapsed_time_per_iteration": 4.69472361, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 51s", "remaining_time": "7h 22m 35s", "loss_scale": 1.0, "consumed_samples": 218880, "global_step/max_steps": "855/6350"}
{"lm loss": 5.22770405, "grad_norm": 2.03613043, "learning_rate": 9.811e-05, "elapsed_time_per_iteration": 4.78567314, "memory(GiB)": 28.03, "elapsed_time": "1h 8m 56s", "remaining_time": "7h 22m 30s", "loss_scale": 1.0, "consumed_samples": 219136, "global_step/max_steps": "856/6350"}
{"lm loss": 5.22723961, "grad_norm": 1.73425305, "learning_rate": 9.81e-05, "elapsed_time_per_iteration": 4.82478809, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 1s", "remaining_time": "7h 22m 25s", "loss_scale": 1.0, "consumed_samples": 219392, "global_step/max_steps": "857/6350"}
{"lm loss": 5.22501612, "grad_norm": 1.82099211, "learning_rate": 9.809e-05, "elapsed_time_per_iteration": 4.73291612, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 6s", "remaining_time": "7h 22m 19s", "loss_scale": 1.0, "consumed_samples": 219648, "global_step/max_steps": "858/6350"}
{"lm loss": 5.2237463, "grad_norm": 2.63593006, "learning_rate": 9.808e-05, "elapsed_time_per_iteration": 4.69121838, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 10s", "remaining_time": "7h 22m 14s", "loss_scale": 1.0, "consumed_samples": 219904, "global_step/max_steps": "859/6350"}
{"lm loss": 5.24851656, "grad_norm": 1.38362181, "learning_rate": 9.808e-05, "elapsed_time_per_iteration": 4.77514696, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 15s", "remaining_time": "7h 22m 8s", "loss_scale": 1.0, "consumed_samples": 220160, "global_step/max_steps": "860/6350"}
{"lm loss": 5.24945927, "grad_norm": 2.07985258, "learning_rate": 9.807e-05, "elapsed_time_per_iteration": 4.74168921, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 20s", "remaining_time": "7h 22m 3s", "loss_scale": 1.0, "consumed_samples": 220416, "global_step/max_steps": "861/6350"}
{"lm loss": 5.22519922, "grad_norm": 1.65414476, "learning_rate": 9.806e-05, "elapsed_time_per_iteration": 4.70445323, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 25s", "remaining_time": "7h 21m 57s", "loss_scale": 1.0, "consumed_samples": 220672, "global_step/max_steps": "862/6350"}
{"lm loss": 5.23901129, "grad_norm": 2.3195827, "learning_rate": 9.806e-05, "elapsed_time_per_iteration": 5.522753, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 30s", "remaining_time": "7h 21m 57s", "loss_scale": 1.0, "consumed_samples": 220928, "global_step/max_steps": "863/6350"}
{"lm loss": 5.22361565, "grad_norm": 1.46198571, "learning_rate": 9.805e-05, "elapsed_time_per_iteration": 4.76791191, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 35s", "remaining_time": "7h 21m 52s", "loss_scale": 1.0, "consumed_samples": 221184, "global_step/max_steps": "864/6350"}
{"lm loss": 5.22441959, "grad_norm": 2.38851833, "learning_rate": 9.804e-05, "elapsed_time_per_iteration": 4.71621156, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 40s", "remaining_time": "7h 21m 46s", "loss_scale": 1.0, "consumed_samples": 221440, "global_step/max_steps": "865/6350"}
{"lm loss": 5.24120665, "grad_norm": 1.44122541, "learning_rate": 9.803e-05, "elapsed_time_per_iteration": 4.71723008, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 44s", "remaining_time": "7h 21m 41s", "loss_scale": 1.0, "consumed_samples": 221696, "global_step/max_steps": "866/6350"}
{"lm loss": 5.21553946, "grad_norm": 2.20103836, "learning_rate": 9.803e-05, "elapsed_time_per_iteration": 4.76051044, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 49s", "remaining_time": "7h 21m 35s", "loss_scale": 1.0, "consumed_samples": 221952, "global_step/max_steps": "867/6350"}
{"lm loss": 5.23500156, "grad_norm": 1.67597544, "learning_rate": 9.802e-05, "elapsed_time_per_iteration": 5.37351942, "memory(GiB)": 28.03, "elapsed_time": "1h 9m 55s", "remaining_time": "7h 21m 34s", "loss_scale": 1.0, "consumed_samples": 222208, "global_step/max_steps": "868/6350"}
{"lm loss": 5.22979403, "grad_norm": 1.80049384, "learning_rate": 9.801e-05, "elapsed_time_per_iteration": 5.30728292, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 0s", "remaining_time": "7h 21m 32s", "loss_scale": 1.0, "consumed_samples": 222464, "global_step/max_steps": "869/6350"}
{"lm loss": 5.22680712, "grad_norm": 1.63214278, "learning_rate": 9.801e-05, "elapsed_time_per_iteration": 4.76614308, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 5s", "remaining_time": "7h 21m 27s", "loss_scale": 1.0, "consumed_samples": 222720, "global_step/max_steps": "870/6350"}
{"lm loss": 5.23303413, "grad_norm": 1.60249996, "learning_rate": 9.8e-05, "elapsed_time_per_iteration": 4.80532479, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 9s", "remaining_time": "7h 21m 22s", "loss_scale": 1.0, "consumed_samples": 222976, "global_step/max_steps": "871/6350"}
{"lm loss": 5.23246288, "grad_norm": 2.71562314, "learning_rate": 9.799e-05, "elapsed_time_per_iteration": 4.73709631, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 14s", "remaining_time": "7h 21m 16s", "loss_scale": 1.0, "consumed_samples": 223232, "global_step/max_steps": "872/6350"}
{"lm loss": 5.2504735, "grad_norm": 1.64052308, "learning_rate": 9.798e-05, "elapsed_time_per_iteration": 4.74788976, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 19s", "remaining_time": "7h 21m 11s", "loss_scale": 1.0, "consumed_samples": 223488, "global_step/max_steps": "873/6350"}
{"lm loss": 5.22221994, "grad_norm": 2.39046216, "learning_rate": 9.798e-05, "elapsed_time_per_iteration": 4.75264883, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 24s", "remaining_time": "7h 21m 6s", "loss_scale": 1.0, "consumed_samples": 223744, "global_step/max_steps": "874/6350"}
{"lm loss": 5.21312809, "grad_norm": 1.76391613, "learning_rate": 9.797e-05, "elapsed_time_per_iteration": 4.68156838, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 28s", "remaining_time": "7h 21m 0s", "loss_scale": 1.0, "consumed_samples": 224000, "global_step/max_steps": "875/6350"}
{"lm loss": 5.21901274, "grad_norm": 2.0376327, "learning_rate": 9.796e-05, "elapsed_time_per_iteration": 4.75048375, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 33s", "remaining_time": "7h 20m 54s", "loss_scale": 1.0, "consumed_samples": 224256, "global_step/max_steps": "876/6350"}
{"lm loss": 5.22575808, "grad_norm": 1.53144622, "learning_rate": 9.796e-05, "elapsed_time_per_iteration": 5.42226553, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 38s", "remaining_time": "7h 20m 53s", "loss_scale": 1.0, "consumed_samples": 224512, "global_step/max_steps": "877/6350"}
{"lm loss": 5.22094488, "grad_norm": 2.18298101, "learning_rate": 9.795e-05, "elapsed_time_per_iteration": 5.2404561, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 44s", "remaining_time": "7h 20m 51s", "loss_scale": 1.0, "consumed_samples": 224768, "global_step/max_steps": "878/6350"}
{"lm loss": 5.20085478, "grad_norm": 1.42657673, "learning_rate": 9.794e-05, "elapsed_time_per_iteration": 4.80029106, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 49s", "remaining_time": "7h 20m 46s", "loss_scale": 1.0, "consumed_samples": 225024, "global_step/max_steps": "879/6350"}
{"lm loss": 5.23783445, "grad_norm": 2.59387636, "learning_rate": 9.793e-05, "elapsed_time_per_iteration": 4.79320455, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 53s", "remaining_time": "7h 20m 41s", "loss_scale": 1.0, "consumed_samples": 225280, "global_step/max_steps": "880/6350"}
{"lm loss": 5.21720648, "grad_norm": 2.20227909, "learning_rate": 9.793e-05, "elapsed_time_per_iteration": 4.78300595, "memory(GiB)": 28.03, "elapsed_time": "1h 10m 58s", "remaining_time": "7h 20m 36s", "loss_scale": 1.0, "consumed_samples": 225536, "global_step/max_steps": "881/6350"}
{"lm loss": 5.23477173, "grad_norm": 1.37718391, "learning_rate": 9.792e-05, "elapsed_time_per_iteration": 4.74862027, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 3s", "remaining_time": "7h 20m 30s", "loss_scale": 1.0, "consumed_samples": 225792, "global_step/max_steps": "882/6350"}
{"lm loss": 5.22617912, "grad_norm": 1.85473752, "learning_rate": 9.791e-05, "elapsed_time_per_iteration": 4.78605247, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 8s", "remaining_time": "7h 20m 25s", "loss_scale": 1.0, "consumed_samples": 226048, "global_step/max_steps": "883/6350"}
{"lm loss": 5.23838234, "grad_norm": 1.21417081, "learning_rate": 9.79e-05, "elapsed_time_per_iteration": 4.75252819, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 12s", "remaining_time": "7h 20m 20s", "loss_scale": 1.0, "consumed_samples": 226304, "global_step/max_steps": "884/6350"}
{"lm loss": 5.23719645, "grad_norm": 1.87051666, "learning_rate": 9.79e-05, "elapsed_time_per_iteration": 4.69325399, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 17s", "remaining_time": "7h 20m 14s", "loss_scale": 1.0, "consumed_samples": 226560, "global_step/max_steps": "885/6350"}
{"lm loss": 5.20799732, "grad_norm": 1.67367601, "learning_rate": 9.789e-05, "elapsed_time_per_iteration": 4.80722833, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 22s", "remaining_time": "7h 20m 9s", "loss_scale": 1.0, "consumed_samples": 226816, "global_step/max_steps": "886/6350"}
{"lm loss": 5.21023178, "grad_norm": 2.52915382, "learning_rate": 9.788e-05, "elapsed_time_per_iteration": 4.71817756, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 27s", "remaining_time": "7h 20m 4s", "loss_scale": 1.0, "consumed_samples": 227072, "global_step/max_steps": "887/6350"}
{"lm loss": 5.23350811, "grad_norm": 1.52639079, "learning_rate": 9.788e-05, "elapsed_time_per_iteration": 4.85516882, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 31s", "remaining_time": "7h 19m 59s", "loss_scale": 1.0, "consumed_samples": 227328, "global_step/max_steps": "888/6350"}
{"lm loss": 5.23827887, "grad_norm": 1.88298428, "learning_rate": 9.787e-05, "elapsed_time_per_iteration": 4.70768309, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 36s", "remaining_time": "7h 19m 53s", "loss_scale": 1.0, "consumed_samples": 227584, "global_step/max_steps": "889/6350"}
{"lm loss": 5.22620153, "grad_norm": 1.92602241, "learning_rate": 9.786e-05, "elapsed_time_per_iteration": 4.66445398, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 41s", "remaining_time": "7h 19m 47s", "loss_scale": 1.0, "consumed_samples": 227840, "global_step/max_steps": "890/6350"}
{"lm loss": 5.23235226, "grad_norm": 1.79907334, "learning_rate": 9.785e-05, "elapsed_time_per_iteration": 5.2989881, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 46s", "remaining_time": "7h 19m 45s", "loss_scale": 1.0, "consumed_samples": 228096, "global_step/max_steps": "891/6350"}
{"lm loss": 5.21505785, "grad_norm": 1.82416773, "learning_rate": 9.785e-05, "elapsed_time_per_iteration": 4.75252342, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 51s", "remaining_time": "7h 19m 40s", "loss_scale": 1.0, "consumed_samples": 228352, "global_step/max_steps": "892/6350"}
{"lm loss": 5.22565794, "grad_norm": 1.84254825, "learning_rate": 9.784e-05, "elapsed_time_per_iteration": 4.79721093, "memory(GiB)": 28.03, "elapsed_time": "1h 11m 56s", "remaining_time": "7h 19m 35s", "loss_scale": 1.0, "consumed_samples": 228608, "global_step/max_steps": "893/6350"}
{"lm loss": 5.22268343, "grad_norm": 1.95093703, "learning_rate": 9.783e-05, "elapsed_time_per_iteration": 4.70936608, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 0s", "remaining_time": "7h 19m 30s", "loss_scale": 1.0, "consumed_samples": 228864, "global_step/max_steps": "894/6350"}
{"lm loss": 5.22944403, "grad_norm": 1.7244128, "learning_rate": 9.782e-05, "elapsed_time_per_iteration": 4.77330184, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 5s", "remaining_time": "7h 19m 24s", "loss_scale": 1.0, "consumed_samples": 229120, "global_step/max_steps": "895/6350"}
{"lm loss": 5.20880938, "grad_norm": 2.30648518, "learning_rate": 9.782e-05, "elapsed_time_per_iteration": 4.87293696, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 10s", "remaining_time": "7h 19m 20s", "loss_scale": 1.0, "consumed_samples": 229376, "global_step/max_steps": "896/6350"}
{"lm loss": 5.22129631, "grad_norm": 1.64437211, "learning_rate": 9.781e-05, "elapsed_time_per_iteration": 5.57072401, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 16s", "remaining_time": "7h 19m 19s", "loss_scale": 1.0, "consumed_samples": 229632, "global_step/max_steps": "897/6350"}
{"lm loss": 5.21827745, "grad_norm": 1.69894433, "learning_rate": 9.78e-05, "elapsed_time_per_iteration": 4.83539915, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 20s", "remaining_time": "7h 19m 15s", "loss_scale": 1.0, "consumed_samples": 229888, "global_step/max_steps": "898/6350"}
{"lm loss": 5.22434282, "grad_norm": 2.00404835, "learning_rate": 9.779e-05, "elapsed_time_per_iteration": 4.72131348, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 25s", "remaining_time": "7h 19m 9s", "loss_scale": 1.0, "consumed_samples": 230144, "global_step/max_steps": "899/6350"}
{"lm loss": 5.21504831, "grad_norm": 1.57521486, "learning_rate": 9.779e-05, "elapsed_time_per_iteration": 4.75697112, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 30s", "remaining_time": "7h 19m 4s", "loss_scale": 1.0, "consumed_samples": 230400, "global_step/max_steps": "900/6350"}
{"lm loss": 5.22560406, "grad_norm": 2.37656403, "learning_rate": 9.778e-05, "elapsed_time_per_iteration": 4.71010542, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 35s", "remaining_time": "7h 18m 58s", "loss_scale": 1.0, "consumed_samples": 230656, "global_step/max_steps": "901/6350"}
{"lm loss": 5.21893835, "grad_norm": 1.18983984, "learning_rate": 9.777e-05, "elapsed_time_per_iteration": 4.71020341, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 39s", "remaining_time": "7h 18m 53s", "loss_scale": 1.0, "consumed_samples": 230912, "global_step/max_steps": "902/6350"}
{"lm loss": 5.1970787, "grad_norm": 1.97748601, "learning_rate": 9.776e-05, "elapsed_time_per_iteration": 4.67125702, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 44s", "remaining_time": "7h 18m 47s", "loss_scale": 1.0, "consumed_samples": 231168, "global_step/max_steps": "903/6350"}
{"lm loss": 5.20444298, "grad_norm": 1.49319172, "learning_rate": 9.776e-05, "elapsed_time_per_iteration": 4.76546621, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 49s", "remaining_time": "7h 18m 42s", "loss_scale": 1.0, "consumed_samples": 231424, "global_step/max_steps": "904/6350"}
{"lm loss": 5.22113037, "grad_norm": 1.72856939, "learning_rate": 9.775e-05, "elapsed_time_per_iteration": 4.65888143, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 53s", "remaining_time": "7h 18m 36s", "loss_scale": 1.0, "consumed_samples": 231680, "global_step/max_steps": "905/6350"}
{"lm loss": 5.20679998, "grad_norm": 1.80531442, "learning_rate": 9.774e-05, "elapsed_time_per_iteration": 4.68057775, "memory(GiB)": 28.03, "elapsed_time": "1h 12m 58s", "remaining_time": "7h 18m 30s", "loss_scale": 1.0, "consumed_samples": 231936, "global_step/max_steps": "906/6350"}
{"lm loss": 5.22017241, "grad_norm": 2.42475486, "learning_rate": 9.773e-05, "elapsed_time_per_iteration": 4.8248539, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 3s", "remaining_time": "7h 18m 25s", "loss_scale": 1.0, "consumed_samples": 232192, "global_step/max_steps": "907/6350"}
{"lm loss": 5.21919394, "grad_norm": 1.42119956, "learning_rate": 9.772e-05, "elapsed_time_per_iteration": 4.73467231, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 8s", "remaining_time": "7h 18m 20s", "loss_scale": 1.0, "consumed_samples": 232448, "global_step/max_steps": "908/6350"}
{"lm loss": 5.20310402, "grad_norm": 1.83192956, "learning_rate": 9.772e-05, "elapsed_time_per_iteration": 4.80794311, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 12s", "remaining_time": "7h 18m 15s", "loss_scale": 1.0, "consumed_samples": 232704, "global_step/max_steps": "909/6350"}
{"lm loss": 5.2018342, "grad_norm": 1.68449533, "learning_rate": 9.771e-05, "elapsed_time_per_iteration": 4.72117281, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 17s", "remaining_time": "7h 18m 9s", "loss_scale": 1.0, "consumed_samples": 232960, "global_step/max_steps": "910/6350"}
{"lm loss": 5.20989609, "grad_norm": 1.5275507, "learning_rate": 9.77e-05, "elapsed_time_per_iteration": 4.72202492, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 22s", "remaining_time": "7h 18m 4s", "loss_scale": 1.0, "consumed_samples": 233216, "global_step/max_steps": "911/6350"}
{"lm loss": 5.19725418, "grad_norm": 1.77163768, "learning_rate": 9.769e-05, "elapsed_time_per_iteration": 5.66577315, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 28s", "remaining_time": "7h 18m 4s", "loss_scale": 1.0, "consumed_samples": 233472, "global_step/max_steps": "912/6350"}
{"lm loss": 5.22729158, "grad_norm": 1.72537208, "learning_rate": 9.769e-05, "elapsed_time_per_iteration": 4.72022653, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 32s", "remaining_time": "7h 17m 58s", "loss_scale": 1.0, "consumed_samples": 233728, "global_step/max_steps": "913/6350"}
{"lm loss": 5.21184826, "grad_norm": 2.29519129, "learning_rate": 9.768e-05, "elapsed_time_per_iteration": 4.79584455, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 37s", "remaining_time": "7h 17m 53s", "loss_scale": 1.0, "consumed_samples": 233984, "global_step/max_steps": "914/6350"}
{"lm loss": 5.21358728, "grad_norm": 2.19541669, "learning_rate": 9.767e-05, "elapsed_time_per_iteration": 4.72978759, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 42s", "remaining_time": "7h 17m 48s", "loss_scale": 1.0, "consumed_samples": 234240, "global_step/max_steps": "915/6350"}
{"lm loss": 5.24066353, "grad_norm": 1.16317511, "learning_rate": 9.766e-05, "elapsed_time_per_iteration": 4.73527169, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 47s", "remaining_time": "7h 17m 42s", "loss_scale": 1.0, "consumed_samples": 234496, "global_step/max_steps": "916/6350"}
{"lm loss": 5.20623779, "grad_norm": 2.812989, "learning_rate": 9.766e-05, "elapsed_time_per_iteration": 4.72737312, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 51s", "remaining_time": "7h 17m 37s", "loss_scale": 1.0, "consumed_samples": 234752, "global_step/max_steps": "917/6350"}
{"lm loss": 5.21199131, "grad_norm": 1.66240656, "learning_rate": 9.765e-05, "elapsed_time_per_iteration": 4.74478674, "memory(GiB)": 28.03, "elapsed_time": "1h 13m 56s", "remaining_time": "7h 17m 32s", "loss_scale": 1.0, "consumed_samples": 235008, "global_step/max_steps": "918/6350"}
{"lm loss": 5.2080102, "grad_norm": 2.42449188, "learning_rate": 9.764e-05, "elapsed_time_per_iteration": 4.7374239, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 1s", "remaining_time": "7h 17m 26s", "loss_scale": 1.0, "consumed_samples": 235264, "global_step/max_steps": "919/6350"}
{"lm loss": 5.22595215, "grad_norm": 1.53591609, "learning_rate": 9.763e-05, "elapsed_time_per_iteration": 5.42200661, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 6s", "remaining_time": "7h 17m 25s", "loss_scale": 1.0, "consumed_samples": 235520, "global_step/max_steps": "920/6350"}
{"lm loss": 5.224226, "grad_norm": 1.85976815, "learning_rate": 9.762e-05, "elapsed_time_per_iteration": 4.83718896, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 11s", "remaining_time": "7h 17m 20s", "loss_scale": 1.0, "consumed_samples": 235776, "global_step/max_steps": "921/6350"}
{"lm loss": 5.22190237, "grad_norm": 1.46943426, "learning_rate": 9.762e-05, "elapsed_time_per_iteration": 5.62230229, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 17s", "remaining_time": "7h 17m 20s", "loss_scale": 1.0, "consumed_samples": 236032, "global_step/max_steps": "922/6350"}
{"lm loss": 5.21051073, "grad_norm": 2.03052568, "learning_rate": 9.761e-05, "elapsed_time_per_iteration": 4.72053242, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 21s", "remaining_time": "7h 17m 14s", "loss_scale": 1.0, "consumed_samples": 236288, "global_step/max_steps": "923/6350"}
{"lm loss": 5.21715593, "grad_norm": 2.107095, "learning_rate": 9.76e-05, "elapsed_time_per_iteration": 4.6811707, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 26s", "remaining_time": "7h 17m 9s", "loss_scale": 1.0, "consumed_samples": 236544, "global_step/max_steps": "924/6350"}
{"lm loss": 5.19829941, "grad_norm": 1.65512919, "learning_rate": 9.759e-05, "elapsed_time_per_iteration": 4.74718332, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 31s", "remaining_time": "7h 17m 3s", "loss_scale": 1.0, "consumed_samples": 236800, "global_step/max_steps": "925/6350"}
{"lm loss": 5.19728756, "grad_norm": 1.79956746, "learning_rate": 9.759e-05, "elapsed_time_per_iteration": 4.74031782, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 36s", "remaining_time": "7h 16m 58s", "loss_scale": 1.0, "consumed_samples": 237056, "global_step/max_steps": "926/6350"}
{"lm loss": 5.20414543, "grad_norm": 1.99122488, "learning_rate": 9.758e-05, "elapsed_time_per_iteration": 4.72550106, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 40s", "remaining_time": "7h 16m 52s", "loss_scale": 1.0, "consumed_samples": 237312, "global_step/max_steps": "927/6350"}
{"lm loss": 5.22652102, "grad_norm": 1.87577808, "learning_rate": 9.757e-05, "elapsed_time_per_iteration": 4.79081082, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 45s", "remaining_time": "7h 16m 47s", "loss_scale": 1.0, "consumed_samples": 237568, "global_step/max_steps": "928/6350"}
{"lm loss": 5.2087965, "grad_norm": 1.83446157, "learning_rate": 9.756e-05, "elapsed_time_per_iteration": 4.79908586, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 50s", "remaining_time": "7h 16m 42s", "loss_scale": 1.0, "consumed_samples": 237824, "global_step/max_steps": "929/6350"}
{"lm loss": 5.20448923, "grad_norm": 1.26502836, "learning_rate": 9.755e-05, "elapsed_time_per_iteration": 4.80915737, "memory(GiB)": 28.03, "elapsed_time": "1h 14m 55s", "remaining_time": "7h 16m 37s", "loss_scale": 1.0, "consumed_samples": 238080, "global_step/max_steps": "930/6350"}
{"lm loss": 5.21097088, "grad_norm": 1.86064744, "learning_rate": 9.755e-05, "elapsed_time_per_iteration": 5.60410738, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 0s", "remaining_time": "7h 16m 37s", "loss_scale": 1.0, "consumed_samples": 238336, "global_step/max_steps": "931/6350"}
{"lm loss": 5.21364212, "grad_norm": 1.95131052, "learning_rate": 9.754e-05, "elapsed_time_per_iteration": 5.41452646, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 6s", "remaining_time": "7h 16m 35s", "loss_scale": 1.0, "consumed_samples": 238592, "global_step/max_steps": "932/6350"}
{"lm loss": 5.21221018, "grad_norm": 1.68278337, "learning_rate": 9.753e-05, "elapsed_time_per_iteration": 4.80359817, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 11s", "remaining_time": "7h 16m 30s", "loss_scale": 1.0, "consumed_samples": 238848, "global_step/max_steps": "933/6350"}
{"lm loss": 5.20891762, "grad_norm": 1.8660351, "learning_rate": 9.752e-05, "elapsed_time_per_iteration": 4.77994299, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 15s", "remaining_time": "7h 16m 25s", "loss_scale": 1.0, "consumed_samples": 239104, "global_step/max_steps": "934/6350"}
{"lm loss": 5.19473886, "grad_norm": 1.45473659, "learning_rate": 9.751e-05, "elapsed_time_per_iteration": 4.85099578, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 20s", "remaining_time": "7h 16m 21s", "loss_scale": 1.0, "consumed_samples": 239360, "global_step/max_steps": "935/6350"}
{"lm loss": 5.20417738, "grad_norm": 1.57593024, "learning_rate": 9.751e-05, "elapsed_time_per_iteration": 4.78930855, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 25s", "remaining_time": "7h 16m 15s", "loss_scale": 1.0, "consumed_samples": 239616, "global_step/max_steps": "936/6350"}
{"lm loss": 5.20951796, "grad_norm": 1.73557103, "learning_rate": 9.75e-05, "elapsed_time_per_iteration": 4.69408655, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 30s", "remaining_time": "7h 16m 10s", "loss_scale": 1.0, "consumed_samples": 239872, "global_step/max_steps": "937/6350"}
{"lm loss": 5.19596481, "grad_norm": 1.66634071, "learning_rate": 9.749e-05, "elapsed_time_per_iteration": 5.68688703, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 35s", "remaining_time": "7h 16m 10s", "loss_scale": 1.0, "consumed_samples": 240128, "global_step/max_steps": "938/6350"}
{"lm loss": 5.19665766, "grad_norm": 1.62732923, "learning_rate": 9.748e-05, "elapsed_time_per_iteration": 4.77979922, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 40s", "remaining_time": "7h 16m 5s", "loss_scale": 1.0, "consumed_samples": 240384, "global_step/max_steps": "939/6350"}
{"lm loss": 5.21004152, "grad_norm": 1.71867049, "learning_rate": 9.747e-05, "elapsed_time_per_iteration": 4.7035687, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 45s", "remaining_time": "7h 15m 59s", "loss_scale": 1.0, "consumed_samples": 240640, "global_step/max_steps": "940/6350"}
{"lm loss": 5.20381832, "grad_norm": 3.45825267, "learning_rate": 9.747e-05, "elapsed_time_per_iteration": 4.72054648, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 50s", "remaining_time": "7h 15m 54s", "loss_scale": 1.0, "consumed_samples": 240896, "global_step/max_steps": "941/6350"}
{"lm loss": 5.21568203, "grad_norm": 1.86597693, "learning_rate": 9.746e-05, "elapsed_time_per_iteration": 4.69688034, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 54s", "remaining_time": "7h 15m 48s", "loss_scale": 1.0, "consumed_samples": 241152, "global_step/max_steps": "942/6350"}
{"lm loss": 5.1866498, "grad_norm": 3.54230452, "learning_rate": 9.745e-05, "elapsed_time_per_iteration": 4.70939922, "memory(GiB)": 28.03, "elapsed_time": "1h 15m 59s", "remaining_time": "7h 15m 42s", "loss_scale": 1.0, "consumed_samples": 241408, "global_step/max_steps": "943/6350"}
{"lm loss": 5.20711565, "grad_norm": 1.8729279, "learning_rate": 9.744e-05, "elapsed_time_per_iteration": 4.7920599, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 4s", "remaining_time": "7h 15m 37s", "loss_scale": 1.0, "consumed_samples": 241664, "global_step/max_steps": "944/6350"}
{"lm loss": 5.23339558, "grad_norm": 2.83918357, "learning_rate": 9.743e-05, "elapsed_time_per_iteration": 4.73339748, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 8s", "remaining_time": "7h 15m 32s", "loss_scale": 1.0, "consumed_samples": 241920, "global_step/max_steps": "945/6350"}
{"lm loss": 5.20457983, "grad_norm": 1.95756698, "learning_rate": 9.743e-05, "elapsed_time_per_iteration": 4.78244519, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 13s", "remaining_time": "7h 15m 27s", "loss_scale": 1.0, "consumed_samples": 242176, "global_step/max_steps": "946/6350"}
{"lm loss": 5.22369671, "grad_norm": 2.06863523, "learning_rate": 9.742e-05, "elapsed_time_per_iteration": 4.76632667, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 18s", "remaining_time": "7h 15m 22s", "loss_scale": 1.0, "consumed_samples": 242432, "global_step/max_steps": "947/6350"}
{"lm loss": 5.21258593, "grad_norm": 1.79236233, "learning_rate": 9.741e-05, "elapsed_time_per_iteration": 4.80957913, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 23s", "remaining_time": "7h 15m 17s", "loss_scale": 1.0, "consumed_samples": 242688, "global_step/max_steps": "948/6350"}
{"lm loss": 5.20582724, "grad_norm": 1.43642664, "learning_rate": 9.74e-05, "elapsed_time_per_iteration": 4.71646905, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 28s", "remaining_time": "7h 15m 11s", "loss_scale": 1.0, "consumed_samples": 242944, "global_step/max_steps": "949/6350"}
{"lm loss": 5.19316149, "grad_norm": 2.50589919, "learning_rate": 9.739e-05, "elapsed_time_per_iteration": 5.56732988, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 33s", "remaining_time": "7h 15m 10s", "loss_scale": 1.0, "consumed_samples": 243200, "global_step/max_steps": "950/6350"}
{"lm loss": 5.19290447, "grad_norm": 1.36058819, "learning_rate": 9.738e-05, "elapsed_time_per_iteration": 4.70824671, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 38s", "remaining_time": "7h 15m 5s", "loss_scale": 1.0, "consumed_samples": 243456, "global_step/max_steps": "951/6350"}
{"lm loss": 5.20432377, "grad_norm": 1.63685727, "learning_rate": 9.738e-05, "elapsed_time_per_iteration": 4.76298904, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 43s", "remaining_time": "7h 15m 0s", "loss_scale": 1.0, "consumed_samples": 243712, "global_step/max_steps": "952/6350"}
{"lm loss": 5.19541311, "grad_norm": 1.91754448, "learning_rate": 9.737e-05, "elapsed_time_per_iteration": 4.85589242, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 47s", "remaining_time": "7h 14m 55s", "loss_scale": 1.0, "consumed_samples": 243968, "global_step/max_steps": "953/6350"}
{"lm loss": 5.21395397, "grad_norm": 1.68598342, "learning_rate": 9.736e-05, "elapsed_time_per_iteration": 4.73267436, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 52s", "remaining_time": "7h 14m 49s", "loss_scale": 1.0, "consumed_samples": 244224, "global_step/max_steps": "954/6350"}
{"lm loss": 5.20142174, "grad_norm": 1.83678067, "learning_rate": 9.735e-05, "elapsed_time_per_iteration": 4.77366734, "memory(GiB)": 28.03, "elapsed_time": "1h 16m 57s", "remaining_time": "7h 14m 44s", "loss_scale": 1.0, "consumed_samples": 244480, "global_step/max_steps": "955/6350"}
{"lm loss": 5.21726465, "grad_norm": 1.96066606, "learning_rate": 9.734e-05, "elapsed_time_per_iteration": 4.67146301, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 2s", "remaining_time": "7h 14m 39s", "loss_scale": 1.0, "consumed_samples": 244736, "global_step/max_steps": "956/6350"}
{"lm loss": 5.21144724, "grad_norm": 1.71288002, "learning_rate": 9.734e-05, "elapsed_time_per_iteration": 4.73310328, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 6s", "remaining_time": "7h 14m 33s", "loss_scale": 1.0, "consumed_samples": 244992, "global_step/max_steps": "957/6350"}
{"lm loss": 5.18726587, "grad_norm": 1.79210293, "learning_rate": 9.733e-05, "elapsed_time_per_iteration": 4.72036004, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 11s", "remaining_time": "7h 14m 28s", "loss_scale": 1.0, "consumed_samples": 245248, "global_step/max_steps": "958/6350"}
{"lm loss": 5.21003103, "grad_norm": 1.97118533, "learning_rate": 9.732e-05, "elapsed_time_per_iteration": 4.79135704, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 16s", "remaining_time": "7h 14m 23s", "loss_scale": 1.0, "consumed_samples": 245504, "global_step/max_steps": "959/6350"}
{"lm loss": 5.18968201, "grad_norm": 1.8465184, "learning_rate": 9.731e-05, "elapsed_time_per_iteration": 4.76161838, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 21s", "remaining_time": "7h 14m 17s", "loss_scale": 1.0, "consumed_samples": 245760, "global_step/max_steps": "960/6350"}
{"lm loss": 5.21864319, "grad_norm": 1.7413553, "learning_rate": 9.73e-05, "elapsed_time_per_iteration": 5.25631666, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 26s", "remaining_time": "7h 14m 15s", "loss_scale": 1.0, "consumed_samples": 246016, "global_step/max_steps": "961/6350"}
{"lm loss": 5.22543716, "grad_norm": 1.81756711, "learning_rate": 9.729e-05, "elapsed_time_per_iteration": 4.82691145, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 31s", "remaining_time": "7h 14m 10s", "loss_scale": 1.0, "consumed_samples": 246272, "global_step/max_steps": "962/6350"}
{"lm loss": 5.18102455, "grad_norm": 1.43725359, "learning_rate": 9.729e-05, "elapsed_time_per_iteration": 4.7552321, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 35s", "remaining_time": "7h 14m 5s", "loss_scale": 1.0, "consumed_samples": 246528, "global_step/max_steps": "963/6350"}
{"lm loss": 5.1962719, "grad_norm": 1.85039032, "learning_rate": 9.728e-05, "elapsed_time_per_iteration": 4.8865335, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 40s", "remaining_time": "7h 14m 0s", "loss_scale": 1.0, "consumed_samples": 246784, "global_step/max_steps": "964/6350"}
{"lm loss": 5.18457127, "grad_norm": 2.09028482, "learning_rate": 9.727e-05, "elapsed_time_per_iteration": 4.76809311, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 45s", "remaining_time": "7h 13m 55s", "loss_scale": 1.0, "consumed_samples": 247040, "global_step/max_steps": "965/6350"}
{"lm loss": 5.22391415, "grad_norm": 1.23009002, "learning_rate": 9.726e-05, "elapsed_time_per_iteration": 4.77565145, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 50s", "remaining_time": "7h 13m 50s", "loss_scale": 1.0, "consumed_samples": 247296, "global_step/max_steps": "966/6350"}
{"lm loss": 5.19052935, "grad_norm": 1.71966517, "learning_rate": 9.725e-05, "elapsed_time_per_iteration": 5.67321682, "memory(GiB)": 28.03, "elapsed_time": "1h 17m 56s", "remaining_time": "7h 13m 50s", "loss_scale": 1.0, "consumed_samples": 247552, "global_step/max_steps": "967/6350"}
{"lm loss": 5.20696115, "grad_norm": 1.65135276, "learning_rate": 9.724e-05, "elapsed_time_per_iteration": 4.84941173, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 0s", "remaining_time": "7h 13m 45s", "loss_scale": 1.0, "consumed_samples": 247808, "global_step/max_steps": "968/6350"}
{"lm loss": 5.19291687, "grad_norm": 2.02977467, "learning_rate": 9.724e-05, "elapsed_time_per_iteration": 4.73357391, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 5s", "remaining_time": "7h 13m 39s", "loss_scale": 1.0, "consumed_samples": 248064, "global_step/max_steps": "969/6350"}
{"lm loss": 5.1991024, "grad_norm": 1.65309703, "learning_rate": 9.723e-05, "elapsed_time_per_iteration": 4.78507471, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 10s", "remaining_time": "7h 13m 34s", "loss_scale": 1.0, "consumed_samples": 248320, "global_step/max_steps": "970/6350"}
{"lm loss": 5.19348526, "grad_norm": 1.82279909, "learning_rate": 9.722e-05, "elapsed_time_per_iteration": 4.76109743, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 15s", "remaining_time": "7h 13m 29s", "loss_scale": 1.0, "consumed_samples": 248576, "global_step/max_steps": "971/6350"}
{"lm loss": 5.20546007, "grad_norm": 1.55036998, "learning_rate": 9.721e-05, "elapsed_time_per_iteration": 4.67033672, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 19s", "remaining_time": "7h 13m 23s", "loss_scale": 1.0, "consumed_samples": 248832, "global_step/max_steps": "972/6350"}
{"lm loss": 5.20614243, "grad_norm": 2.12823582, "learning_rate": 9.72e-05, "elapsed_time_per_iteration": 4.67838478, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 24s", "remaining_time": "7h 13m 18s", "loss_scale": 1.0, "consumed_samples": 249088, "global_step/max_steps": "973/6350"}
{"lm loss": 5.19548512, "grad_norm": 1.31354904, "learning_rate": 9.719e-05, "elapsed_time_per_iteration": 5.62829733, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 30s", "remaining_time": "7h 13m 17s", "loss_scale": 1.0, "consumed_samples": 249344, "global_step/max_steps": "974/6350"}
{"lm loss": 5.20194387, "grad_norm": 1.8517524, "learning_rate": 9.718e-05, "elapsed_time_per_iteration": 4.70876789, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 34s", "remaining_time": "7h 13m 12s", "loss_scale": 1.0, "consumed_samples": 249600, "global_step/max_steps": "975/6350"}
{"lm loss": 5.18459225, "grad_norm": 1.76509941, "learning_rate": 9.718e-05, "elapsed_time_per_iteration": 5.69681048, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 40s", "remaining_time": "7h 13m 12s", "loss_scale": 1.0, "consumed_samples": 249856, "global_step/max_steps": "976/6350"}
{"lm loss": 5.20353317, "grad_norm": 1.72546518, "learning_rate": 9.717e-05, "elapsed_time_per_iteration": 4.67324138, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 45s", "remaining_time": "7h 13m 6s", "loss_scale": 1.0, "consumed_samples": 250112, "global_step/max_steps": "977/6350"}
{"lm loss": 5.20446873, "grad_norm": 1.63342714, "learning_rate": 9.716e-05, "elapsed_time_per_iteration": 5.47577834, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 50s", "remaining_time": "7h 13m 4s", "loss_scale": 1.0, "consumed_samples": 250368, "global_step/max_steps": "978/6350"}
{"lm loss": 5.20951176, "grad_norm": 1.94306648, "learning_rate": 9.715e-05, "elapsed_time_per_iteration": 4.77349186, "memory(GiB)": 28.03, "elapsed_time": "1h 18m 55s", "remaining_time": "7h 12m 59s", "loss_scale": 1.0, "consumed_samples": 250624, "global_step/max_steps": "979/6350"}
{"lm loss": 5.17967415, "grad_norm": 1.82855499, "learning_rate": 9.714e-05, "elapsed_time_per_iteration": 4.64542127, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 0s", "remaining_time": "7h 12m 53s", "loss_scale": 1.0, "consumed_samples": 250880, "global_step/max_steps": "980/6350"}
{"lm loss": 5.1971364, "grad_norm": 1.60915279, "learning_rate": 9.713e-05, "elapsed_time_per_iteration": 4.72043276, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 4s", "remaining_time": "7h 12m 48s", "loss_scale": 1.0, "consumed_samples": 251136, "global_step/max_steps": "981/6350"}
{"lm loss": 5.18534994, "grad_norm": 1.92970777, "learning_rate": 9.712e-05, "elapsed_time_per_iteration": 4.66013598, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 9s", "remaining_time": "7h 12m 42s", "loss_scale": 1.0, "consumed_samples": 251392, "global_step/max_steps": "982/6350"}
{"lm loss": 5.20000696, "grad_norm": 1.6551156, "learning_rate": 9.712e-05, "elapsed_time_per_iteration": 4.70458937, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 14s", "remaining_time": "7h 12m 37s", "loss_scale": 1.0, "consumed_samples": 251648, "global_step/max_steps": "983/6350"}
{"lm loss": 5.22759295, "grad_norm": 1.5850116, "learning_rate": 9.711e-05, "elapsed_time_per_iteration": 4.7345407, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 18s", "remaining_time": "7h 12m 31s", "loss_scale": 1.0, "consumed_samples": 251904, "global_step/max_steps": "984/6350"}
{"lm loss": 5.20130777, "grad_norm": 2.22138524, "learning_rate": 9.71e-05, "elapsed_time_per_iteration": 4.69802356, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 23s", "remaining_time": "7h 12m 26s", "loss_scale": 1.0, "consumed_samples": 252160, "global_step/max_steps": "985/6350"}
{"lm loss": 5.19523716, "grad_norm": 1.61535466, "learning_rate": 9.709e-05, "elapsed_time_per_iteration": 4.72826314, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 28s", "remaining_time": "7h 12m 20s", "loss_scale": 1.0, "consumed_samples": 252416, "global_step/max_steps": "986/6350"}
{"lm loss": 5.19990492, "grad_norm": 2.03202105, "learning_rate": 9.708e-05, "elapsed_time_per_iteration": 4.71509361, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 33s", "remaining_time": "7h 12m 15s", "loss_scale": 1.0, "consumed_samples": 252672, "global_step/max_steps": "987/6350"}
{"lm loss": 5.19621468, "grad_norm": 1.21511948, "learning_rate": 9.707e-05, "elapsed_time_per_iteration": 4.72882986, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 37s", "remaining_time": "7h 12m 9s", "loss_scale": 1.0, "consumed_samples": 252928, "global_step/max_steps": "988/6350"}
{"lm loss": 5.20997095, "grad_norm": 1.75734949, "learning_rate": 9.706e-05, "elapsed_time_per_iteration": 4.67110109, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 42s", "remaining_time": "7h 12m 4s", "loss_scale": 1.0, "consumed_samples": 253184, "global_step/max_steps": "989/6350"}
{"lm loss": 5.18972111, "grad_norm": 1.934569, "learning_rate": 9.706e-05, "elapsed_time_per_iteration": 4.73464036, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 47s", "remaining_time": "7h 11m 58s", "loss_scale": 1.0, "consumed_samples": 253440, "global_step/max_steps": "990/6350"}
{"lm loss": 5.17156506, "grad_norm": 1.63616633, "learning_rate": 9.705e-05, "elapsed_time_per_iteration": 4.74077845, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 51s", "remaining_time": "7h 11m 53s", "loss_scale": 1.0, "consumed_samples": 253696, "global_step/max_steps": "991/6350"}
{"lm loss": 5.20739126, "grad_norm": 1.53560352, "learning_rate": 9.704e-05, "elapsed_time_per_iteration": 5.5591352, "memory(GiB)": 28.03, "elapsed_time": "1h 19m 57s", "remaining_time": "7h 11m 52s", "loss_scale": 1.0, "consumed_samples": 253952, "global_step/max_steps": "992/6350"}
{"lm loss": 5.1924715, "grad_norm": 1.85922086, "learning_rate": 9.703e-05, "elapsed_time_per_iteration": 4.81220698, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 2s", "remaining_time": "7h 11m 47s", "loss_scale": 1.0, "consumed_samples": 254208, "global_step/max_steps": "993/6350"}
{"lm loss": 5.194911, "grad_norm": 1.58334577, "learning_rate": 9.702e-05, "elapsed_time_per_iteration": 4.77338934, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 7s", "remaining_time": "7h 11m 42s", "loss_scale": 1.0, "consumed_samples": 254464, "global_step/max_steps": "994/6350"}
{"lm loss": 5.18598557, "grad_norm": 1.7277683, "learning_rate": 9.701e-05, "elapsed_time_per_iteration": 4.81618714, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 11s", "remaining_time": "7h 11m 37s", "loss_scale": 1.0, "consumed_samples": 254720, "global_step/max_steps": "995/6350"}
{"lm loss": 5.20373583, "grad_norm": 1.90415061, "learning_rate": 9.7e-05, "elapsed_time_per_iteration": 5.51630664, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 17s", "remaining_time": "7h 11m 36s", "loss_scale": 1.0, "consumed_samples": 254976, "global_step/max_steps": "996/6350"}
{"lm loss": 5.18199062, "grad_norm": 1.96650684, "learning_rate": 9.699e-05, "elapsed_time_per_iteration": 4.68571162, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 22s", "remaining_time": "7h 11m 30s", "loss_scale": 1.0, "consumed_samples": 255232, "global_step/max_steps": "997/6350"}
{"lm loss": 5.21085024, "grad_norm": 1.28915632, "learning_rate": 9.699e-05, "elapsed_time_per_iteration": 4.74490309, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 26s", "remaining_time": "7h 11m 25s", "loss_scale": 1.0, "consumed_samples": 255488, "global_step/max_steps": "998/6350"}
{"lm loss": 5.20716286, "grad_norm": 1.72361934, "learning_rate": 9.698e-05, "elapsed_time_per_iteration": 4.76616645, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 31s", "remaining_time": "7h 11m 19s", "loss_scale": 1.0, "consumed_samples": 255744, "global_step/max_steps": "999/6350"}
{"lm loss": 5.1859951, "grad_norm": 1.55392873, "learning_rate": 9.697e-05, "elapsed_time_per_iteration": 4.75964761, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 36s", "remaining_time": "7h 11m 14s", "loss_scale": 1.0, "consumed_samples": 256000, "global_step/max_steps": "1000/6350"}
{"lm loss": 5.17448378, "grad_norm": 1.7389673, "learning_rate": 9.696e-05, "elapsed_time_per_iteration": 4.69809604, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 41s", "remaining_time": "7h 11m 9s", "loss_scale": 1.0, "consumed_samples": 256256, "global_step/max_steps": "1001/6350"}
{"lm loss": 5.18579197, "grad_norm": 1.74604499, "learning_rate": 9.695e-05, "elapsed_time_per_iteration": 4.6884234, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 45s", "remaining_time": "7h 11m 3s", "loss_scale": 1.0, "consumed_samples": 256512, "global_step/max_steps": "1002/6350"}
{"lm loss": 5.18700743, "grad_norm": 1.7190336, "learning_rate": 9.694e-05, "elapsed_time_per_iteration": 4.6932385, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 50s", "remaining_time": "7h 10m 57s", "loss_scale": 1.0, "consumed_samples": 256768, "global_step/max_steps": "1003/6350"}
{"lm loss": 5.1758275, "grad_norm": 1.72633743, "learning_rate": 9.693e-05, "elapsed_time_per_iteration": 4.76118636, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 55s", "remaining_time": "7h 10m 52s", "loss_scale": 1.0, "consumed_samples": 257024, "global_step/max_steps": "1004/6350"}
{"lm loss": 5.19004488, "grad_norm": 1.57164848, "learning_rate": 9.692e-05, "elapsed_time_per_iteration": 4.71405268, "memory(GiB)": 28.03, "elapsed_time": "1h 20m 59s", "remaining_time": "7h 10m 47s", "loss_scale": 1.0, "consumed_samples": 257280, "global_step/max_steps": "1005/6350"}
{"lm loss": 5.20156813, "grad_norm": 1.69865417, "learning_rate": 9.692e-05, "elapsed_time_per_iteration": 4.71414828, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 4s", "remaining_time": "7h 10m 41s", "loss_scale": 1.0, "consumed_samples": 257536, "global_step/max_steps": "1006/6350"}
{"lm loss": 5.20535231, "grad_norm": 1.81812012, "learning_rate": 9.691e-05, "elapsed_time_per_iteration": 4.72543931, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 9s", "remaining_time": "7h 10m 36s", "loss_scale": 1.0, "consumed_samples": 257792, "global_step/max_steps": "1007/6350"}
{"lm loss": 5.19739962, "grad_norm": 1.71281111, "learning_rate": 9.69e-05, "elapsed_time_per_iteration": 4.73883438, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 14s", "remaining_time": "7h 10m 30s", "loss_scale": 1.0, "consumed_samples": 258048, "global_step/max_steps": "1008/6350"}
{"lm loss": 5.19821119, "grad_norm": 1.52217984, "learning_rate": 9.689e-05, "elapsed_time_per_iteration": 4.73471999, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 18s", "remaining_time": "7h 10m 25s", "loss_scale": 1.0, "consumed_samples": 258304, "global_step/max_steps": "1009/6350"}
{"lm loss": 5.19338417, "grad_norm": 1.51541877, "learning_rate": 9.688e-05, "elapsed_time_per_iteration": 4.70481181, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 23s", "remaining_time": "7h 10m 20s", "loss_scale": 1.0, "consumed_samples": 258560, "global_step/max_steps": "1010/6350"}
{"lm loss": 5.18965244, "grad_norm": 1.53780866, "learning_rate": 9.687e-05, "elapsed_time_per_iteration": 4.77718282, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 28s", "remaining_time": "7h 10m 14s", "loss_scale": 1.0, "consumed_samples": 258816, "global_step/max_steps": "1011/6350"}
{"lm loss": 5.19981432, "grad_norm": 1.39674497, "learning_rate": 9.686e-05, "elapsed_time_per_iteration": 4.72339869, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 33s", "remaining_time": "7h 10m 9s", "loss_scale": 1.0, "consumed_samples": 259072, "global_step/max_steps": "1012/6350"}
{"lm loss": 5.20063448, "grad_norm": 1.98267972, "learning_rate": 9.685e-05, "elapsed_time_per_iteration": 5.16993237, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 38s", "remaining_time": "7h 10m 6s", "loss_scale": 1.0, "consumed_samples": 259328, "global_step/max_steps": "1013/6350"}
{"lm loss": 5.19158983, "grad_norm": 1.2844789, "learning_rate": 9.684e-05, "elapsed_time_per_iteration": 4.75231028, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 42s", "remaining_time": "7h 10m 1s", "loss_scale": 1.0, "consumed_samples": 259584, "global_step/max_steps": "1014/6350"}
{"lm loss": 5.18746758, "grad_norm": 1.84112608, "learning_rate": 9.684e-05, "elapsed_time_per_iteration": 4.69426632, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 47s", "remaining_time": "7h 9m 55s", "loss_scale": 1.0, "consumed_samples": 259840, "global_step/max_steps": "1015/6350"}
{"lm loss": 5.17506075, "grad_norm": 1.64453411, "learning_rate": 9.683e-05, "elapsed_time_per_iteration": 4.82094026, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 52s", "remaining_time": "7h 9m 50s", "loss_scale": 1.0, "consumed_samples": 260096, "global_step/max_steps": "1016/6350"}
{"lm loss": 5.16706848, "grad_norm": 1.66486394, "learning_rate": 9.682e-05, "elapsed_time_per_iteration": 4.73332882, "memory(GiB)": 28.03, "elapsed_time": "1h 21m 57s", "remaining_time": "7h 9m 45s", "loss_scale": 1.0, "consumed_samples": 260352, "global_step/max_steps": "1017/6350"}
{"lm loss": 5.17043543, "grad_norm": 1.81473422, "learning_rate": 9.681e-05, "elapsed_time_per_iteration": 5.76659679, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 2s", "remaining_time": "7h 9m 45s", "loss_scale": 1.0, "consumed_samples": 260608, "global_step/max_steps": "1018/6350"}
{"lm loss": 5.16413164, "grad_norm": 1.7568574, "learning_rate": 9.68e-05, "elapsed_time_per_iteration": 4.74046063, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 7s", "remaining_time": "7h 9m 39s", "loss_scale": 1.0, "consumed_samples": 260864, "global_step/max_steps": "1019/6350"}
{"lm loss": 5.17573404, "grad_norm": 1.11518466, "learning_rate": 9.679e-05, "elapsed_time_per_iteration": 4.75726318, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 12s", "remaining_time": "7h 9m 34s", "loss_scale": 1.0, "consumed_samples": 261120, "global_step/max_steps": "1020/6350"}
{"lm loss": 5.18504667, "grad_norm": 1.86883211, "learning_rate": 9.678e-05, "elapsed_time_per_iteration": 4.76414204, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 17s", "remaining_time": "7h 9m 29s", "loss_scale": 1.0, "consumed_samples": 261376, "global_step/max_steps": "1021/6350"}
{"lm loss": 5.18504047, "grad_norm": 2.07728553, "learning_rate": 9.677e-05, "elapsed_time_per_iteration": 4.78436613, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 22s", "remaining_time": "7h 9m 24s", "loss_scale": 1.0, "consumed_samples": 261632, "global_step/max_steps": "1022/6350"}
{"lm loss": 5.16288137, "grad_norm": 1.16353989, "learning_rate": 9.676e-05, "elapsed_time_per_iteration": 4.70325661, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 26s", "remaining_time": "7h 9m 18s", "loss_scale": 1.0, "consumed_samples": 261888, "global_step/max_steps": "1023/6350"}
{"lm loss": 5.20111084, "grad_norm": 2.10384679, "learning_rate": 9.675e-05, "elapsed_time_per_iteration": 5.26779366, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 32s", "remaining_time": "7h 9m 16s", "loss_scale": 1.0, "consumed_samples": 262144, "global_step/max_steps": "1024/6350"}
{"lm loss": 5.17847967, "grad_norm": 1.12343442, "learning_rate": 9.675e-05, "elapsed_time_per_iteration": 4.70164466, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 36s", "remaining_time": "7h 9m 10s", "loss_scale": 1.0, "consumed_samples": 262400, "global_step/max_steps": "1025/6350"}
{"lm loss": 5.16936111, "grad_norm": 2.15058231, "learning_rate": 9.674e-05, "elapsed_time_per_iteration": 4.70708871, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 41s", "remaining_time": "7h 9m 5s", "loss_scale": 1.0, "consumed_samples": 262656, "global_step/max_steps": "1026/6350"}
{"lm loss": 5.1944623, "grad_norm": 1.59707367, "learning_rate": 9.673e-05, "elapsed_time_per_iteration": 4.78955221, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 46s", "remaining_time": "7h 9m 0s", "loss_scale": 1.0, "consumed_samples": 262912, "global_step/max_steps": "1027/6350"}
{"lm loss": 5.17733288, "grad_norm": 1.73574018, "learning_rate": 9.672e-05, "elapsed_time_per_iteration": 4.69921994, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 50s", "remaining_time": "7h 8m 54s", "loss_scale": 1.0, "consumed_samples": 263168, "global_step/max_steps": "1028/6350"}
{"lm loss": 5.20544338, "grad_norm": 2.48158908, "learning_rate": 9.671e-05, "elapsed_time_per_iteration": 4.74357629, "memory(GiB)": 28.03, "elapsed_time": "1h 22m 55s", "remaining_time": "7h 8m 49s", "loss_scale": 1.0, "consumed_samples": 263424, "global_step/max_steps": "1029/6350"}
{"lm loss": 5.20554972, "grad_norm": 1.19620299, "learning_rate": 9.67e-05, "elapsed_time_per_iteration": 4.69019198, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 0s", "remaining_time": "7h 8m 43s", "loss_scale": 1.0, "consumed_samples": 263680, "global_step/max_steps": "1030/6350"}
{"lm loss": 5.19564009, "grad_norm": 2.61374545, "learning_rate": 9.669e-05, "elapsed_time_per_iteration": 4.70011926, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 5s", "remaining_time": "7h 8m 38s", "loss_scale": 1.0, "consumed_samples": 263936, "global_step/max_steps": "1031/6350"}
{"lm loss": 5.18562841, "grad_norm": 1.68556535, "learning_rate": 9.668e-05, "elapsed_time_per_iteration": 4.72291803, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 9s", "remaining_time": "7h 8m 32s", "loss_scale": 1.0, "consumed_samples": 264192, "global_step/max_steps": "1032/6350"}
{"lm loss": 5.17683172, "grad_norm": 1.77222502, "learning_rate": 9.667e-05, "elapsed_time_per_iteration": 4.70843673, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 14s", "remaining_time": "7h 8m 27s", "loss_scale": 1.0, "consumed_samples": 264448, "global_step/max_steps": "1033/6350"}
{"lm loss": 5.17875004, "grad_norm": 1.43713188, "learning_rate": 9.666e-05, "elapsed_time_per_iteration": 4.71026206, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 19s", "remaining_time": "7h 8m 21s", "loss_scale": 1.0, "consumed_samples": 264704, "global_step/max_steps": "1034/6350"}
{"lm loss": 5.18151426, "grad_norm": 1.70720625, "learning_rate": 9.665e-05, "elapsed_time_per_iteration": 5.58504248, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 24s", "remaining_time": "7h 8m 20s", "loss_scale": 1.0, "consumed_samples": 264960, "global_step/max_steps": "1035/6350"}
{"lm loss": 5.20231819, "grad_norm": 1.68500352, "learning_rate": 9.664e-05, "elapsed_time_per_iteration": 6.00703549, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 30s", "remaining_time": "7h 8m 22s", "loss_scale": 1.0, "consumed_samples": 265216, "global_step/max_steps": "1036/6350"}
{"lm loss": 5.1952095, "grad_norm": 2.38173199, "learning_rate": 9.663e-05, "elapsed_time_per_iteration": 4.82179713, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 35s", "remaining_time": "7h 8m 17s", "loss_scale": 1.0, "consumed_samples": 265472, "global_step/max_steps": "1037/6350"}
{"lm loss": 5.19095325, "grad_norm": 1.43911266, "learning_rate": 9.663e-05, "elapsed_time_per_iteration": 4.75256276, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 40s", "remaining_time": "7h 8m 11s", "loss_scale": 1.0, "consumed_samples": 265728, "global_step/max_steps": "1038/6350"}
{"lm loss": 5.18210697, "grad_norm": 1.35241711, "learning_rate": 9.662e-05, "elapsed_time_per_iteration": 4.7661593, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 45s", "remaining_time": "7h 8m 6s", "loss_scale": 1.0, "consumed_samples": 265984, "global_step/max_steps": "1039/6350"}
{"lm loss": 5.16705751, "grad_norm": 1.78676271, "learning_rate": 9.661e-05, "elapsed_time_per_iteration": 4.72707725, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 49s", "remaining_time": "7h 8m 1s", "loss_scale": 1.0, "consumed_samples": 266240, "global_step/max_steps": "1040/6350"}
{"lm loss": 5.1688447, "grad_norm": 1.774647, "learning_rate": 9.66e-05, "elapsed_time_per_iteration": 4.80450487, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 54s", "remaining_time": "7h 7m 56s", "loss_scale": 1.0, "consumed_samples": 266496, "global_step/max_steps": "1041/6350"}
{"lm loss": 5.18426085, "grad_norm": 1.40107012, "learning_rate": 9.659e-05, "elapsed_time_per_iteration": 4.75288677, "memory(GiB)": 28.03, "elapsed_time": "1h 23m 59s", "remaining_time": "7h 7m 50s", "loss_scale": 1.0, "consumed_samples": 266752, "global_step/max_steps": "1042/6350"}
{"lm loss": 5.18041277, "grad_norm": 1.81935298, "learning_rate": 9.658e-05, "elapsed_time_per_iteration": 4.76366591, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 4s", "remaining_time": "7h 7m 45s", "loss_scale": 1.0, "consumed_samples": 267008, "global_step/max_steps": "1043/6350"}
{"lm loss": 5.18815231, "grad_norm": 1.81589818, "learning_rate": 9.657e-05, "elapsed_time_per_iteration": 4.80037332, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 8s", "remaining_time": "7h 7m 40s", "loss_scale": 1.0, "consumed_samples": 267264, "global_step/max_steps": "1044/6350"}
{"lm loss": 5.1746254, "grad_norm": 1.40258753, "learning_rate": 9.656e-05, "elapsed_time_per_iteration": 5.53431058, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 14s", "remaining_time": "7h 7m 39s", "loss_scale": 1.0, "consumed_samples": 267520, "global_step/max_steps": "1045/6350"}
{"lm loss": 5.17249584, "grad_norm": 1.87614965, "learning_rate": 9.655e-05, "elapsed_time_per_iteration": 5.49400687, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 19s", "remaining_time": "7h 7m 37s", "loss_scale": 1.0, "consumed_samples": 267776, "global_step/max_steps": "1046/6350"}
{"lm loss": 5.1771822, "grad_norm": 1.8345331, "learning_rate": 9.654e-05, "elapsed_time_per_iteration": 4.68373728, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 24s", "remaining_time": "7h 7m 32s", "loss_scale": 1.0, "consumed_samples": 268032, "global_step/max_steps": "1047/6350"}
{"lm loss": 5.17981052, "grad_norm": 1.53913927, "learning_rate": 9.653e-05, "elapsed_time_per_iteration": 4.75724459, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 29s", "remaining_time": "7h 7m 27s", "loss_scale": 1.0, "consumed_samples": 268288, "global_step/max_steps": "1048/6350"}
{"lm loss": 5.15388489, "grad_norm": 1.57740557, "learning_rate": 9.652e-05, "elapsed_time_per_iteration": 4.74186158, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 34s", "remaining_time": "7h 7m 21s", "loss_scale": 1.0, "consumed_samples": 268544, "global_step/max_steps": "1049/6350"}
{"lm loss": 5.15841866, "grad_norm": 1.83549511, "learning_rate": 9.651e-05, "elapsed_time_per_iteration": 4.72525096, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 38s", "remaining_time": "7h 7m 16s", "loss_scale": 1.0, "consumed_samples": 268800, "global_step/max_steps": "1050/6350"}
{"lm loss": 5.16308355, "grad_norm": 1.8134793, "learning_rate": 9.65e-05, "elapsed_time_per_iteration": 4.83088851, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 43s", "remaining_time": "7h 7m 11s", "loss_scale": 1.0, "consumed_samples": 269056, "global_step/max_steps": "1051/6350"}
{"lm loss": 5.16165638, "grad_norm": 1.41599452, "learning_rate": 9.649e-05, "elapsed_time_per_iteration": 4.77806139, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 48s", "remaining_time": "7h 7m 6s", "loss_scale": 1.0, "consumed_samples": 269312, "global_step/max_steps": "1052/6350"}
{"lm loss": 5.1699543, "grad_norm": 2.24647903, "learning_rate": 9.649e-05, "elapsed_time_per_iteration": 4.80809712, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 53s", "remaining_time": "7h 7m 1s", "loss_scale": 1.0, "consumed_samples": 269568, "global_step/max_steps": "1053/6350"}
{"lm loss": 5.1914072, "grad_norm": 0.92352855, "learning_rate": 9.648e-05, "elapsed_time_per_iteration": 4.7465179, "memory(GiB)": 28.03, "elapsed_time": "1h 24m 58s", "remaining_time": "7h 6m 56s", "loss_scale": 1.0, "consumed_samples": 269824, "global_step/max_steps": "1054/6350"}
{"lm loss": 5.19033003, "grad_norm": 2.05326366, "learning_rate": 9.647e-05, "elapsed_time_per_iteration": 4.69066477, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 2s", "remaining_time": "7h 6m 50s", "loss_scale": 1.0, "consumed_samples": 270080, "global_step/max_steps": "1055/6350"}
{"lm loss": 5.18370676, "grad_norm": 1.47135293, "learning_rate": 9.646e-05, "elapsed_time_per_iteration": 4.75412631, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 7s", "remaining_time": "7h 6m 45s", "loss_scale": 1.0, "consumed_samples": 270336, "global_step/max_steps": "1056/6350"}
{"lm loss": 5.19650078, "grad_norm": 1.8708266, "learning_rate": 9.645e-05, "elapsed_time_per_iteration": 4.73109961, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 12s", "remaining_time": "7h 6m 39s", "loss_scale": 1.0, "consumed_samples": 270592, "global_step/max_steps": "1057/6350"}
{"lm loss": 5.16937351, "grad_norm": 1.56434989, "learning_rate": 9.644e-05, "elapsed_time_per_iteration": 4.8090353, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 17s", "remaining_time": "7h 6m 34s", "loss_scale": 1.0, "consumed_samples": 270848, "global_step/max_steps": "1058/6350"}
{"lm loss": 5.17581034, "grad_norm": 2.04124403, "learning_rate": 9.643e-05, "elapsed_time_per_iteration": 5.54744864, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 22s", "remaining_time": "7h 6m 33s", "loss_scale": 1.0, "consumed_samples": 271104, "global_step/max_steps": "1059/6350"}
{"lm loss": 5.16497183, "grad_norm": 1.5542053, "learning_rate": 9.642e-05, "elapsed_time_per_iteration": 4.67459226, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 27s", "remaining_time": "7h 6m 28s", "loss_scale": 1.0, "consumed_samples": 271360, "global_step/max_steps": "1060/6350"}
{"lm loss": 5.18090296, "grad_norm": 1.35115111, "learning_rate": 9.641e-05, "elapsed_time_per_iteration": 4.69559455, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 31s", "remaining_time": "7h 6m 22s", "loss_scale": 1.0, "consumed_samples": 271616, "global_step/max_steps": "1061/6350"}
{"lm loss": 5.17242956, "grad_norm": 2.08746743, "learning_rate": 9.64e-05, "elapsed_time_per_iteration": 4.67262053, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 36s", "remaining_time": "7h 6m 16s", "loss_scale": 1.0, "consumed_samples": 271872, "global_step/max_steps": "1062/6350"}
{"lm loss": 5.15729761, "grad_norm": 1.27094769, "learning_rate": 9.639e-05, "elapsed_time_per_iteration": 4.74653602, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 41s", "remaining_time": "7h 6m 11s", "loss_scale": 1.0, "consumed_samples": 272128, "global_step/max_steps": "1063/6350"}
{"lm loss": 5.1368103, "grad_norm": 1.6296345, "learning_rate": 9.638e-05, "elapsed_time_per_iteration": 4.74847388, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 46s", "remaining_time": "7h 6m 6s", "loss_scale": 1.0, "consumed_samples": 272384, "global_step/max_steps": "1064/6350"}
{"lm loss": 5.17033958, "grad_norm": 1.76548266, "learning_rate": 9.637e-05, "elapsed_time_per_iteration": 4.7217021, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 50s", "remaining_time": "7h 6m 0s", "loss_scale": 1.0, "consumed_samples": 272640, "global_step/max_steps": "1065/6350"}
{"lm loss": 5.15518093, "grad_norm": 1.61213827, "learning_rate": 9.636e-05, "elapsed_time_per_iteration": 4.72950888, "memory(GiB)": 28.03, "elapsed_time": "1h 25m 55s", "remaining_time": "7h 5m 55s", "loss_scale": 1.0, "consumed_samples": 272896, "global_step/max_steps": "1066/6350"}
{"lm loss": 5.16628695, "grad_norm": 2.07283711, "learning_rate": 9.635e-05, "elapsed_time_per_iteration": 4.73275304, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 0s", "remaining_time": "7h 5m 50s", "loss_scale": 1.0, "consumed_samples": 273152, "global_step/max_steps": "1067/6350"}
{"lm loss": 5.16605806, "grad_norm": 1.11628973, "learning_rate": 9.634e-05, "elapsed_time_per_iteration": 4.7291286, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 5s", "remaining_time": "7h 5m 44s", "loss_scale": 1.0, "consumed_samples": 273408, "global_step/max_steps": "1068/6350"}
{"lm loss": 5.15970421, "grad_norm": 1.50090003, "learning_rate": 9.633e-05, "elapsed_time_per_iteration": 4.72397208, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 9s", "remaining_time": "7h 5m 39s", "loss_scale": 1.0, "consumed_samples": 273664, "global_step/max_steps": "1069/6350"}
{"lm loss": 5.16084623, "grad_norm": 1.60972977, "learning_rate": 9.632e-05, "elapsed_time_per_iteration": 4.74684644, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 14s", "remaining_time": "7h 5m 34s", "loss_scale": 1.0, "consumed_samples": 273920, "global_step/max_steps": "1070/6350"}
{"lm loss": 5.17028379, "grad_norm": 1.82410657, "learning_rate": 9.631e-05, "elapsed_time_per_iteration": 4.76214457, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 19s", "remaining_time": "7h 5m 28s", "loss_scale": 1.0, "consumed_samples": 274176, "global_step/max_steps": "1071/6350"}
{"lm loss": 5.17112827, "grad_norm": 1.38022864, "learning_rate": 9.63e-05, "elapsed_time_per_iteration": 4.68575239, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 23s", "remaining_time": "7h 5m 23s", "loss_scale": 1.0, "consumed_samples": 274432, "global_step/max_steps": "1072/6350"}
{"lm loss": 5.17704105, "grad_norm": 1.9283911, "learning_rate": 9.629e-05, "elapsed_time_per_iteration": 4.72036219, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 28s", "remaining_time": "7h 5m 17s", "loss_scale": 1.0, "consumed_samples": 274688, "global_step/max_steps": "1073/6350"}
{"lm loss": 5.15013456, "grad_norm": 1.35928524, "learning_rate": 9.628e-05, "elapsed_time_per_iteration": 4.77321625, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 33s", "remaining_time": "7h 5m 12s", "loss_scale": 1.0, "consumed_samples": 274944, "global_step/max_steps": "1074/6350"}
{"lm loss": 5.17551517, "grad_norm": 1.82049382, "learning_rate": 9.627e-05, "elapsed_time_per_iteration": 5.03466415, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 38s", "remaining_time": "7h 5m 8s", "loss_scale": 1.0, "consumed_samples": 275200, "global_step/max_steps": "1075/6350"}
{"lm loss": 5.14715719, "grad_norm": 1.19019067, "learning_rate": 9.627e-05, "elapsed_time_per_iteration": 4.7652154, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 43s", "remaining_time": "7h 5m 3s", "loss_scale": 1.0, "consumed_samples": 275456, "global_step/max_steps": "1076/6350"}
{"lm loss": 5.14761305, "grad_norm": 1.70982897, "learning_rate": 9.626e-05, "elapsed_time_per_iteration": 4.85905743, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 48s", "remaining_time": "7h 4m 59s", "loss_scale": 1.0, "consumed_samples": 275712, "global_step/max_steps": "1077/6350"}
{"lm loss": 5.16771936, "grad_norm": 2.11172175, "learning_rate": 9.625e-05, "elapsed_time_per_iteration": 4.76244473, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 52s", "remaining_time": "7h 4m 53s", "loss_scale": 1.0, "consumed_samples": 275968, "global_step/max_steps": "1078/6350"}
{"lm loss": 5.16231775, "grad_norm": 1.06166923, "learning_rate": 9.624e-05, "elapsed_time_per_iteration": 4.77936721, "memory(GiB)": 28.03, "elapsed_time": "1h 26m 57s", "remaining_time": "7h 4m 48s", "loss_scale": 1.0, "consumed_samples": 276224, "global_step/max_steps": "1079/6350"}
{"lm loss": 5.16774511, "grad_norm": 2.38560557, "learning_rate": 9.623e-05, "elapsed_time_per_iteration": 4.70457959, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 2s", "remaining_time": "7h 4m 43s", "loss_scale": 1.0, "consumed_samples": 276480, "global_step/max_steps": "1080/6350"}
{"lm loss": 5.17893887, "grad_norm": 1.44326031, "learning_rate": 9.622e-05, "elapsed_time_per_iteration": 5.48966622, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 7s", "remaining_time": "7h 4m 41s", "loss_scale": 1.0, "consumed_samples": 276736, "global_step/max_steps": "1081/6350"}
{"lm loss": 5.17865944, "grad_norm": 2.07699966, "learning_rate": 9.621e-05, "elapsed_time_per_iteration": 4.68088603, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 12s", "remaining_time": "7h 4m 35s", "loss_scale": 1.0, "consumed_samples": 276992, "global_step/max_steps": "1082/6350"}
{"lm loss": 5.16533327, "grad_norm": 1.49424815, "learning_rate": 9.62e-05, "elapsed_time_per_iteration": 4.69827414, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 17s", "remaining_time": "7h 4m 30s", "loss_scale": 1.0, "consumed_samples": 277248, "global_step/max_steps": "1083/6350"}
{"lm loss": 5.17094374, "grad_norm": 1.75902236, "learning_rate": 9.619e-05, "elapsed_time_per_iteration": 4.75379705, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 21s", "remaining_time": "7h 4m 25s", "loss_scale": 1.0, "consumed_samples": 277504, "global_step/max_steps": "1084/6350"}
{"lm loss": 5.18854189, "grad_norm": 1.48903418, "learning_rate": 9.618e-05, "elapsed_time_per_iteration": 4.76853156, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 26s", "remaining_time": "7h 4m 20s", "loss_scale": 1.0, "consumed_samples": 277760, "global_step/max_steps": "1085/6350"}
{"lm loss": 5.16776991, "grad_norm": 2.12450004, "learning_rate": 9.617e-05, "elapsed_time_per_iteration": 4.72004104, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 31s", "remaining_time": "7h 4m 14s", "loss_scale": 1.0, "consumed_samples": 278016, "global_step/max_steps": "1086/6350"}
{"lm loss": 5.18185568, "grad_norm": 1.85333419, "learning_rate": 9.616e-05, "elapsed_time_per_iteration": 4.71357036, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 36s", "remaining_time": "7h 4m 9s", "loss_scale": 1.0, "consumed_samples": 278272, "global_step/max_steps": "1087/6350"}
{"lm loss": 5.17530346, "grad_norm": 0.95752215, "learning_rate": 9.615e-05, "elapsed_time_per_iteration": 4.71750975, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 40s", "remaining_time": "7h 4m 3s", "loss_scale": 1.0, "consumed_samples": 278528, "global_step/max_steps": "1088/6350"}
{"lm loss": 5.17209578, "grad_norm": 1.82238543, "learning_rate": 9.614e-05, "elapsed_time_per_iteration": 4.75738525, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 45s", "remaining_time": "7h 3m 58s", "loss_scale": 1.0, "consumed_samples": 278784, "global_step/max_steps": "1089/6350"}
{"lm loss": 5.17546082, "grad_norm": 2.08330655, "learning_rate": 9.613e-05, "elapsed_time_per_iteration": 5.09748387, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 50s", "remaining_time": "7h 3m 55s", "loss_scale": 1.0, "consumed_samples": 279040, "global_step/max_steps": "1090/6350"}
{"lm loss": 5.17745972, "grad_norm": 1.57797003, "learning_rate": 9.612e-05, "elapsed_time_per_iteration": 5.66469145, "memory(GiB)": 28.03, "elapsed_time": "1h 27m 56s", "remaining_time": "7h 3m 54s", "loss_scale": 1.0, "consumed_samples": 279296, "global_step/max_steps": "1091/6350"}
{"lm loss": 5.16719055, "grad_norm": 1.38770497, "learning_rate": 9.611e-05, "elapsed_time_per_iteration": 5.49372411, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 1s", "remaining_time": "7h 3m 52s", "loss_scale": 1.0, "consumed_samples": 279552, "global_step/max_steps": "1092/6350"}
{"lm loss": 5.17109585, "grad_norm": 1.66953516, "learning_rate": 9.61e-05, "elapsed_time_per_iteration": 4.73484635, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 6s", "remaining_time": "7h 3m 47s", "loss_scale": 1.0, "consumed_samples": 279808, "global_step/max_steps": "1093/6350"}
{"lm loss": 5.16486502, "grad_norm": 1.29848993, "learning_rate": 9.609e-05, "elapsed_time_per_iteration": 4.73506832, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 11s", "remaining_time": "7h 3m 41s", "loss_scale": 1.0, "consumed_samples": 280064, "global_step/max_steps": "1094/6350"}
{"lm loss": 5.19094372, "grad_norm": 1.71374154, "learning_rate": 9.608e-05, "elapsed_time_per_iteration": 4.75889993, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 16s", "remaining_time": "7h 3m 36s", "loss_scale": 1.0, "consumed_samples": 280320, "global_step/max_steps": "1095/6350"}
{"lm loss": 5.15239334, "grad_norm": 1.39121258, "learning_rate": 9.607e-05, "elapsed_time_per_iteration": 4.76203275, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 20s", "remaining_time": "7h 3m 31s", "loss_scale": 1.0, "consumed_samples": 280576, "global_step/max_steps": "1096/6350"}
{"lm loss": 5.16065598, "grad_norm": 1.86289346, "learning_rate": 9.606e-05, "elapsed_time_per_iteration": 5.42627883, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 26s", "remaining_time": "7h 3m 29s", "loss_scale": 1.0, "consumed_samples": 280832, "global_step/max_steps": "1097/6350"}
{"lm loss": 5.16303396, "grad_norm": 1.63312507, "learning_rate": 9.605e-05, "elapsed_time_per_iteration": 4.75139427, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 31s", "remaining_time": "7h 3m 24s", "loss_scale": 1.0, "consumed_samples": 281088, "global_step/max_steps": "1098/6350"}
{"lm loss": 5.17099142, "grad_norm": 2.01526952, "learning_rate": 9.604e-05, "elapsed_time_per_iteration": 4.77782655, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 35s", "remaining_time": "7h 3m 19s", "loss_scale": 1.0, "consumed_samples": 281344, "global_step/max_steps": "1099/6350"}
{"lm loss": 5.1696353, "grad_norm": 1.52581012, "learning_rate": 9.603e-05, "elapsed_time_per_iteration": 4.74130559, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 40s", "remaining_time": "7h 3m 13s", "loss_scale": 1.0, "consumed_samples": 281600, "global_step/max_steps": "1100/6350"}
{"lm loss": 5.15149736, "grad_norm": 2.01313281, "learning_rate": 9.602e-05, "elapsed_time_per_iteration": 5.31912398, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 45s", "remaining_time": "7h 3m 11s", "loss_scale": 1.0, "consumed_samples": 281856, "global_step/max_steps": "1101/6350"}
{"lm loss": 5.16181469, "grad_norm": 1.38852847, "learning_rate": 9.601e-05, "elapsed_time_per_iteration": 4.76755047, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 50s", "remaining_time": "7h 3m 6s", "loss_scale": 1.0, "consumed_samples": 282112, "global_step/max_steps": "1102/6350"}
{"lm loss": 5.15643406, "grad_norm": 1.7576946, "learning_rate": 9.6e-05, "elapsed_time_per_iteration": 4.72305822, "memory(GiB)": 28.03, "elapsed_time": "1h 28m 55s", "remaining_time": "7h 3m 0s", "loss_scale": 1.0, "consumed_samples": 282368, "global_step/max_steps": "1103/6350"}
{"lm loss": 5.17472172, "grad_norm": 1.32903755, "learning_rate": 9.599e-05, "elapsed_time_per_iteration": 4.83565044, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 0s", "remaining_time": "7h 2m 55s", "loss_scale": 1.0, "consumed_samples": 282624, "global_step/max_steps": "1104/6350"}
{"lm loss": 5.15778446, "grad_norm": 2.17596006, "learning_rate": 9.598e-05, "elapsed_time_per_iteration": 4.68042397, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 4s", "remaining_time": "7h 2m 50s", "loss_scale": 1.0, "consumed_samples": 282880, "global_step/max_steps": "1105/6350"}
{"lm loss": 5.15469503, "grad_norm": 1.40857351, "learning_rate": 9.597e-05, "elapsed_time_per_iteration": 4.74084473, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 9s", "remaining_time": "7h 2m 45s", "loss_scale": 1.0, "consumed_samples": 283136, "global_step/max_steps": "1106/6350"}
{"lm loss": 5.16285563, "grad_norm": 1.59590304, "learning_rate": 9.596e-05, "elapsed_time_per_iteration": 4.69669461, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 14s", "remaining_time": "7h 2m 39s", "loss_scale": 1.0, "consumed_samples": 283392, "global_step/max_steps": "1107/6350"}
{"lm loss": 5.1519866, "grad_norm": 1.18518507, "learning_rate": 9.595e-05, "elapsed_time_per_iteration": 4.77398276, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 19s", "remaining_time": "7h 2m 34s", "loss_scale": 1.0, "consumed_samples": 283648, "global_step/max_steps": "1108/6350"}
{"lm loss": 5.15611172, "grad_norm": 1.78086674, "learning_rate": 9.594e-05, "elapsed_time_per_iteration": 4.85397005, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 24s", "remaining_time": "7h 2m 29s", "loss_scale": 1.0, "consumed_samples": 283904, "global_step/max_steps": "1109/6350"}
{"lm loss": 5.15012264, "grad_norm": 1.40214849, "learning_rate": 9.593e-05, "elapsed_time_per_iteration": 4.80906749, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 28s", "remaining_time": "7h 2m 24s", "loss_scale": 1.0, "consumed_samples": 284160, "global_step/max_steps": "1110/6350"}
{"lm loss": 5.15923119, "grad_norm": 1.60709691, "learning_rate": 9.592e-05, "elapsed_time_per_iteration": 4.88335776, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 33s", "remaining_time": "7h 2m 20s", "loss_scale": 1.0, "consumed_samples": 284416, "global_step/max_steps": "1111/6350"}
{"lm loss": 5.17404079, "grad_norm": 1.31375766, "learning_rate": 9.591e-05, "elapsed_time_per_iteration": 4.82040691, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 38s", "remaining_time": "7h 2m 15s", "loss_scale": 1.0, "consumed_samples": 284672, "global_step/max_steps": "1112/6350"}
{"lm loss": 5.18170404, "grad_norm": 1.64363539, "learning_rate": 9.59e-05, "elapsed_time_per_iteration": 4.80155921, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 43s", "remaining_time": "7h 2m 10s", "loss_scale": 1.0, "consumed_samples": 284928, "global_step/max_steps": "1113/6350"}
{"lm loss": 5.1779871, "grad_norm": 1.58540761, "learning_rate": 9.589e-05, "elapsed_time_per_iteration": 4.8864677, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 48s", "remaining_time": "7h 2m 5s", "loss_scale": 1.0, "consumed_samples": 285184, "global_step/max_steps": "1114/6350"}
{"lm loss": 5.1564126, "grad_norm": 1.22498906, "learning_rate": 9.588e-05, "elapsed_time_per_iteration": 4.77189469, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 52s", "remaining_time": "7h 2m 0s", "loss_scale": 1.0, "consumed_samples": 285440, "global_step/max_steps": "1115/6350"}
{"lm loss": 5.14960003, "grad_norm": 1.88233173, "learning_rate": 9.587e-05, "elapsed_time_per_iteration": 4.78438616, "memory(GiB)": 28.03, "elapsed_time": "1h 29m 57s", "remaining_time": "7h 1m 55s", "loss_scale": 1.0, "consumed_samples": 285696, "global_step/max_steps": "1116/6350"}
{"lm loss": 5.15283394, "grad_norm": 2.11551213, "learning_rate": 9.586e-05, "elapsed_time_per_iteration": 4.79324508, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 2s", "remaining_time": "7h 1m 50s", "loss_scale": 1.0, "consumed_samples": 285952, "global_step/max_steps": "1117/6350"}
{"lm loss": 5.15214109, "grad_norm": 1.43308175, "learning_rate": 9.585e-05, "elapsed_time_per_iteration": 4.75847268, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 7s", "remaining_time": "7h 1m 45s", "loss_scale": 1.0, "consumed_samples": 286208, "global_step/max_steps": "1118/6350"}
{"lm loss": 5.17196989, "grad_norm": 1.99817586, "learning_rate": 9.584e-05, "elapsed_time_per_iteration": 4.7520175, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 12s", "remaining_time": "7h 1m 39s", "loss_scale": 1.0, "consumed_samples": 286464, "global_step/max_steps": "1119/6350"}
{"lm loss": 5.16953993, "grad_norm": 0.96249765, "learning_rate": 9.583e-05, "elapsed_time_per_iteration": 4.81159019, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 16s", "remaining_time": "7h 1m 34s", "loss_scale": 1.0, "consumed_samples": 286720, "global_step/max_steps": "1120/6350"}
{"lm loss": 5.17826605, "grad_norm": 2.31792521, "learning_rate": 9.582e-05, "elapsed_time_per_iteration": 4.71165204, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 21s", "remaining_time": "7h 1m 29s", "loss_scale": 1.0, "consumed_samples": 286976, "global_step/max_steps": "1121/6350"}
{"lm loss": 5.18386221, "grad_norm": 1.3144387, "learning_rate": 9.581e-05, "elapsed_time_per_iteration": 4.72080636, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 26s", "remaining_time": "7h 1m 24s", "loss_scale": 1.0, "consumed_samples": 287232, "global_step/max_steps": "1122/6350"}
{"lm loss": 5.16748142, "grad_norm": 1.84890401, "learning_rate": 9.579e-05, "elapsed_time_per_iteration": 4.71026325, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 31s", "remaining_time": "7h 1m 18s", "loss_scale": 1.0, "consumed_samples": 287488, "global_step/max_steps": "1123/6350"}
{"lm loss": 5.17192841, "grad_norm": 1.39288354, "learning_rate": 9.578e-05, "elapsed_time_per_iteration": 5.26583719, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 36s", "remaining_time": "7h 1m 15s", "loss_scale": 1.0, "consumed_samples": 287744, "global_step/max_steps": "1124/6350"}
{"lm loss": 5.16020298, "grad_norm": 1.85012054, "learning_rate": 9.577e-05, "elapsed_time_per_iteration": 4.85626817, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 41s", "remaining_time": "7h 1m 11s", "loss_scale": 1.0, "consumed_samples": 288000, "global_step/max_steps": "1125/6350"}
{"lm loss": 5.17351341, "grad_norm": 1.38734353, "learning_rate": 9.576e-05, "elapsed_time_per_iteration": 4.82059908, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 45s", "remaining_time": "7h 1m 6s", "loss_scale": 1.0, "consumed_samples": 288256, "global_step/max_steps": "1126/6350"}
{"lm loss": 5.12887239, "grad_norm": 1.53177428, "learning_rate": 9.575e-05, "elapsed_time_per_iteration": 5.19375014, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 51s", "remaining_time": "7h 1m 2s", "loss_scale": 1.0, "consumed_samples": 288512, "global_step/max_steps": "1127/6350"}
{"lm loss": 5.14332676, "grad_norm": 2.72098994, "learning_rate": 9.574e-05, "elapsed_time_per_iteration": 4.86491394, "memory(GiB)": 28.03, "elapsed_time": "1h 30m 56s", "remaining_time": "7h 0m 58s", "loss_scale": 1.0, "consumed_samples": 288768, "global_step/max_steps": "1128/6350"}
{"lm loss": 5.18065357, "grad_norm": 1.32530618, "learning_rate": 9.573e-05, "elapsed_time_per_iteration": 4.75158715, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 0s", "remaining_time": "7h 0m 53s", "loss_scale": 1.0, "consumed_samples": 289024, "global_step/max_steps": "1129/6350"}
{"lm loss": 5.14842939, "grad_norm": 1.7847718, "learning_rate": 9.572e-05, "elapsed_time_per_iteration": 4.74037719, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 5s", "remaining_time": "7h 0m 47s", "loss_scale": 1.0, "consumed_samples": 289280, "global_step/max_steps": "1130/6350"}
{"lm loss": 5.16390133, "grad_norm": 1.87707281, "learning_rate": 9.571e-05, "elapsed_time_per_iteration": 4.75571465, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 10s", "remaining_time": "7h 0m 42s", "loss_scale": 1.0, "consumed_samples": 289536, "global_step/max_steps": "1131/6350"}
{"lm loss": 5.1453166, "grad_norm": 1.95636535, "learning_rate": 9.57e-05, "elapsed_time_per_iteration": 4.82187247, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 15s", "remaining_time": "7h 0m 37s", "loss_scale": 1.0, "consumed_samples": 289792, "global_step/max_steps": "1132/6350"}
{"lm loss": 5.1629796, "grad_norm": 1.31026208, "learning_rate": 9.569e-05, "elapsed_time_per_iteration": 4.78220224, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 19s", "remaining_time": "7h 0m 32s", "loss_scale": 1.0, "consumed_samples": 290048, "global_step/max_steps": "1133/6350"}
{"lm loss": 5.1480279, "grad_norm": 1.82741284, "learning_rate": 9.568e-05, "elapsed_time_per_iteration": 4.73923659, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 24s", "remaining_time": "7h 0m 27s", "loss_scale": 1.0, "consumed_samples": 290304, "global_step/max_steps": "1134/6350"}
{"lm loss": 5.15189838, "grad_norm": 1.33766186, "learning_rate": 9.567e-05, "elapsed_time_per_iteration": 5.6909039, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 30s", "remaining_time": "7h 0m 26s", "loss_scale": 1.0, "consumed_samples": 290560, "global_step/max_steps": "1135/6350"}
{"lm loss": 5.1518693, "grad_norm": 1.47388625, "learning_rate": 9.566e-05, "elapsed_time_per_iteration": 4.74495816, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 35s", "remaining_time": "7h 0m 21s", "loss_scale": 1.0, "consumed_samples": 290816, "global_step/max_steps": "1136/6350"}
{"lm loss": 5.17490053, "grad_norm": 1.60087514, "learning_rate": 9.565e-05, "elapsed_time_per_iteration": 4.76691723, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 39s", "remaining_time": "7h 0m 15s", "loss_scale": 1.0, "consumed_samples": 291072, "global_step/max_steps": "1137/6350"}
{"lm loss": 5.15055227, "grad_norm": 1.78395355, "learning_rate": 9.564e-05, "elapsed_time_per_iteration": 4.789253, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 44s", "remaining_time": "7h 0m 10s", "loss_scale": 1.0, "consumed_samples": 291328, "global_step/max_steps": "1138/6350"}
{"lm loss": 5.14993763, "grad_norm": 1.48591566, "learning_rate": 9.563e-05, "elapsed_time_per_iteration": 4.73690248, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 49s", "remaining_time": "7h 0m 5s", "loss_scale": 1.0, "consumed_samples": 291584, "global_step/max_steps": "1139/6350"}
{"lm loss": 5.15529203, "grad_norm": 1.71267223, "learning_rate": 9.562e-05, "elapsed_time_per_iteration": 4.78000546, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 54s", "remaining_time": "7h 0m 0s", "loss_scale": 1.0, "consumed_samples": 291840, "global_step/max_steps": "1140/6350"}
{"lm loss": 5.16156673, "grad_norm": 1.43573856, "learning_rate": 9.561e-05, "elapsed_time_per_iteration": 5.63309193, "memory(GiB)": 28.03, "elapsed_time": "1h 31m 59s", "remaining_time": "6h 59m 59s", "loss_scale": 1.0, "consumed_samples": 292096, "global_step/max_steps": "1141/6350"}
{"lm loss": 5.15728712, "grad_norm": 1.78862238, "learning_rate": 9.56e-05, "elapsed_time_per_iteration": 4.77792716, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 4s", "remaining_time": "6h 59m 54s", "loss_scale": 1.0, "consumed_samples": 292352, "global_step/max_steps": "1142/6350"}
{"lm loss": 5.1615634, "grad_norm": 1.24501371, "learning_rate": 9.559e-05, "elapsed_time_per_iteration": 5.7784791, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 10s", "remaining_time": "6h 59m 53s", "loss_scale": 1.0, "consumed_samples": 292608, "global_step/max_steps": "1143/6350"}
{"lm loss": 5.14373207, "grad_norm": 2.20373702, "learning_rate": 9.558e-05, "elapsed_time_per_iteration": 4.77979088, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 15s", "remaining_time": "6h 59m 48s", "loss_scale": 1.0, "consumed_samples": 292864, "global_step/max_steps": "1144/6350"}
{"lm loss": 5.17185974, "grad_norm": 1.10236228, "learning_rate": 9.557e-05, "elapsed_time_per_iteration": 4.78672814, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 19s", "remaining_time": "6h 59m 43s", "loss_scale": 1.0, "consumed_samples": 293120, "global_step/max_steps": "1145/6350"}
{"lm loss": 5.14592075, "grad_norm": 1.38521385, "learning_rate": 9.556e-05, "elapsed_time_per_iteration": 4.73335719, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 24s", "remaining_time": "6h 59m 38s", "loss_scale": 1.0, "consumed_samples": 293376, "global_step/max_steps": "1146/6350"}
{"lm loss": 5.1782999, "grad_norm": 1.60887146, "learning_rate": 9.554e-05, "elapsed_time_per_iteration": 4.78778386, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 29s", "remaining_time": "6h 59m 33s", "loss_scale": 1.0, "consumed_samples": 293632, "global_step/max_steps": "1147/6350"}
{"lm loss": 5.15180302, "grad_norm": 1.7952106, "learning_rate": 9.553e-05, "elapsed_time_per_iteration": 4.69044733, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 34s", "remaining_time": "6h 59m 27s", "loss_scale": 1.0, "consumed_samples": 293888, "global_step/max_steps": "1148/6350"}
{"lm loss": 5.15662241, "grad_norm": 1.75233567, "learning_rate": 9.552e-05, "elapsed_time_per_iteration": 4.74990821, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 38s", "remaining_time": "6h 59m 22s", "loss_scale": 1.0, "consumed_samples": 294144, "global_step/max_steps": "1149/6350"}
{"lm loss": 5.15664673, "grad_norm": 1.13039088, "learning_rate": 9.551e-05, "elapsed_time_per_iteration": 4.79641175, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 43s", "remaining_time": "6h 59m 17s", "loss_scale": 1.0, "consumed_samples": 294400, "global_step/max_steps": "1150/6350"}
{"lm loss": 5.15245724, "grad_norm": 1.40069354, "learning_rate": 9.55e-05, "elapsed_time_per_iteration": 4.79892135, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 48s", "remaining_time": "6h 59m 12s", "loss_scale": 1.0, "consumed_samples": 294656, "global_step/max_steps": "1151/6350"}
{"lm loss": 5.16124296, "grad_norm": 1.92856359, "learning_rate": 9.549e-05, "elapsed_time_per_iteration": 4.80897117, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 53s", "remaining_time": "6h 59m 7s", "loss_scale": 1.0, "consumed_samples": 294912, "global_step/max_steps": "1152/6350"}
{"lm loss": 5.1520462, "grad_norm": 1.15930593, "learning_rate": 9.548e-05, "elapsed_time_per_iteration": 4.73502421, "memory(GiB)": 28.03, "elapsed_time": "1h 32m 57s", "remaining_time": "6h 59m 2s", "loss_scale": 1.0, "consumed_samples": 295168, "global_step/max_steps": "1153/6350"}
{"lm loss": 5.14985418, "grad_norm": 1.57955658, "learning_rate": 9.547e-05, "elapsed_time_per_iteration": 4.72709537, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 2s", "remaining_time": "6h 58m 56s", "loss_scale": 1.0, "consumed_samples": 295424, "global_step/max_steps": "1154/6350"}
{"lm loss": 5.15710688, "grad_norm": 1.4149096, "learning_rate": 9.546e-05, "elapsed_time_per_iteration": 5.49832106, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 8s", "remaining_time": "6h 58m 54s", "loss_scale": 1.0, "consumed_samples": 295680, "global_step/max_steps": "1155/6350"}
{"lm loss": 5.1464715, "grad_norm": 1.80933833, "learning_rate": 9.545e-05, "elapsed_time_per_iteration": 4.77982712, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 12s", "remaining_time": "6h 58m 49s", "loss_scale": 1.0, "consumed_samples": 295936, "global_step/max_steps": "1156/6350"}
{"lm loss": 5.14736366, "grad_norm": 1.96775341, "learning_rate": 9.544e-05, "elapsed_time_per_iteration": 4.77925658, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 17s", "remaining_time": "6h 58m 44s", "loss_scale": 1.0, "consumed_samples": 296192, "global_step/max_steps": "1157/6350"}
{"lm loss": 5.14981937, "grad_norm": 1.11047935, "learning_rate": 9.543e-05, "elapsed_time_per_iteration": 4.78954816, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 22s", "remaining_time": "6h 58m 39s", "loss_scale": 1.0, "consumed_samples": 296448, "global_step/max_steps": "1158/6350"}
{"lm loss": 5.14656401, "grad_norm": 1.85462546, "learning_rate": 9.542e-05, "elapsed_time_per_iteration": 5.44014287, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 27s", "remaining_time": "6h 58m 37s", "loss_scale": 1.0, "consumed_samples": 296704, "global_step/max_steps": "1159/6350"}
{"lm loss": 5.16436768, "grad_norm": 1.15881455, "learning_rate": 9.541e-05, "elapsed_time_per_iteration": 5.49281144, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 33s", "remaining_time": "6h 58m 35s", "loss_scale": 1.0, "consumed_samples": 296960, "global_step/max_steps": "1160/6350"}
{"lm loss": 5.1584034, "grad_norm": 1.54351461, "learning_rate": 9.54e-05, "elapsed_time_per_iteration": 4.79638934, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 38s", "remaining_time": "6h 58m 30s", "loss_scale": 1.0, "consumed_samples": 297216, "global_step/max_steps": "1161/6350"}
{"lm loss": 5.13996458, "grad_norm": 1.47106302, "learning_rate": 9.538e-05, "elapsed_time_per_iteration": 4.74567962, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 43s", "remaining_time": "6h 58m 25s", "loss_scale": 1.0, "consumed_samples": 297472, "global_step/max_steps": "1162/6350"}
{"lm loss": 5.16068554, "grad_norm": 1.65953326, "learning_rate": 9.537e-05, "elapsed_time_per_iteration": 4.69408178, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 47s", "remaining_time": "6h 58m 19s", "loss_scale": 1.0, "consumed_samples": 297728, "global_step/max_steps": "1163/6350"}
{"lm loss": 5.14465189, "grad_norm": 1.60296929, "learning_rate": 9.536e-05, "elapsed_time_per_iteration": 4.77199268, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 52s", "remaining_time": "6h 58m 14s", "loss_scale": 1.0, "consumed_samples": 297984, "global_step/max_steps": "1164/6350"}
{"lm loss": 5.14027405, "grad_norm": 1.11317647, "learning_rate": 9.535e-05, "elapsed_time_per_iteration": 4.72016215, "memory(GiB)": 28.03, "elapsed_time": "1h 33m 57s", "remaining_time": "6h 58m 9s", "loss_scale": 1.0, "consumed_samples": 298240, "global_step/max_steps": "1165/6350"}
{"lm loss": 5.1501379, "grad_norm": 2.06434631, "learning_rate": 9.534e-05, "elapsed_time_per_iteration": 4.81657147, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 2s", "remaining_time": "6h 58m 4s", "loss_scale": 1.0, "consumed_samples": 298496, "global_step/max_steps": "1166/6350"}
{"lm loss": 5.15067387, "grad_norm": 1.51819956, "learning_rate": 9.533e-05, "elapsed_time_per_iteration": 4.81557178, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 6s", "remaining_time": "6h 57m 59s", "loss_scale": 1.0, "consumed_samples": 298752, "global_step/max_steps": "1167/6350"}
{"lm loss": 5.1421895, "grad_norm": 1.47178793, "learning_rate": 9.532e-05, "elapsed_time_per_iteration": 4.71520257, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 11s", "remaining_time": "6h 57m 53s", "loss_scale": 1.0, "consumed_samples": 299008, "global_step/max_steps": "1168/6350"}
{"lm loss": 5.15521622, "grad_norm": 1.49414122, "learning_rate": 9.531e-05, "elapsed_time_per_iteration": 4.7186079, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 16s", "remaining_time": "6h 57m 48s", "loss_scale": 1.0, "consumed_samples": 299264, "global_step/max_steps": "1169/6350"}
{"lm loss": 5.1293993, "grad_norm": 1.46228921, "learning_rate": 9.53e-05, "elapsed_time_per_iteration": 4.77036428, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 21s", "remaining_time": "6h 57m 43s", "loss_scale": 1.0, "consumed_samples": 299520, "global_step/max_steps": "1170/6350"}
{"lm loss": 5.15923929, "grad_norm": 1.23952007, "learning_rate": 9.529e-05, "elapsed_time_per_iteration": 4.77760935, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 25s", "remaining_time": "6h 57m 38s", "loss_scale": 1.0, "consumed_samples": 299776, "global_step/max_steps": "1171/6350"}
{"lm loss": 5.15695763, "grad_norm": 1.3430655, "learning_rate": 9.528e-05, "elapsed_time_per_iteration": 5.50479317, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 31s", "remaining_time": "6h 57m 36s", "loss_scale": 1.0, "consumed_samples": 300032, "global_step/max_steps": "1172/6350"}
{"lm loss": 5.16817379, "grad_norm": 1.22634816, "learning_rate": 9.527e-05, "elapsed_time_per_iteration": 4.852, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 36s", "remaining_time": "6h 57m 31s", "loss_scale": 1.0, "consumed_samples": 300288, "global_step/max_steps": "1173/6350"}
{"lm loss": 5.1599555, "grad_norm": 1.53682458, "learning_rate": 9.525e-05, "elapsed_time_per_iteration": 4.7872808, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 40s", "remaining_time": "6h 57m 26s", "loss_scale": 1.0, "consumed_samples": 300544, "global_step/max_steps": "1174/6350"}
{"lm loss": 5.11579609, "grad_norm": 1.8915571, "learning_rate": 9.524e-05, "elapsed_time_per_iteration": 4.75761032, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 45s", "remaining_time": "6h 57m 21s", "loss_scale": 1.0, "consumed_samples": 300800, "global_step/max_steps": "1175/6350"}
{"lm loss": 5.14792776, "grad_norm": 1.43473983, "learning_rate": 9.523e-05, "elapsed_time_per_iteration": 4.7041707, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 50s", "remaining_time": "6h 57m 15s", "loss_scale": 1.0, "consumed_samples": 301056, "global_step/max_steps": "1176/6350"}
{"lm loss": 5.14559412, "grad_norm": 2.13999915, "learning_rate": 9.522e-05, "elapsed_time_per_iteration": 4.75428963, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 55s", "remaining_time": "6h 57m 10s", "loss_scale": 1.0, "consumed_samples": 301312, "global_step/max_steps": "1177/6350"}
{"lm loss": 5.15937042, "grad_norm": 0.89924723, "learning_rate": 9.521e-05, "elapsed_time_per_iteration": 4.68507838, "memory(GiB)": 28.03, "elapsed_time": "1h 34m 59s", "remaining_time": "6h 57m 5s", "loss_scale": 1.0, "consumed_samples": 301568, "global_step/max_steps": "1178/6350"}
{"lm loss": 5.12575293, "grad_norm": 2.1513679, "learning_rate": 9.52e-05, "elapsed_time_per_iteration": 4.71614599, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 4s", "remaining_time": "6h 56m 59s", "loss_scale": 1.0, "consumed_samples": 301824, "global_step/max_steps": "1179/6350"}
{"lm loss": 5.15061998, "grad_norm": 1.26050949, "learning_rate": 9.519e-05, "elapsed_time_per_iteration": 4.71537256, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 9s", "remaining_time": "6h 56m 54s", "loss_scale": 1.0, "consumed_samples": 302080, "global_step/max_steps": "1180/6350"}
{"lm loss": 5.15289974, "grad_norm": 1.77967167, "learning_rate": 9.518e-05, "elapsed_time_per_iteration": 4.71042895, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 14s", "remaining_time": "6h 56m 49s", "loss_scale": 1.0, "consumed_samples": 302336, "global_step/max_steps": "1181/6350"}
{"lm loss": 5.15818024, "grad_norm": 1.44499791, "learning_rate": 9.517e-05, "elapsed_time_per_iteration": 4.68759274, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 18s", "remaining_time": "6h 56m 43s", "loss_scale": 1.0, "consumed_samples": 302592, "global_step/max_steps": "1182/6350"}
{"lm loss": 5.14689445, "grad_norm": 1.78987253, "learning_rate": 9.516e-05, "elapsed_time_per_iteration": 4.76203442, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 23s", "remaining_time": "6h 56m 38s", "loss_scale": 1.0, "consumed_samples": 302848, "global_step/max_steps": "1183/6350"}
{"lm loss": 5.16033506, "grad_norm": 1.65510738, "learning_rate": 9.515e-05, "elapsed_time_per_iteration": 4.7581017, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 28s", "remaining_time": "6h 56m 33s", "loss_scale": 1.0, "consumed_samples": 303104, "global_step/max_steps": "1184/6350"}
{"lm loss": 5.15057993, "grad_norm": 1.66747284, "learning_rate": 9.513e-05, "elapsed_time_per_iteration": 4.72081614, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 32s", "remaining_time": "6h 56m 27s", "loss_scale": 1.0, "consumed_samples": 303360, "global_step/max_steps": "1185/6350"}
{"lm loss": 5.1354475, "grad_norm": 1.53198397, "learning_rate": 9.512e-05, "elapsed_time_per_iteration": 5.49943638, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 38s", "remaining_time": "6h 56m 25s", "loss_scale": 1.0, "consumed_samples": 303616, "global_step/max_steps": "1186/6350"}
{"lm loss": 5.14199114, "grad_norm": 1.59211254, "learning_rate": 9.511e-05, "elapsed_time_per_iteration": 4.68121743, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 43s", "remaining_time": "6h 56m 20s", "loss_scale": 1.0, "consumed_samples": 303872, "global_step/max_steps": "1187/6350"}
{"lm loss": 5.13095617, "grad_norm": 1.55652225, "learning_rate": 9.51e-05, "elapsed_time_per_iteration": 4.66081691, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 47s", "remaining_time": "6h 56m 14s", "loss_scale": 1.0, "consumed_samples": 304128, "global_step/max_steps": "1188/6350"}
{"lm loss": 5.11397982, "grad_norm": 1.37685049, "learning_rate": 9.509e-05, "elapsed_time_per_iteration": 4.67657399, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 52s", "remaining_time": "6h 56m 9s", "loss_scale": 1.0, "consumed_samples": 304384, "global_step/max_steps": "1189/6350"}
{"lm loss": 5.14275455, "grad_norm": 1.67013061, "learning_rate": 9.508e-05, "elapsed_time_per_iteration": 4.65240645, "memory(GiB)": 28.03, "elapsed_time": "1h 35m 57s", "remaining_time": "6h 56m 3s", "loss_scale": 1.0, "consumed_samples": 304640, "global_step/max_steps": "1190/6350"}
{"lm loss": 5.13695288, "grad_norm": 1.49478483, "learning_rate": 9.507e-05, "elapsed_time_per_iteration": 4.6744647, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 1s", "remaining_time": "6h 55m 58s", "loss_scale": 1.0, "consumed_samples": 304896, "global_step/max_steps": "1191/6350"}
{"lm loss": 5.14089489, "grad_norm": 1.80536759, "learning_rate": 9.506e-05, "elapsed_time_per_iteration": 4.79866529, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 6s", "remaining_time": "6h 55m 53s", "loss_scale": 1.0, "consumed_samples": 305152, "global_step/max_steps": "1192/6350"}
{"lm loss": 5.16340113, "grad_norm": 0.88190073, "learning_rate": 9.505e-05, "elapsed_time_per_iteration": 4.73122334, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 11s", "remaining_time": "6h 55m 47s", "loss_scale": 1.0, "consumed_samples": 305408, "global_step/max_steps": "1193/6350"}
{"lm loss": 5.13590097, "grad_norm": 1.40071344, "learning_rate": 9.503e-05, "elapsed_time_per_iteration": 4.70008039, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 16s", "remaining_time": "6h 55m 42s", "loss_scale": 1.0, "consumed_samples": 305664, "global_step/max_steps": "1194/6350"}
{"lm loss": 5.12321615, "grad_norm": 1.37762761, "learning_rate": 9.502e-05, "elapsed_time_per_iteration": 4.743958, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 20s", "remaining_time": "6h 55m 37s", "loss_scale": 1.0, "consumed_samples": 305920, "global_step/max_steps": "1195/6350"}
{"lm loss": 5.15203857, "grad_norm": 1.71872556, "learning_rate": 9.501e-05, "elapsed_time_per_iteration": 5.47484994, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 26s", "remaining_time": "6h 55m 35s", "loss_scale": 1.0, "consumed_samples": 306176, "global_step/max_steps": "1196/6350"}
{"lm loss": 5.16629362, "grad_norm": 1.66097891, "learning_rate": 9.5e-05, "elapsed_time_per_iteration": 4.73099446, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 30s", "remaining_time": "6h 55m 29s", "loss_scale": 1.0, "consumed_samples": 306432, "global_step/max_steps": "1197/6350"}
{"lm loss": 5.15429735, "grad_norm": 1.67918539, "learning_rate": 9.499e-05, "elapsed_time_per_iteration": 4.73427844, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 35s", "remaining_time": "6h 55m 24s", "loss_scale": 1.0, "consumed_samples": 306688, "global_step/max_steps": "1198/6350"}
{"lm loss": 5.15044594, "grad_norm": 1.96498358, "learning_rate": 9.498e-05, "elapsed_time_per_iteration": 4.73851562, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 40s", "remaining_time": "6h 55m 19s", "loss_scale": 1.0, "consumed_samples": 306944, "global_step/max_steps": "1199/6350"}
{"lm loss": 5.1326437, "grad_norm": 1.14401984, "learning_rate": 9.497e-05, "elapsed_time_per_iteration": 4.70040464, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 45s", "remaining_time": "6h 55m 13s", "loss_scale": 1.0, "consumed_samples": 307200, "global_step/max_steps": "1200/6350"}
{"lm loss": 5.1325202, "grad_norm": 3.09456444, "learning_rate": 9.496e-05, "elapsed_time_per_iteration": 4.73026872, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 49s", "remaining_time": "6h 55m 8s", "loss_scale": 1.0, "consumed_samples": 307456, "global_step/max_steps": "1201/6350"}
{"lm loss": 5.14265108, "grad_norm": 1.42340076, "learning_rate": 9.495e-05, "elapsed_time_per_iteration": 4.74455953, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 54s", "remaining_time": "6h 55m 3s", "loss_scale": 1.0, "consumed_samples": 307712, "global_step/max_steps": "1202/6350"}
{"lm loss": 5.14713526, "grad_norm": 2.96720862, "learning_rate": 9.493e-05, "elapsed_time_per_iteration": 4.69304514, "memory(GiB)": 28.03, "elapsed_time": "1h 36m 59s", "remaining_time": "6h 54m 57s", "loss_scale": 1.0, "consumed_samples": 307968, "global_step/max_steps": "1203/6350"}
{"lm loss": 5.14250231, "grad_norm": 2.02318168, "learning_rate": 9.492e-05, "elapsed_time_per_iteration": 5.51118469, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 4s", "remaining_time": "6h 54m 55s", "loss_scale": 1.0, "consumed_samples": 308224, "global_step/max_steps": "1204/6350"}
{"lm loss": 5.15085793, "grad_norm": 2.31059051, "learning_rate": 9.491e-05, "elapsed_time_per_iteration": 5.76743984, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 10s", "remaining_time": "6h 54m 54s", "loss_scale": 1.0, "consumed_samples": 308480, "global_step/max_steps": "1205/6350"}
{"lm loss": 5.14247751, "grad_norm": 1.7354399, "learning_rate": 9.49e-05, "elapsed_time_per_iteration": 4.75668049, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 15s", "remaining_time": "6h 54m 49s", "loss_scale": 1.0, "consumed_samples": 308736, "global_step/max_steps": "1206/6350"}
{"lm loss": 5.13447046, "grad_norm": 1.37218809, "learning_rate": 9.489e-05, "elapsed_time_per_iteration": 4.82324719, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 20s", "remaining_time": "6h 54m 44s", "loss_scale": 1.0, "consumed_samples": 308992, "global_step/max_steps": "1207/6350"}
{"lm loss": 5.1300931, "grad_norm": 1.5766536, "learning_rate": 9.488e-05, "elapsed_time_per_iteration": 4.75444412, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 24s", "remaining_time": "6h 54m 39s", "loss_scale": 1.0, "consumed_samples": 309248, "global_step/max_steps": "1208/6350"}
{"lm loss": 5.13088655, "grad_norm": 1.88943851, "learning_rate": 9.487e-05, "elapsed_time_per_iteration": 4.7010529, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 29s", "remaining_time": "6h 54m 34s", "loss_scale": 1.0, "consumed_samples": 309504, "global_step/max_steps": "1209/6350"}
{"lm loss": 5.12575436, "grad_norm": 1.18855596, "learning_rate": 9.485e-05, "elapsed_time_per_iteration": 4.70293784, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 34s", "remaining_time": "6h 54m 28s", "loss_scale": 1.0, "consumed_samples": 309760, "global_step/max_steps": "1210/6350"}
{"lm loss": 5.14090538, "grad_norm": 1.33540297, "learning_rate": 9.484e-05, "elapsed_time_per_iteration": 4.72527099, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 39s", "remaining_time": "6h 54m 23s", "loss_scale": 1.0, "consumed_samples": 310016, "global_step/max_steps": "1211/6350"}
{"lm loss": 5.13841772, "grad_norm": 1.48678136, "learning_rate": 9.483e-05, "elapsed_time_per_iteration": 4.80285096, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 43s", "remaining_time": "6h 54m 18s", "loss_scale": 1.0, "consumed_samples": 310272, "global_step/max_steps": "1212/6350"}
{"lm loss": 5.12399912, "grad_norm": 1.52555692, "learning_rate": 9.482e-05, "elapsed_time_per_iteration": 5.30916381, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 49s", "remaining_time": "6h 54m 15s", "loss_scale": 1.0, "consumed_samples": 310528, "global_step/max_steps": "1213/6350"}
{"lm loss": 5.12945557, "grad_norm": 1.30056036, "learning_rate": 9.481e-05, "elapsed_time_per_iteration": 5.54268408, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 54s", "remaining_time": "6h 54m 13s", "loss_scale": 1.0, "consumed_samples": 310784, "global_step/max_steps": "1214/6350"}
{"lm loss": 5.11730385, "grad_norm": 1.74358821, "learning_rate": 9.48e-05, "elapsed_time_per_iteration": 4.67463827, "memory(GiB)": 28.03, "elapsed_time": "1h 37m 59s", "remaining_time": "6h 54m 8s", "loss_scale": 1.0, "consumed_samples": 311040, "global_step/max_steps": "1215/6350"}
{"lm loss": 5.13984728, "grad_norm": 1.62786829, "learning_rate": 9.479e-05, "elapsed_time_per_iteration": 4.77702308, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 4s", "remaining_time": "6h 54m 3s", "loss_scale": 1.0, "consumed_samples": 311296, "global_step/max_steps": "1216/6350"}
{"lm loss": 5.1445756, "grad_norm": 1.43438804, "learning_rate": 9.478e-05, "elapsed_time_per_iteration": 4.73925519, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 8s", "remaining_time": "6h 53m 57s", "loss_scale": 1.0, "consumed_samples": 311552, "global_step/max_steps": "1217/6350"}
{"lm loss": 5.14745855, "grad_norm": 1.65703201, "learning_rate": 9.476e-05, "elapsed_time_per_iteration": 4.69759202, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 13s", "remaining_time": "6h 53m 52s", "loss_scale": 1.0, "consumed_samples": 311808, "global_step/max_steps": "1218/6350"}
{"lm loss": 5.13602018, "grad_norm": 1.52199304, "learning_rate": 9.475e-05, "elapsed_time_per_iteration": 4.74579811, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 18s", "remaining_time": "6h 53m 47s", "loss_scale": 1.0, "consumed_samples": 312064, "global_step/max_steps": "1219/6350"}
{"lm loss": 5.13966703, "grad_norm": 1.29820096, "learning_rate": 9.474e-05, "elapsed_time_per_iteration": 4.69006371, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 23s", "remaining_time": "6h 53m 41s", "loss_scale": 1.0, "consumed_samples": 312320, "global_step/max_steps": "1220/6350"}
{"lm loss": 5.12883806, "grad_norm": 1.49472594, "learning_rate": 9.473e-05, "elapsed_time_per_iteration": 4.76186728, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 27s", "remaining_time": "6h 53m 36s", "loss_scale": 1.0, "consumed_samples": 312576, "global_step/max_steps": "1221/6350"}
{"lm loss": 5.13104486, "grad_norm": 1.78138888, "learning_rate": 9.472e-05, "elapsed_time_per_iteration": 4.73858547, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 32s", "remaining_time": "6h 53m 31s", "loss_scale": 1.0, "consumed_samples": 312832, "global_step/max_steps": "1222/6350"}
{"lm loss": 5.13324261, "grad_norm": 1.38168514, "learning_rate": 9.471e-05, "elapsed_time_per_iteration": 4.72794986, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 37s", "remaining_time": "6h 53m 26s", "loss_scale": 1.0, "consumed_samples": 313088, "global_step/max_steps": "1223/6350"}
{"lm loss": 5.12112856, "grad_norm": 1.64967442, "learning_rate": 9.47e-05, "elapsed_time_per_iteration": 4.73643732, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 41s", "remaining_time": "6h 53m 20s", "loss_scale": 1.0, "consumed_samples": 313344, "global_step/max_steps": "1224/6350"}
{"lm loss": 5.12156725, "grad_norm": 0.86974406, "learning_rate": 9.468e-05, "elapsed_time_per_iteration": 4.67552733, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 46s", "remaining_time": "6h 53m 15s", "loss_scale": 1.0, "consumed_samples": 313600, "global_step/max_steps": "1225/6350"}
{"lm loss": 5.13184166, "grad_norm": 1.5903554, "learning_rate": 9.467e-05, "elapsed_time_per_iteration": 4.848593, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 51s", "remaining_time": "6h 53m 10s", "loss_scale": 1.0, "consumed_samples": 313856, "global_step/max_steps": "1226/6350"}
{"lm loss": 5.12231493, "grad_norm": 1.54535055, "learning_rate": 9.466e-05, "elapsed_time_per_iteration": 4.72832012, "memory(GiB)": 28.03, "elapsed_time": "1h 38m 56s", "remaining_time": "6h 53m 5s", "loss_scale": 1.0, "consumed_samples": 314112, "global_step/max_steps": "1227/6350"}
{"lm loss": 5.11793995, "grad_norm": 1.23315465, "learning_rate": 9.465e-05, "elapsed_time_per_iteration": 4.70123672, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 0s", "remaining_time": "6h 52m 59s", "loss_scale": 1.0, "consumed_samples": 314368, "global_step/max_steps": "1228/6350"}
{"lm loss": 5.1475606, "grad_norm": 1.31259787, "learning_rate": 9.464e-05, "elapsed_time_per_iteration": 5.75333881, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 6s", "remaining_time": "6h 52m 58s", "loss_scale": 1.0, "consumed_samples": 314624, "global_step/max_steps": "1229/6350"}
{"lm loss": 5.13461113, "grad_norm": 1.25799537, "learning_rate": 9.463e-05, "elapsed_time_per_iteration": 4.71657133, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 11s", "remaining_time": "6h 52m 53s", "loss_scale": 1.0, "consumed_samples": 314880, "global_step/max_steps": "1230/6350"}
{"lm loss": 5.14418936, "grad_norm": 1.54362583, "learning_rate": 9.461e-05, "elapsed_time_per_iteration": 4.74860358, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 16s", "remaining_time": "6h 52m 48s", "loss_scale": 1.0, "consumed_samples": 315136, "global_step/max_steps": "1231/6350"}
{"lm loss": 5.1437068, "grad_norm": 1.38653326, "learning_rate": 9.46e-05, "elapsed_time_per_iteration": 4.80681586, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 20s", "remaining_time": "6h 52m 43s", "loss_scale": 1.0, "consumed_samples": 315392, "global_step/max_steps": "1232/6350"}
{"lm loss": 5.12727261, "grad_norm": 1.28842747, "learning_rate": 9.459e-05, "elapsed_time_per_iteration": 4.74120092, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 25s", "remaining_time": "6h 52m 37s", "loss_scale": 1.0, "consumed_samples": 315648, "global_step/max_steps": "1233/6350"}
{"lm loss": 5.13036823, "grad_norm": 2.35667348, "learning_rate": 9.458e-05, "elapsed_time_per_iteration": 4.69864917, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 30s", "remaining_time": "6h 52m 32s", "loss_scale": 1.0, "consumed_samples": 315904, "global_step/max_steps": "1234/6350"}
{"lm loss": 5.13301611, "grad_norm": 1.02993464, "learning_rate": 9.457e-05, "elapsed_time_per_iteration": 4.7549262, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 35s", "remaining_time": "6h 52m 27s", "loss_scale": 1.0, "consumed_samples": 316160, "global_step/max_steps": "1235/6350"}
{"lm loss": 5.15434313, "grad_norm": 2.75434422, "learning_rate": 9.456e-05, "elapsed_time_per_iteration": 4.74222422, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 39s", "remaining_time": "6h 52m 22s", "loss_scale": 1.0, "consumed_samples": 316416, "global_step/max_steps": "1236/6350"}
{"lm loss": 5.14568853, "grad_norm": 1.76701581, "learning_rate": 9.454e-05, "elapsed_time_per_iteration": 4.72727489, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 44s", "remaining_time": "6h 52m 16s", "loss_scale": 1.0, "consumed_samples": 316672, "global_step/max_steps": "1237/6350"}
{"lm loss": 5.12520981, "grad_norm": 1.70026255, "learning_rate": 9.453e-05, "elapsed_time_per_iteration": 4.8148489, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 49s", "remaining_time": "6h 52m 11s", "loss_scale": 1.0, "consumed_samples": 316928, "global_step/max_steps": "1238/6350"}
{"lm loss": 5.13283968, "grad_norm": 1.92390609, "learning_rate": 9.452e-05, "elapsed_time_per_iteration": 4.66674185, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 54s", "remaining_time": "6h 52m 6s", "loss_scale": 1.0, "consumed_samples": 317184, "global_step/max_steps": "1239/6350"}
{"lm loss": 5.13109875, "grad_norm": 1.27725887, "learning_rate": 9.451e-05, "elapsed_time_per_iteration": 4.71903992, "memory(GiB)": 28.03, "elapsed_time": "1h 39m 58s", "remaining_time": "6h 52m 1s", "loss_scale": 1.0, "consumed_samples": 317440, "global_step/max_steps": "1240/6350"}
{"lm loss": 5.13907766, "grad_norm": 1.61941683, "learning_rate": 9.45e-05, "elapsed_time_per_iteration": 4.73422241, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 3s", "remaining_time": "6h 51m 55s", "loss_scale": 1.0, "consumed_samples": 317696, "global_step/max_steps": "1241/6350"}
{"lm loss": 5.11527967, "grad_norm": 1.60082781, "learning_rate": 9.449e-05, "elapsed_time_per_iteration": 5.48453331, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 9s", "remaining_time": "6h 51m 53s", "loss_scale": 1.0, "consumed_samples": 317952, "global_step/max_steps": "1242/6350"}
{"lm loss": 5.1283865, "grad_norm": 1.70385349, "learning_rate": 9.447e-05, "elapsed_time_per_iteration": 5.6759398, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 14s", "remaining_time": "6h 51m 52s", "loss_scale": 1.0, "consumed_samples": 318208, "global_step/max_steps": "1243/6350"}
{"lm loss": 5.14542437, "grad_norm": 1.65516686, "learning_rate": 9.446e-05, "elapsed_time_per_iteration": 6.00879955, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 20s", "remaining_time": "6h 51m 52s", "loss_scale": 1.0, "consumed_samples": 318464, "global_step/max_steps": "1244/6350"}
{"lm loss": 5.14233255, "grad_norm": 1.21519446, "learning_rate": 9.445e-05, "elapsed_time_per_iteration": 4.74342704, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 25s", "remaining_time": "6h 51m 46s", "loss_scale": 1.0, "consumed_samples": 318720, "global_step/max_steps": "1245/6350"}
{"lm loss": 5.12074137, "grad_norm": 1.55330873, "learning_rate": 9.444e-05, "elapsed_time_per_iteration": 4.74285507, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 30s", "remaining_time": "6h 51m 41s", "loss_scale": 1.0, "consumed_samples": 318976, "global_step/max_steps": "1246/6350"}
{"lm loss": 5.12545347, "grad_norm": 1.3581754, "learning_rate": 9.443e-05, "elapsed_time_per_iteration": 4.88789582, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 35s", "remaining_time": "6h 51m 37s", "loss_scale": 1.0, "consumed_samples": 319232, "global_step/max_steps": "1247/6350"}
{"lm loss": 5.13702583, "grad_norm": 1.77693057, "learning_rate": 9.442e-05, "elapsed_time_per_iteration": 4.73596692, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 39s", "remaining_time": "6h 51m 31s", "loss_scale": 1.0, "consumed_samples": 319488, "global_step/max_steps": "1248/6350"}
{"lm loss": 5.12896538, "grad_norm": 1.67542207, "learning_rate": 9.44e-05, "elapsed_time_per_iteration": 4.77447796, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 44s", "remaining_time": "6h 51m 26s", "loss_scale": 1.0, "consumed_samples": 319744, "global_step/max_steps": "1249/6350"}
{"lm loss": 5.13430452, "grad_norm": 1.30277586, "learning_rate": 9.439e-05, "elapsed_time_per_iteration": 5.29339838, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 49s", "remaining_time": "6h 51m 23s", "loss_scale": 1.0, "consumed_samples": 320000, "global_step/max_steps": "1250/6350"}
{"lm loss": 5.13650274, "grad_norm": 1.35478055, "learning_rate": 9.438e-05, "elapsed_time_per_iteration": 4.77445388, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 54s", "remaining_time": "6h 51m 18s", "loss_scale": 1.0, "consumed_samples": 320256, "global_step/max_steps": "1251/6350"}
{"lm loss": 5.13962984, "grad_norm": 1.5441916, "learning_rate": 9.437e-05, "elapsed_time_per_iteration": 4.77161789, "memory(GiB)": 28.03, "elapsed_time": "1h 40m 59s", "remaining_time": "6h 51m 13s", "loss_scale": 1.0, "consumed_samples": 320512, "global_step/max_steps": "1252/6350"}
{"lm loss": 5.11878157, "grad_norm": 1.19656062, "learning_rate": 9.436e-05, "elapsed_time_per_iteration": 5.70994258, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 5s", "remaining_time": "6h 51m 12s", "loss_scale": 1.0, "consumed_samples": 320768, "global_step/max_steps": "1253/6350"}
{"lm loss": 5.12569189, "grad_norm": 1.45432162, "learning_rate": 9.435e-05, "elapsed_time_per_iteration": 4.75657773, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 9s", "remaining_time": "6h 51m 6s", "loss_scale": 1.0, "consumed_samples": 321024, "global_step/max_steps": "1254/6350"}
{"lm loss": 5.13263988, "grad_norm": 1.92196107, "learning_rate": 9.433e-05, "elapsed_time_per_iteration": 4.74837685, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 14s", "remaining_time": "6h 51m 1s", "loss_scale": 1.0, "consumed_samples": 321280, "global_step/max_steps": "1255/6350"}
{"lm loss": 5.14705181, "grad_norm": 1.05585313, "learning_rate": 9.432e-05, "elapsed_time_per_iteration": 4.69212151, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 19s", "remaining_time": "6h 50m 56s", "loss_scale": 1.0, "consumed_samples": 321536, "global_step/max_steps": "1256/6350"}
{"lm loss": 5.13323879, "grad_norm": 1.94568944, "learning_rate": 9.431e-05, "elapsed_time_per_iteration": 4.84082818, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 24s", "remaining_time": "6h 50m 51s", "loss_scale": 1.0, "consumed_samples": 321792, "global_step/max_steps": "1257/6350"}
{"lm loss": 5.11585331, "grad_norm": 1.18712556, "learning_rate": 9.43e-05, "elapsed_time_per_iteration": 5.2239542, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 29s", "remaining_time": "6h 50m 48s", "loss_scale": 1.0, "consumed_samples": 322048, "global_step/max_steps": "1258/6350"}
{"lm loss": 5.13311911, "grad_norm": 1.85981798, "learning_rate": 9.429e-05, "elapsed_time_per_iteration": 4.82924128, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 34s", "remaining_time": "6h 50m 43s", "loss_scale": 1.0, "consumed_samples": 322304, "global_step/max_steps": "1259/6350"}
{"lm loss": 5.16903305, "grad_norm": 1.64657414, "learning_rate": 9.427e-05, "elapsed_time_per_iteration": 4.72036791, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 38s", "remaining_time": "6h 50m 37s", "loss_scale": 1.0, "consumed_samples": 322560, "global_step/max_steps": "1260/6350"}
{"lm loss": 5.11440325, "grad_norm": 1.20214987, "learning_rate": 9.426e-05, "elapsed_time_per_iteration": 4.74855685, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 43s", "remaining_time": "6h 50m 32s", "loss_scale": 1.0, "consumed_samples": 322816, "global_step/max_steps": "1261/6350"}
{"lm loss": 5.14939213, "grad_norm": 1.69114661, "learning_rate": 9.425e-05, "elapsed_time_per_iteration": 4.75492764, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 48s", "remaining_time": "6h 50m 27s", "loss_scale": 1.0, "consumed_samples": 323072, "global_step/max_steps": "1262/6350"}
{"lm loss": 5.11222982, "grad_norm": 1.21719301, "learning_rate": 9.424e-05, "elapsed_time_per_iteration": 4.71643448, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 53s", "remaining_time": "6h 50m 22s", "loss_scale": 1.0, "consumed_samples": 323328, "global_step/max_steps": "1263/6350"}
{"lm loss": 5.10798168, "grad_norm": 1.47750795, "learning_rate": 9.423e-05, "elapsed_time_per_iteration": 4.70482564, "memory(GiB)": 28.03, "elapsed_time": "1h 41m 57s", "remaining_time": "6h 50m 16s", "loss_scale": 1.0, "consumed_samples": 323584, "global_step/max_steps": "1264/6350"}
{"lm loss": 5.11393929, "grad_norm": 1.79787958, "learning_rate": 9.421e-05, "elapsed_time_per_iteration": 4.71600652, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 2s", "remaining_time": "6h 50m 11s", "loss_scale": 1.0, "consumed_samples": 323840, "global_step/max_steps": "1265/6350"}
{"lm loss": 5.11193991, "grad_norm": 1.44742393, "learning_rate": 9.42e-05, "elapsed_time_per_iteration": 4.7609024, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 7s", "remaining_time": "6h 50m 6s", "loss_scale": 1.0, "consumed_samples": 324096, "global_step/max_steps": "1266/6350"}
{"lm loss": 5.15512657, "grad_norm": 1.32059658, "learning_rate": 9.419e-05, "elapsed_time_per_iteration": 4.77456808, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 12s", "remaining_time": "6h 50m 1s", "loss_scale": 1.0, "consumed_samples": 324352, "global_step/max_steps": "1267/6350"}
{"lm loss": 5.13540649, "grad_norm": 1.08505869, "learning_rate": 9.418e-05, "elapsed_time_per_iteration": 4.77861714, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 16s", "remaining_time": "6h 49m 56s", "loss_scale": 1.0, "consumed_samples": 324608, "global_step/max_steps": "1268/6350"}
{"lm loss": 5.12071085, "grad_norm": 1.88708401, "learning_rate": 9.417e-05, "elapsed_time_per_iteration": 4.70871019, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 21s", "remaining_time": "6h 49m 50s", "loss_scale": 1.0, "consumed_samples": 324864, "global_step/max_steps": "1269/6350"}
{"lm loss": 5.12558651, "grad_norm": 1.40475273, "learning_rate": 9.415e-05, "elapsed_time_per_iteration": 4.71429777, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 26s", "remaining_time": "6h 49m 45s", "loss_scale": 1.0, "consumed_samples": 325120, "global_step/max_steps": "1270/6350"}
{"lm loss": 5.13616133, "grad_norm": 1.79766715, "learning_rate": 9.414e-05, "elapsed_time_per_iteration": 4.67154455, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 31s", "remaining_time": "6h 49m 39s", "loss_scale": 1.0, "consumed_samples": 325376, "global_step/max_steps": "1271/6350"}
{"lm loss": 5.12733984, "grad_norm": 1.34748578, "learning_rate": 9.413e-05, "elapsed_time_per_iteration": 4.75564718, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 35s", "remaining_time": "6h 49m 34s", "loss_scale": 1.0, "consumed_samples": 325632, "global_step/max_steps": "1272/6350"}
{"lm loss": 5.10918999, "grad_norm": 1.39208436, "learning_rate": 9.412e-05, "elapsed_time_per_iteration": 4.7749083, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 40s", "remaining_time": "6h 49m 29s", "loss_scale": 1.0, "consumed_samples": 325888, "global_step/max_steps": "1273/6350"}
{"lm loss": 5.11951065, "grad_norm": 1.14085543, "learning_rate": 9.411e-05, "elapsed_time_per_iteration": 4.77544188, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 45s", "remaining_time": "6h 49m 24s", "loss_scale": 1.0, "consumed_samples": 326144, "global_step/max_steps": "1274/6350"}
{"lm loss": 5.11810493, "grad_norm": 1.66537726, "learning_rate": 9.409e-05, "elapsed_time_per_iteration": 4.80677772, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 50s", "remaining_time": "6h 49m 19s", "loss_scale": 1.0, "consumed_samples": 326400, "global_step/max_steps": "1275/6350"}
{"lm loss": 5.10800266, "grad_norm": 1.25634611, "learning_rate": 9.408e-05, "elapsed_time_per_iteration": 4.76023936, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 54s", "remaining_time": "6h 49m 14s", "loss_scale": 1.0, "consumed_samples": 326656, "global_step/max_steps": "1276/6350"}
{"lm loss": 5.12282944, "grad_norm": 1.88453734, "learning_rate": 9.407e-05, "elapsed_time_per_iteration": 4.77240896, "memory(GiB)": 28.03, "elapsed_time": "1h 42m 59s", "remaining_time": "6h 49m 9s", "loss_scale": 1.0, "consumed_samples": 326912, "global_step/max_steps": "1277/6350"}
{"lm loss": 5.11050463, "grad_norm": 1.32439709, "learning_rate": 9.406e-05, "elapsed_time_per_iteration": 4.76645017, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 4s", "remaining_time": "6h 49m 4s", "loss_scale": 1.0, "consumed_samples": 327168, "global_step/max_steps": "1278/6350"}
{"lm loss": 5.13727808, "grad_norm": 1.23680747, "learning_rate": 9.405e-05, "elapsed_time_per_iteration": 4.82192326, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 9s", "remaining_time": "6h 48m 59s", "loss_scale": 1.0, "consumed_samples": 327424, "global_step/max_steps": "1279/6350"}
{"lm loss": 5.12930155, "grad_norm": 1.42421818, "learning_rate": 9.403e-05, "elapsed_time_per_iteration": 4.74701285, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 14s", "remaining_time": "6h 48m 54s", "loss_scale": 1.0, "consumed_samples": 327680, "global_step/max_steps": "1280/6350"}
{"lm loss": 5.12372112, "grad_norm": 1.54602814, "learning_rate": 9.402e-05, "elapsed_time_per_iteration": 4.79649663, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 18s", "remaining_time": "6h 48m 49s", "loss_scale": 1.0, "consumed_samples": 327936, "global_step/max_steps": "1281/6350"}
{"lm loss": 5.10629225, "grad_norm": 1.68586111, "learning_rate": 9.401e-05, "elapsed_time_per_iteration": 4.71624422, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 23s", "remaining_time": "6h 48m 43s", "loss_scale": 1.0, "consumed_samples": 328192, "global_step/max_steps": "1282/6350"}
{"lm loss": 5.13518429, "grad_norm": 1.36359596, "learning_rate": 9.4e-05, "elapsed_time_per_iteration": 4.83569288, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 28s", "remaining_time": "6h 48m 38s", "loss_scale": 1.0, "consumed_samples": 328448, "global_step/max_steps": "1283/6350"}
{"lm loss": 5.12268353, "grad_norm": 1.60168564, "learning_rate": 9.399e-05, "elapsed_time_per_iteration": 4.83127236, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 33s", "remaining_time": "6h 48m 34s", "loss_scale": 1.0, "consumed_samples": 328704, "global_step/max_steps": "1284/6350"}
{"lm loss": 5.11253881, "grad_norm": 1.9155463, "learning_rate": 9.397e-05, "elapsed_time_per_iteration": 4.78809547, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 37s", "remaining_time": "6h 48m 29s", "loss_scale": 1.0, "consumed_samples": 328960, "global_step/max_steps": "1285/6350"}
{"lm loss": 5.12526989, "grad_norm": 1.8045119, "learning_rate": 9.396e-05, "elapsed_time_per_iteration": 5.19604754, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 43s", "remaining_time": "6h 48m 25s", "loss_scale": 1.0, "consumed_samples": 329216, "global_step/max_steps": "1286/6350"}
{"lm loss": 5.09879255, "grad_norm": 1.38109994, "learning_rate": 9.395e-05, "elapsed_time_per_iteration": 5.45622373, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 48s", "remaining_time": "6h 48m 23s", "loss_scale": 1.0, "consumed_samples": 329472, "global_step/max_steps": "1287/6350"}
{"lm loss": 5.12684822, "grad_norm": 2.06401777, "learning_rate": 9.394e-05, "elapsed_time_per_iteration": 4.73257422, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 53s", "remaining_time": "6h 48m 17s", "loss_scale": 1.0, "consumed_samples": 329728, "global_step/max_steps": "1288/6350"}
{"lm loss": 5.12192392, "grad_norm": 0.93780273, "learning_rate": 9.392e-05, "elapsed_time_per_iteration": 4.74313807, "memory(GiB)": 28.03, "elapsed_time": "1h 43m 58s", "remaining_time": "6h 48m 12s", "loss_scale": 1.0, "consumed_samples": 329984, "global_step/max_steps": "1289/6350"}
{"lm loss": 5.1185503, "grad_norm": 1.8868295, "learning_rate": 9.391e-05, "elapsed_time_per_iteration": 4.74932575, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 2s", "remaining_time": "6h 48m 7s", "loss_scale": 1.0, "consumed_samples": 330240, "global_step/max_steps": "1290/6350"}
{"lm loss": 5.12770462, "grad_norm": 1.16456187, "learning_rate": 9.39e-05, "elapsed_time_per_iteration": 4.75653005, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 7s", "remaining_time": "6h 48m 2s", "loss_scale": 1.0, "consumed_samples": 330496, "global_step/max_steps": "1291/6350"}
{"lm loss": 5.14354467, "grad_norm": 2.23946786, "learning_rate": 9.389e-05, "elapsed_time_per_iteration": 4.68176174, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 12s", "remaining_time": "6h 47m 56s", "loss_scale": 1.0, "consumed_samples": 330752, "global_step/max_steps": "1292/6350"}
{"lm loss": 5.14469671, "grad_norm": 1.60594904, "learning_rate": 9.387e-05, "elapsed_time_per_iteration": 4.64782119, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 16s", "remaining_time": "6h 47m 51s", "loss_scale": 1.0, "consumed_samples": 331008, "global_step/max_steps": "1293/6350"}
{"lm loss": 5.14327002, "grad_norm": 1.27771246, "learning_rate": 9.386e-05, "elapsed_time_per_iteration": 4.74075723, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 21s", "remaining_time": "6h 47m 46s", "loss_scale": 1.0, "consumed_samples": 331264, "global_step/max_steps": "1294/6350"}
{"lm loss": 5.1088562, "grad_norm": 1.58924365, "learning_rate": 9.385e-05, "elapsed_time_per_iteration": 4.716923, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 26s", "remaining_time": "6h 47m 40s", "loss_scale": 1.0, "consumed_samples": 331520, "global_step/max_steps": "1295/6350"}
{"lm loss": 5.13888454, "grad_norm": 1.3202008, "learning_rate": 9.384e-05, "elapsed_time_per_iteration": 4.71282983, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 31s", "remaining_time": "6h 47m 35s", "loss_scale": 1.0, "consumed_samples": 331776, "global_step/max_steps": "1296/6350"}
{"lm loss": 5.12375975, "grad_norm": 1.68444312, "learning_rate": 9.383e-05, "elapsed_time_per_iteration": 4.73326921, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 35s", "remaining_time": "6h 47m 30s", "loss_scale": 1.0, "consumed_samples": 332032, "global_step/max_steps": "1297/6350"}
{"lm loss": 5.13243437, "grad_norm": 2.52056575, "learning_rate": 9.381e-05, "elapsed_time_per_iteration": 4.68694949, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 40s", "remaining_time": "6h 47m 24s", "loss_scale": 1.0, "consumed_samples": 332288, "global_step/max_steps": "1298/6350"}
{"lm loss": 5.12011957, "grad_norm": 1.25164938, "learning_rate": 9.38e-05, "elapsed_time_per_iteration": 4.72682357, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 45s", "remaining_time": "6h 47m 19s", "loss_scale": 1.0, "consumed_samples": 332544, "global_step/max_steps": "1299/6350"}
{"lm loss": 5.13603258, "grad_norm": 3.41112304, "learning_rate": 9.379e-05, "elapsed_time_per_iteration": 4.71007538, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 49s", "remaining_time": "6h 47m 14s", "loss_scale": 1.0, "consumed_samples": 332800, "global_step/max_steps": "1300/6350"}
{"lm loss": 5.12437391, "grad_norm": 1.82961488, "learning_rate": 9.378e-05, "elapsed_time_per_iteration": 4.67023158, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 54s", "remaining_time": "6h 47m 8s", "loss_scale": 1.0, "consumed_samples": 333056, "global_step/max_steps": "1301/6350"}
{"lm loss": 5.13834858, "grad_norm": 3.33084416, "learning_rate": 9.376e-05, "elapsed_time_per_iteration": 4.84759593, "memory(GiB)": 28.03, "elapsed_time": "1h 44m 59s", "remaining_time": "6h 47m 3s", "loss_scale": 1.0, "consumed_samples": 333312, "global_step/max_steps": "1302/6350"}
{"lm loss": 5.13530636, "grad_norm": 2.31517124, "learning_rate": 9.375e-05, "elapsed_time_per_iteration": 4.81559896, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 4s", "remaining_time": "6h 46m 58s", "loss_scale": 1.0, "consumed_samples": 333568, "global_step/max_steps": "1303/6350"}
{"lm loss": 5.13051939, "grad_norm": 3.14787626, "learning_rate": 9.374e-05, "elapsed_time_per_iteration": 4.84814882, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 9s", "remaining_time": "6h 46m 54s", "loss_scale": 1.0, "consumed_samples": 333824, "global_step/max_steps": "1304/6350"}
{"lm loss": 5.15297985, "grad_norm": 2.22659087, "learning_rate": 9.373e-05, "elapsed_time_per_iteration": 4.69992661, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 13s", "remaining_time": "6h 46m 48s", "loss_scale": 1.0, "consumed_samples": 334080, "global_step/max_steps": "1305/6350"}
{"lm loss": 5.11951542, "grad_norm": 2.60528398, "learning_rate": 9.371e-05, "elapsed_time_per_iteration": 4.709162, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 18s", "remaining_time": "6h 46m 43s", "loss_scale": 1.0, "consumed_samples": 334336, "global_step/max_steps": "1306/6350"}
{"lm loss": 5.12026596, "grad_norm": 1.8696295, "learning_rate": 9.37e-05, "elapsed_time_per_iteration": 4.77027297, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 23s", "remaining_time": "6h 46m 38s", "loss_scale": 1.0, "consumed_samples": 334592, "global_step/max_steps": "1307/6350"}
{"lm loss": 5.11433935, "grad_norm": 2.59271121, "learning_rate": 9.369e-05, "elapsed_time_per_iteration": 5.54846358, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 28s", "remaining_time": "6h 46m 36s", "loss_scale": 1.0, "consumed_samples": 334848, "global_step/max_steps": "1308/6350"}
{"lm loss": 5.13533258, "grad_norm": 1.46414554, "learning_rate": 9.368e-05, "elapsed_time_per_iteration": 4.76982832, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 33s", "remaining_time": "6h 46m 31s", "loss_scale": 1.0, "consumed_samples": 335104, "global_step/max_steps": "1309/6350"}
{"lm loss": 5.12856388, "grad_norm": 1.78214467, "learning_rate": 9.366e-05, "elapsed_time_per_iteration": 4.71576333, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 38s", "remaining_time": "6h 46m 25s", "loss_scale": 1.0, "consumed_samples": 335360, "global_step/max_steps": "1310/6350"}
{"lm loss": 5.11779022, "grad_norm": 1.9095118, "learning_rate": 9.365e-05, "elapsed_time_per_iteration": 4.77907443, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 43s", "remaining_time": "6h 46m 20s", "loss_scale": 1.0, "consumed_samples": 335616, "global_step/max_steps": "1311/6350"}
{"lm loss": 5.12054539, "grad_norm": 1.39590394, "learning_rate": 9.364e-05, "elapsed_time_per_iteration": 4.75695872, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 47s", "remaining_time": "6h 46m 15s", "loss_scale": 1.0, "consumed_samples": 335872, "global_step/max_steps": "1312/6350"}
{"lm loss": 5.1050024, "grad_norm": 1.6066041, "learning_rate": 9.363e-05, "elapsed_time_per_iteration": 4.75843883, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 52s", "remaining_time": "6h 46m 10s", "loss_scale": 1.0, "consumed_samples": 336128, "global_step/max_steps": "1313/6350"}
{"lm loss": 5.10833549, "grad_norm": 1.57998621, "learning_rate": 9.361e-05, "elapsed_time_per_iteration": 4.75907493, "memory(GiB)": 28.03, "elapsed_time": "1h 45m 57s", "remaining_time": "6h 46m 5s", "loss_scale": 1.0, "consumed_samples": 336384, "global_step/max_steps": "1314/6350"}
{"lm loss": 5.10703325, "grad_norm": 1.4183948, "learning_rate": 9.36e-05, "elapsed_time_per_iteration": 5.68716121, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 3s", "remaining_time": "6h 46m 3s", "loss_scale": 1.0, "consumed_samples": 336640, "global_step/max_steps": "1315/6350"}
{"lm loss": 5.13566875, "grad_norm": 1.24411058, "learning_rate": 9.359e-05, "elapsed_time_per_iteration": 4.76620102, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 7s", "remaining_time": "6h 45m 58s", "loss_scale": 1.0, "consumed_samples": 336896, "global_step/max_steps": "1316/6350"}
{"lm loss": 5.12558031, "grad_norm": 1.39423227, "learning_rate": 9.358e-05, "elapsed_time_per_iteration": 4.7277956, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 12s", "remaining_time": "6h 45m 53s", "loss_scale": 1.0, "consumed_samples": 337152, "global_step/max_steps": "1317/6350"}
{"lm loss": 5.10691643, "grad_norm": 1.60930562, "learning_rate": 9.356e-05, "elapsed_time_per_iteration": 4.73571253, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 17s", "remaining_time": "6h 45m 48s", "loss_scale": 1.0, "consumed_samples": 337408, "global_step/max_steps": "1318/6350"}
{"lm loss": 5.13582897, "grad_norm": 1.41966665, "learning_rate": 9.355e-05, "elapsed_time_per_iteration": 4.83473039, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 22s", "remaining_time": "6h 45m 43s", "loss_scale": 1.0, "consumed_samples": 337664, "global_step/max_steps": "1319/6350"}
{"lm loss": 5.09823656, "grad_norm": 1.32750201, "learning_rate": 9.354e-05, "elapsed_time_per_iteration": 4.80897427, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 26s", "remaining_time": "6h 45m 38s", "loss_scale": 1.0, "consumed_samples": 337920, "global_step/max_steps": "1320/6350"}
{"lm loss": 5.10938406, "grad_norm": 1.76008952, "learning_rate": 9.353e-05, "elapsed_time_per_iteration": 4.93877363, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 31s", "remaining_time": "6h 45m 33s", "loss_scale": 1.0, "consumed_samples": 338176, "global_step/max_steps": "1321/6350"}
{"lm loss": 5.11819363, "grad_norm": 1.21169508, "learning_rate": 9.351e-05, "elapsed_time_per_iteration": 4.77504778, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 36s", "remaining_time": "6h 45m 28s", "loss_scale": 1.0, "consumed_samples": 338432, "global_step/max_steps": "1322/6350"}
{"lm loss": 5.1231966, "grad_norm": 1.43205762, "learning_rate": 9.35e-05, "elapsed_time_per_iteration": 4.75069165, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 41s", "remaining_time": "6h 45m 23s", "loss_scale": 1.0, "consumed_samples": 338688, "global_step/max_steps": "1323/6350"}
{"lm loss": 5.10311222, "grad_norm": 1.31404245, "learning_rate": 9.349e-05, "elapsed_time_per_iteration": 4.83041883, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 46s", "remaining_time": "6h 45m 18s", "loss_scale": 1.0, "consumed_samples": 338944, "global_step/max_steps": "1324/6350"}
{"lm loss": 5.1221242, "grad_norm": 1.37129521, "learning_rate": 9.348e-05, "elapsed_time_per_iteration": 4.84601569, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 51s", "remaining_time": "6h 45m 13s", "loss_scale": 1.0, "consumed_samples": 339200, "global_step/max_steps": "1325/6350"}
{"lm loss": 5.14297342, "grad_norm": 1.62558389, "learning_rate": 9.346e-05, "elapsed_time_per_iteration": 4.770329, "memory(GiB)": 28.03, "elapsed_time": "1h 46m 55s", "remaining_time": "6h 45m 8s", "loss_scale": 1.0, "consumed_samples": 339456, "global_step/max_steps": "1326/6350"}
{"lm loss": 5.11634684, "grad_norm": 1.11598003, "learning_rate": 9.345e-05, "elapsed_time_per_iteration": 4.9604156, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 0s", "remaining_time": "6h 45m 4s", "loss_scale": 1.0, "consumed_samples": 339712, "global_step/max_steps": "1327/6350"}
{"lm loss": 5.0998354, "grad_norm": 1.2165271, "learning_rate": 9.344e-05, "elapsed_time_per_iteration": 4.77744293, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 5s", "remaining_time": "6h 44m 59s", "loss_scale": 1.0, "consumed_samples": 339968, "global_step/max_steps": "1328/6350"}
{"lm loss": 5.11615992, "grad_norm": 1.40521872, "learning_rate": 9.343e-05, "elapsed_time_per_iteration": 4.76516032, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 10s", "remaining_time": "6h 44m 54s", "loss_scale": 1.0, "consumed_samples": 340224, "global_step/max_steps": "1329/6350"}
{"lm loss": 5.10644245, "grad_norm": 1.75878727, "learning_rate": 9.341e-05, "elapsed_time_per_iteration": 4.69337511, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 15s", "remaining_time": "6h 44m 48s", "loss_scale": 1.0, "consumed_samples": 340480, "global_step/max_steps": "1330/6350"}
{"lm loss": 5.11600542, "grad_norm": 1.02851129, "learning_rate": 9.34e-05, "elapsed_time_per_iteration": 4.75839329, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 19s", "remaining_time": "6h 44m 43s", "loss_scale": 1.0, "consumed_samples": 340736, "global_step/max_steps": "1331/6350"}
{"lm loss": 5.11190796, "grad_norm": 1.48661494, "learning_rate": 9.339e-05, "elapsed_time_per_iteration": 4.77161717, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 24s", "remaining_time": "6h 44m 38s", "loss_scale": 1.0, "consumed_samples": 340992, "global_step/max_steps": "1332/6350"}
{"lm loss": 5.11947536, "grad_norm": 1.43040431, "learning_rate": 9.337e-05, "elapsed_time_per_iteration": 5.60078359, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 30s", "remaining_time": "6h 44m 36s", "loss_scale": 1.0, "consumed_samples": 341248, "global_step/max_steps": "1333/6350"}
{"lm loss": 5.11363173, "grad_norm": 1.05919397, "learning_rate": 9.336e-05, "elapsed_time_per_iteration": 4.74917269, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 34s", "remaining_time": "6h 44m 31s", "loss_scale": 1.0, "consumed_samples": 341504, "global_step/max_steps": "1334/6350"}
{"lm loss": 5.11320257, "grad_norm": 1.35032737, "learning_rate": 9.335e-05, "elapsed_time_per_iteration": 5.65098429, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 40s", "remaining_time": "6h 44m 29s", "loss_scale": 1.0, "consumed_samples": 341760, "global_step/max_steps": "1335/6350"}
{"lm loss": 5.11643505, "grad_norm": 1.11907613, "learning_rate": 9.334e-05, "elapsed_time_per_iteration": 4.79658461, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 45s", "remaining_time": "6h 44m 24s", "loss_scale": 1.0, "consumed_samples": 342016, "global_step/max_steps": "1336/6350"}
{"lm loss": 5.12165213, "grad_norm": 1.61316919, "learning_rate": 9.332e-05, "elapsed_time_per_iteration": 4.81647396, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 50s", "remaining_time": "6h 44m 19s", "loss_scale": 1.0, "consumed_samples": 342272, "global_step/max_steps": "1337/6350"}
{"lm loss": 5.11398983, "grad_norm": 1.29380763, "learning_rate": 9.331e-05, "elapsed_time_per_iteration": 4.75678897, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 54s", "remaining_time": "6h 44m 14s", "loss_scale": 1.0, "consumed_samples": 342528, "global_step/max_steps": "1338/6350"}
{"lm loss": 5.12508059, "grad_norm": 1.76105106, "learning_rate": 9.33e-05, "elapsed_time_per_iteration": 4.71682525, "memory(GiB)": 28.03, "elapsed_time": "1h 47m 59s", "remaining_time": "6h 44m 9s", "loss_scale": 1.0, "consumed_samples": 342784, "global_step/max_steps": "1339/6350"}
{"lm loss": 5.11496353, "grad_norm": 1.20654678, "learning_rate": 9.328e-05, "elapsed_time_per_iteration": 4.9843576, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 4s", "remaining_time": "6h 44m 5s", "loss_scale": 1.0, "consumed_samples": 343040, "global_step/max_steps": "1340/6350"}
{"lm loss": 5.11999464, "grad_norm": 1.49189889, "learning_rate": 9.327e-05, "elapsed_time_per_iteration": 4.7783618, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 9s", "remaining_time": "6h 43m 59s", "loss_scale": 1.0, "consumed_samples": 343296, "global_step/max_steps": "1341/6350"}
{"lm loss": 5.08163834, "grad_norm": 1.24956262, "learning_rate": 9.326e-05, "elapsed_time_per_iteration": 4.82447433, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 14s", "remaining_time": "6h 43m 55s", "loss_scale": 1.0, "consumed_samples": 343552, "global_step/max_steps": "1342/6350"}
{"lm loss": 5.10288429, "grad_norm": 1.57641566, "learning_rate": 9.325e-05, "elapsed_time_per_iteration": 4.74694037, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 19s", "remaining_time": "6h 43m 49s", "loss_scale": 1.0, "consumed_samples": 343808, "global_step/max_steps": "1343/6350"}
{"lm loss": 5.11642981, "grad_norm": 1.38957083, "learning_rate": 9.323e-05, "elapsed_time_per_iteration": 4.70001268, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 23s", "remaining_time": "6h 43m 44s", "loss_scale": 1.0, "consumed_samples": 344064, "global_step/max_steps": "1344/6350"}
{"lm loss": 5.11192083, "grad_norm": 1.23529053, "learning_rate": 9.322e-05, "elapsed_time_per_iteration": 5.38946676, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 29s", "remaining_time": "6h 43m 41s", "loss_scale": 1.0, "consumed_samples": 344320, "global_step/max_steps": "1345/6350"}
{"lm loss": 5.0896244, "grad_norm": 1.6232301, "learning_rate": 9.321e-05, "elapsed_time_per_iteration": 4.72942615, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 33s", "remaining_time": "6h 43m 36s", "loss_scale": 1.0, "consumed_samples": 344576, "global_step/max_steps": "1346/6350"}
{"lm loss": 5.11753225, "grad_norm": 1.07796574, "learning_rate": 9.319e-05, "elapsed_time_per_iteration": 4.71162844, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 38s", "remaining_time": "6h 43m 31s", "loss_scale": 1.0, "consumed_samples": 344832, "global_step/max_steps": "1347/6350"}
{"lm loss": 5.11870241, "grad_norm": 1.67393982, "learning_rate": 9.318e-05, "elapsed_time_per_iteration": 4.77045012, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 43s", "remaining_time": "6h 43m 26s", "loss_scale": 1.0, "consumed_samples": 345088, "global_step/max_steps": "1348/6350"}
{"lm loss": 5.11611748, "grad_norm": 1.42473638, "learning_rate": 9.317e-05, "elapsed_time_per_iteration": 4.7333293, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 48s", "remaining_time": "6h 43m 20s", "loss_scale": 1.0, "consumed_samples": 345344, "global_step/max_steps": "1349/6350"}
{"lm loss": 5.11525154, "grad_norm": 1.52548158, "learning_rate": 9.316e-05, "elapsed_time_per_iteration": 4.71568942, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 52s", "remaining_time": "6h 43m 15s", "loss_scale": 1.0, "consumed_samples": 345600, "global_step/max_steps": "1350/6350"}
{"lm loss": 5.10675621, "grad_norm": 1.13908136, "learning_rate": 9.314e-05, "elapsed_time_per_iteration": 4.76057673, "memory(GiB)": 28.03, "elapsed_time": "1h 48m 57s", "remaining_time": "6h 43m 10s", "loss_scale": 1.0, "consumed_samples": 345856, "global_step/max_steps": "1351/6350"}
{"lm loss": 5.13269663, "grad_norm": 1.42833042, "learning_rate": 9.313e-05, "elapsed_time_per_iteration": 4.67719436, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 2s", "remaining_time": "6h 43m 4s", "loss_scale": 1.0, "consumed_samples": 346112, "global_step/max_steps": "1352/6350"}
{"lm loss": 5.10519171, "grad_norm": 1.4591794, "learning_rate": 9.312e-05, "elapsed_time_per_iteration": 5.60158539, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 7s", "remaining_time": "6h 43m 2s", "loss_scale": 1.0, "consumed_samples": 346368, "global_step/max_steps": "1353/6350"}
{"lm loss": 5.13871479, "grad_norm": 1.67346668, "learning_rate": 9.31e-05, "elapsed_time_per_iteration": 4.72696543, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 12s", "remaining_time": "6h 42m 57s", "loss_scale": 1.0, "consumed_samples": 346624, "global_step/max_steps": "1354/6350"}
{"lm loss": 5.11216593, "grad_norm": 0.99566644, "learning_rate": 9.309e-05, "elapsed_time_per_iteration": 4.74377966, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 17s", "remaining_time": "6h 42m 52s", "loss_scale": 1.0, "consumed_samples": 346880, "global_step/max_steps": "1355/6350"}
{"lm loss": 5.10294914, "grad_norm": 1.71480298, "learning_rate": 9.308e-05, "elapsed_time_per_iteration": 4.74588943, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 22s", "remaining_time": "6h 42m 47s", "loss_scale": 1.0, "consumed_samples": 347136, "global_step/max_steps": "1356/6350"}
{"lm loss": 5.10925913, "grad_norm": 1.28237391, "learning_rate": 9.307e-05, "elapsed_time_per_iteration": 4.81325126, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 26s", "remaining_time": "6h 42m 42s", "loss_scale": 1.0, "consumed_samples": 347392, "global_step/max_steps": "1357/6350"}
{"lm loss": 5.1059413, "grad_norm": 1.19396937, "learning_rate": 9.305e-05, "elapsed_time_per_iteration": 5.30284786, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 32s", "remaining_time": "6h 42m 39s", "loss_scale": 1.0, "consumed_samples": 347648, "global_step/max_steps": "1358/6350"}
{"lm loss": 5.12862778, "grad_norm": 1.45938456, "learning_rate": 9.304e-05, "elapsed_time_per_iteration": 4.75650454, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 36s", "remaining_time": "6h 42m 34s", "loss_scale": 1.0, "consumed_samples": 347904, "global_step/max_steps": "1359/6350"}
{"lm loss": 5.08751869, "grad_norm": 1.3235445, "learning_rate": 9.303e-05, "elapsed_time_per_iteration": 4.72300649, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 41s", "remaining_time": "6h 42m 28s", "loss_scale": 1.0, "consumed_samples": 348160, "global_step/max_steps": "1360/6350"}
{"lm loss": 5.11794662, "grad_norm": 1.44523597, "learning_rate": 9.301e-05, "elapsed_time_per_iteration": 4.71983337, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 46s", "remaining_time": "6h 42m 23s", "loss_scale": 1.0, "consumed_samples": 348416, "global_step/max_steps": "1361/6350"}
{"lm loss": 5.10316324, "grad_norm": 1.06357491, "learning_rate": 9.3e-05, "elapsed_time_per_iteration": 4.68014359, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 51s", "remaining_time": "6h 42m 18s", "loss_scale": 1.0, "consumed_samples": 348672, "global_step/max_steps": "1362/6350"}
{"lm loss": 5.12635612, "grad_norm": 1.62149429, "learning_rate": 9.299e-05, "elapsed_time_per_iteration": 4.6643157, "memory(GiB)": 28.03, "elapsed_time": "1h 49m 55s", "remaining_time": "6h 42m 12s", "loss_scale": 1.0, "consumed_samples": 348928, "global_step/max_steps": "1363/6350"}
{"lm loss": 5.12075806, "grad_norm": 1.8593502, "learning_rate": 9.297e-05, "elapsed_time_per_iteration": 4.59957457, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 0s", "remaining_time": "6h 42m 6s", "loss_scale": 1.0, "consumed_samples": 349184, "global_step/max_steps": "1364/6350"}
{"lm loss": 5.09482622, "grad_norm": 1.03979039, "learning_rate": 9.296e-05, "elapsed_time_per_iteration": 4.77061558, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 5s", "remaining_time": "6h 42m 1s", "loss_scale": 1.0, "consumed_samples": 349440, "global_step/max_steps": "1365/6350"}
{"lm loss": 5.12987614, "grad_norm": 2.03730845, "learning_rate": 9.295e-05, "elapsed_time_per_iteration": 4.73813558, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 9s", "remaining_time": "6h 41m 56s", "loss_scale": 1.0, "consumed_samples": 349696, "global_step/max_steps": "1366/6350"}
{"lm loss": 5.12972927, "grad_norm": 1.1410712, "learning_rate": 9.293e-05, "elapsed_time_per_iteration": 4.72076535, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 14s", "remaining_time": "6h 41m 51s", "loss_scale": 1.0, "consumed_samples": 349952, "global_step/max_steps": "1367/6350"}
{"lm loss": 5.10077715, "grad_norm": 2.57452917, "learning_rate": 9.292e-05, "elapsed_time_per_iteration": 4.71515703, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 19s", "remaining_time": "6h 41m 46s", "loss_scale": 1.0, "consumed_samples": 350208, "global_step/max_steps": "1368/6350"}
{"lm loss": 5.09788942, "grad_norm": 1.78998423, "learning_rate": 9.291e-05, "elapsed_time_per_iteration": 4.70855451, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 23s", "remaining_time": "6h 41m 40s", "loss_scale": 1.0, "consumed_samples": 350464, "global_step/max_steps": "1369/6350"}
{"lm loss": 5.11068392, "grad_norm": 1.88614178, "learning_rate": 9.29e-05, "elapsed_time_per_iteration": 4.71446228, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 28s", "remaining_time": "6h 41m 35s", "loss_scale": 1.0, "consumed_samples": 350720, "global_step/max_steps": "1370/6350"}
{"lm loss": 5.11307383, "grad_norm": 1.47301245, "learning_rate": 9.288e-05, "elapsed_time_per_iteration": 4.70662069, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 33s", "remaining_time": "6h 41m 30s", "loss_scale": 1.0, "consumed_samples": 350976, "global_step/max_steps": "1371/6350"}
{"lm loss": 5.10979176, "grad_norm": 1.69189882, "learning_rate": 9.287e-05, "elapsed_time_per_iteration": 4.71683145, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 38s", "remaining_time": "6h 41m 24s", "loss_scale": 1.0, "consumed_samples": 351232, "global_step/max_steps": "1372/6350"}
{"lm loss": 5.12064219, "grad_norm": 1.2546283, "learning_rate": 9.286e-05, "elapsed_time_per_iteration": 4.77965593, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 42s", "remaining_time": "6h 41m 19s", "loss_scale": 1.0, "consumed_samples": 351488, "global_step/max_steps": "1373/6350"}
{"lm loss": 5.10849714, "grad_norm": 1.48476267, "learning_rate": 9.284e-05, "elapsed_time_per_iteration": 4.86445618, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 47s", "remaining_time": "6h 41m 15s", "loss_scale": 1.0, "consumed_samples": 351744, "global_step/max_steps": "1374/6350"}
{"lm loss": 5.10956383, "grad_norm": 1.25126886, "learning_rate": 9.283e-05, "elapsed_time_per_iteration": 4.84239435, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 52s", "remaining_time": "6h 41m 10s", "loss_scale": 1.0, "consumed_samples": 352000, "global_step/max_steps": "1375/6350"}
{"lm loss": 5.11991215, "grad_norm": 1.61925006, "learning_rate": 9.282e-05, "elapsed_time_per_iteration": 4.74646544, "memory(GiB)": 28.03, "elapsed_time": "1h 50m 57s", "remaining_time": "6h 41m 5s", "loss_scale": 1.0, "consumed_samples": 352256, "global_step/max_steps": "1376/6350"}
{"lm loss": 5.09824181, "grad_norm": 2.20830488, "learning_rate": 9.28e-05, "elapsed_time_per_iteration": 5.64707875, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 2s", "remaining_time": "6h 41m 3s", "loss_scale": 1.0, "consumed_samples": 352512, "global_step/max_steps": "1377/6350"}
{"lm loss": 5.11904716, "grad_norm": 0.93177348, "learning_rate": 9.279e-05, "elapsed_time_per_iteration": 4.80330014, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 7s", "remaining_time": "6h 40m 58s", "loss_scale": 1.0, "consumed_samples": 352768, "global_step/max_steps": "1378/6350"}
{"lm loss": 5.10519123, "grad_norm": 2.23867464, "learning_rate": 9.278e-05, "elapsed_time_per_iteration": 4.71728635, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 12s", "remaining_time": "6h 40m 52s", "loss_scale": 1.0, "consumed_samples": 353024, "global_step/max_steps": "1379/6350"}
{"lm loss": 5.11812353, "grad_norm": 1.55948567, "learning_rate": 9.276e-05, "elapsed_time_per_iteration": 4.69411111, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 17s", "remaining_time": "6h 40m 47s", "loss_scale": 1.0, "consumed_samples": 353280, "global_step/max_steps": "1380/6350"}
{"lm loss": 5.08550787, "grad_norm": 1.47078073, "learning_rate": 9.275e-05, "elapsed_time_per_iteration": 4.79113483, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 21s", "remaining_time": "6h 40m 42s", "loss_scale": 1.0, "consumed_samples": 353536, "global_step/max_steps": "1381/6350"}
{"lm loss": 5.11577749, "grad_norm": 1.44678926, "learning_rate": 9.274e-05, "elapsed_time_per_iteration": 4.68622231, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 26s", "remaining_time": "6h 40m 37s", "loss_scale": 1.0, "consumed_samples": 353792, "global_step/max_steps": "1382/6350"}
{"lm loss": 5.09304237, "grad_norm": 1.55728137, "learning_rate": 9.272e-05, "elapsed_time_per_iteration": 4.78903222, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 31s", "remaining_time": "6h 40m 32s", "loss_scale": 1.0, "consumed_samples": 354048, "global_step/max_steps": "1383/6350"}
{"lm loss": 5.11007452, "grad_norm": 1.26539564, "learning_rate": 9.271e-05, "elapsed_time_per_iteration": 4.70563316, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 36s", "remaining_time": "6h 40m 26s", "loss_scale": 1.0, "consumed_samples": 354304, "global_step/max_steps": "1384/6350"}
{"lm loss": 5.11834431, "grad_norm": 1.6783756, "learning_rate": 9.27e-05, "elapsed_time_per_iteration": 4.72479844, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 40s", "remaining_time": "6h 40m 21s", "loss_scale": 1.0, "consumed_samples": 354560, "global_step/max_steps": "1385/6350"}
{"lm loss": 5.10720682, "grad_norm": 1.19588232, "learning_rate": 9.268e-05, "elapsed_time_per_iteration": 4.71581483, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 45s", "remaining_time": "6h 40m 16s", "loss_scale": 1.0, "consumed_samples": 354816, "global_step/max_steps": "1386/6350"}
{"lm loss": 5.1132021, "grad_norm": 1.85857916, "learning_rate": 9.267e-05, "elapsed_time_per_iteration": 4.81748843, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 50s", "remaining_time": "6h 40m 11s", "loss_scale": 1.0, "consumed_samples": 355072, "global_step/max_steps": "1387/6350"}
{"lm loss": 5.09056807, "grad_norm": 1.2136873, "learning_rate": 9.266e-05, "elapsed_time_per_iteration": 4.72179651, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 55s", "remaining_time": "6h 40m 6s", "loss_scale": 1.0, "consumed_samples": 355328, "global_step/max_steps": "1388/6350"}
{"lm loss": 5.11197519, "grad_norm": 1.48615396, "learning_rate": 9.264e-05, "elapsed_time_per_iteration": 4.72022057, "memory(GiB)": 28.03, "elapsed_time": "1h 51m 59s", "remaining_time": "6h 40m 0s", "loss_scale": 1.0, "consumed_samples": 355584, "global_step/max_steps": "1389/6350"}
{"lm loss": 5.12164497, "grad_norm": 1.32560396, "learning_rate": 9.263e-05, "elapsed_time_per_iteration": 5.02534127, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 4s", "remaining_time": "6h 39m 56s", "loss_scale": 1.0, "consumed_samples": 355840, "global_step/max_steps": "1390/6350"}
{"lm loss": 5.10414314, "grad_norm": 1.50623941, "learning_rate": 9.262e-05, "elapsed_time_per_iteration": 4.75807381, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 9s", "remaining_time": "6h 39m 51s", "loss_scale": 1.0, "consumed_samples": 356096, "global_step/max_steps": "1391/6350"}
{"lm loss": 5.08965111, "grad_norm": 1.151232, "learning_rate": 9.26e-05, "elapsed_time_per_iteration": 4.84480357, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 14s", "remaining_time": "6h 39m 46s", "loss_scale": 1.0, "consumed_samples": 356352, "global_step/max_steps": "1392/6350"}
{"lm loss": 5.10358429, "grad_norm": 1.57904923, "learning_rate": 9.259e-05, "elapsed_time_per_iteration": 4.7091434, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 19s", "remaining_time": "6h 39m 41s", "loss_scale": 1.0, "consumed_samples": 356608, "global_step/max_steps": "1393/6350"}
{"lm loss": 5.12219429, "grad_norm": 1.32592869, "learning_rate": 9.258e-05, "elapsed_time_per_iteration": 4.7568388, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 23s", "remaining_time": "6h 39m 36s", "loss_scale": 1.0, "consumed_samples": 356864, "global_step/max_steps": "1394/6350"}
{"lm loss": 5.11000776, "grad_norm": 1.39059186, "learning_rate": 9.256e-05, "elapsed_time_per_iteration": 5.59660769, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 29s", "remaining_time": "6h 39m 34s", "loss_scale": 1.0, "consumed_samples": 357120, "global_step/max_steps": "1395/6350"}
{"lm loss": 5.10897255, "grad_norm": 1.029217, "learning_rate": 9.255e-05, "elapsed_time_per_iteration": 4.78644753, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 34s", "remaining_time": "6h 39m 29s", "loss_scale": 1.0, "consumed_samples": 357376, "global_step/max_steps": "1396/6350"}
{"lm loss": 5.13705397, "grad_norm": 1.64991081, "learning_rate": 9.254e-05, "elapsed_time_per_iteration": 4.75178242, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 39s", "remaining_time": "6h 39m 24s", "loss_scale": 1.0, "consumed_samples": 357632, "global_step/max_steps": "1397/6350"}
{"lm loss": 5.09099913, "grad_norm": 1.31107163, "learning_rate": 9.252e-05, "elapsed_time_per_iteration": 5.07775259, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 44s", "remaining_time": "6h 39m 20s", "loss_scale": 1.0, "consumed_samples": 357888, "global_step/max_steps": "1398/6350"}
{"lm loss": 5.11007166, "grad_norm": 1.6596241, "learning_rate": 9.251e-05, "elapsed_time_per_iteration": 4.73376036, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 48s", "remaining_time": "6h 39m 14s", "loss_scale": 1.0, "consumed_samples": 358144, "global_step/max_steps": "1399/6350"}
{"lm loss": 5.09384632, "grad_norm": 1.23601615, "learning_rate": 9.25e-05, "elapsed_time_per_iteration": 4.83377385, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 53s", "remaining_time": "6h 39m 10s", "loss_scale": 1.0, "consumed_samples": 358400, "global_step/max_steps": "1400/6350"}
{"lm loss": 5.10398197, "grad_norm": 1.50429773, "learning_rate": 9.248e-05, "elapsed_time_per_iteration": 5.39491177, "memory(GiB)": 28.03, "elapsed_time": "1h 52m 59s", "remaining_time": "6h 39m 7s", "loss_scale": 1.0, "consumed_samples": 358656, "global_step/max_steps": "1401/6350"}
{"lm loss": 5.12214899, "grad_norm": 1.39159155, "learning_rate": 9.247e-05, "elapsed_time_per_iteration": 4.72871685, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 3s", "remaining_time": "6h 39m 1s", "loss_scale": 1.0, "consumed_samples": 358912, "global_step/max_steps": "1402/6350"}
{"lm loss": 5.11123037, "grad_norm": 1.16095364, "learning_rate": 9.245e-05, "elapsed_time_per_iteration": 4.73961234, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 8s", "remaining_time": "6h 38m 56s", "loss_scale": 1.0, "consumed_samples": 359168, "global_step/max_steps": "1403/6350"}
{"lm loss": 5.08928442, "grad_norm": 1.64907229, "learning_rate": 9.244e-05, "elapsed_time_per_iteration": 4.7069335, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 13s", "remaining_time": "6h 38m 51s", "loss_scale": 1.0, "consumed_samples": 359424, "global_step/max_steps": "1404/6350"}
{"lm loss": 5.13581991, "grad_norm": 1.14696085, "learning_rate": 9.243e-05, "elapsed_time_per_iteration": 4.74916983, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 18s", "remaining_time": "6h 38m 46s", "loss_scale": 1.0, "consumed_samples": 359680, "global_step/max_steps": "1405/6350"}
{"lm loss": 5.10059452, "grad_norm": 1.61002052, "learning_rate": 9.241e-05, "elapsed_time_per_iteration": 4.66089153, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 22s", "remaining_time": "6h 38m 40s", "loss_scale": 1.0, "consumed_samples": 359936, "global_step/max_steps": "1406/6350"}
{"lm loss": 5.1001668, "grad_norm": 1.09921789, "learning_rate": 9.24e-05, "elapsed_time_per_iteration": 4.64641356, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 27s", "remaining_time": "6h 38m 35s", "loss_scale": 1.0, "consumed_samples": 360192, "global_step/max_steps": "1407/6350"}
{"lm loss": 5.09489393, "grad_norm": 1.21643698, "learning_rate": 9.239e-05, "elapsed_time_per_iteration": 4.69758534, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 32s", "remaining_time": "6h 38m 29s", "loss_scale": 1.0, "consumed_samples": 360448, "global_step/max_steps": "1408/6350"}
{"lm loss": 5.10257959, "grad_norm": 1.44866943, "learning_rate": 9.237e-05, "elapsed_time_per_iteration": 5.23204637, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 37s", "remaining_time": "6h 38m 26s", "loss_scale": 1.0, "consumed_samples": 360704, "global_step/max_steps": "1409/6350"}
{"lm loss": 5.09929895, "grad_norm": 1.66780889, "learning_rate": 9.236e-05, "elapsed_time_per_iteration": 4.67537856, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 41s", "remaining_time": "6h 38m 21s", "loss_scale": 1.0, "consumed_samples": 360960, "global_step/max_steps": "1410/6350"}
{"lm loss": 5.12133265, "grad_norm": 1.13925838, "learning_rate": 9.235e-05, "elapsed_time_per_iteration": 4.67812061, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 46s", "remaining_time": "6h 38m 15s", "loss_scale": 1.0, "consumed_samples": 361216, "global_step/max_steps": "1411/6350"}
{"lm loss": 5.10313511, "grad_norm": 1.24503565, "learning_rate": 9.233e-05, "elapsed_time_per_iteration": 4.7263701, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 51s", "remaining_time": "6h 38m 10s", "loss_scale": 1.0, "consumed_samples": 361472, "global_step/max_steps": "1412/6350"}
{"lm loss": 5.09056854, "grad_norm": 1.12976217, "learning_rate": 9.232e-05, "elapsed_time_per_iteration": 4.8767736, "memory(GiB)": 28.03, "elapsed_time": "1h 53m 56s", "remaining_time": "6h 38m 5s", "loss_scale": 1.0, "consumed_samples": 361728, "global_step/max_steps": "1413/6350"}
{"lm loss": 5.10351372, "grad_norm": 1.58678961, "learning_rate": 9.231e-05, "elapsed_time_per_iteration": 4.7258637, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 0s", "remaining_time": "6h 38m 0s", "loss_scale": 1.0, "consumed_samples": 361984, "global_step/max_steps": "1414/6350"}
{"lm loss": 5.1112361, "grad_norm": 0.8989625, "learning_rate": 9.229e-05, "elapsed_time_per_iteration": 4.78736067, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 5s", "remaining_time": "6h 37m 55s", "loss_scale": 1.0, "consumed_samples": 362240, "global_step/max_steps": "1415/6350"}
{"lm loss": 5.08818817, "grad_norm": 1.53270447, "learning_rate": 9.228e-05, "elapsed_time_per_iteration": 4.67438126, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 10s", "remaining_time": "6h 37m 50s", "loss_scale": 1.0, "consumed_samples": 362496, "global_step/max_steps": "1416/6350"}
{"lm loss": 5.10918808, "grad_norm": 1.14301598, "learning_rate": 9.226e-05, "elapsed_time_per_iteration": 4.75889897, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 15s", "remaining_time": "6h 37m 45s", "loss_scale": 1.0, "consumed_samples": 362752, "global_step/max_steps": "1417/6350"}
{"lm loss": 5.10016537, "grad_norm": 1.28364706, "learning_rate": 9.225e-05, "elapsed_time_per_iteration": 4.64200282, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 19s", "remaining_time": "6h 37m 39s", "loss_scale": 1.0, "consumed_samples": 363008, "global_step/max_steps": "1418/6350"}
{"lm loss": 5.07889128, "grad_norm": 1.57072604, "learning_rate": 9.224e-05, "elapsed_time_per_iteration": 4.69921708, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 24s", "remaining_time": "6h 37m 34s", "loss_scale": 1.0, "consumed_samples": 363264, "global_step/max_steps": "1419/6350"}
{"lm loss": 5.09735489, "grad_norm": 1.1461699, "learning_rate": 9.222e-05, "elapsed_time_per_iteration": 4.7664206, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 29s", "remaining_time": "6h 37m 29s", "loss_scale": 1.0, "consumed_samples": 363520, "global_step/max_steps": "1420/6350"}
{"lm loss": 5.10282183, "grad_norm": 1.38483632, "learning_rate": 9.221e-05, "elapsed_time_per_iteration": 5.71506, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 35s", "remaining_time": "6h 37m 27s", "loss_scale": 1.0, "consumed_samples": 363776, "global_step/max_steps": "1421/6350"}
{"lm loss": 5.11673927, "grad_norm": 1.35822749, "learning_rate": 9.22e-05, "elapsed_time_per_iteration": 4.85109758, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 39s", "remaining_time": "6h 37m 22s", "loss_scale": 1.0, "consumed_samples": 364032, "global_step/max_steps": "1422/6350"}
{"lm loss": 5.10897732, "grad_norm": 1.69851196, "learning_rate": 9.218e-05, "elapsed_time_per_iteration": 5.61924934, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 45s", "remaining_time": "6h 37m 20s", "loss_scale": 1.0, "consumed_samples": 364288, "global_step/max_steps": "1423/6350"}
{"lm loss": 5.10658741, "grad_norm": 1.05212212, "learning_rate": 9.217e-05, "elapsed_time_per_iteration": 4.69034958, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 50s", "remaining_time": "6h 37m 15s", "loss_scale": 1.0, "consumed_samples": 364544, "global_step/max_steps": "1424/6350"}
{"lm loss": 5.11220789, "grad_norm": 1.11346996, "learning_rate": 9.215e-05, "elapsed_time_per_iteration": 4.7114079, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 54s", "remaining_time": "6h 37m 9s", "loss_scale": 1.0, "consumed_samples": 364800, "global_step/max_steps": "1425/6350"}
{"lm loss": 5.0787468, "grad_norm": 1.28291917, "learning_rate": 9.214e-05, "elapsed_time_per_iteration": 4.7258606, "memory(GiB)": 28.03, "elapsed_time": "1h 54m 59s", "remaining_time": "6h 37m 4s", "loss_scale": 1.0, "consumed_samples": 365056, "global_step/max_steps": "1426/6350"}
{"lm loss": 5.09156036, "grad_norm": 1.53643858, "learning_rate": 9.213e-05, "elapsed_time_per_iteration": 4.71814632, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 4s", "remaining_time": "6h 36m 59s", "loss_scale": 1.0, "consumed_samples": 365312, "global_step/max_steps": "1427/6350"}
{"lm loss": 5.08362484, "grad_norm": 1.65848458, "learning_rate": 9.211e-05, "elapsed_time_per_iteration": 5.66093135, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 10s", "remaining_time": "6h 36m 57s", "loss_scale": 1.0, "consumed_samples": 365568, "global_step/max_steps": "1428/6350"}
{"lm loss": 5.11857414, "grad_norm": 0.92866784, "learning_rate": 9.21e-05, "elapsed_time_per_iteration": 4.73537731, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 14s", "remaining_time": "6h 36m 52s", "loss_scale": 1.0, "consumed_samples": 365824, "global_step/max_steps": "1429/6350"}
{"lm loss": 5.09856606, "grad_norm": 1.32669461, "learning_rate": 9.209e-05, "elapsed_time_per_iteration": 4.73483515, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 19s", "remaining_time": "6h 36m 46s", "loss_scale": 1.0, "consumed_samples": 366080, "global_step/max_steps": "1430/6350"}
{"lm loss": 5.10449266, "grad_norm": 1.07325613, "learning_rate": 9.207e-05, "elapsed_time_per_iteration": 4.69993234, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 24s", "remaining_time": "6h 36m 41s", "loss_scale": 1.0, "consumed_samples": 366336, "global_step/max_steps": "1431/6350"}
{"lm loss": 5.08254528, "grad_norm": 1.61978054, "learning_rate": 9.206e-05, "elapsed_time_per_iteration": 4.77356267, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 28s", "remaining_time": "6h 36m 36s", "loss_scale": 1.0, "consumed_samples": 366592, "global_step/max_steps": "1432/6350"}
{"lm loss": 5.09473848, "grad_norm": 1.06658959, "learning_rate": 9.204e-05, "elapsed_time_per_iteration": 4.69830561, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 33s", "remaining_time": "6h 36m 31s", "loss_scale": 1.0, "consumed_samples": 366848, "global_step/max_steps": "1433/6350"}
{"lm loss": 5.08312273, "grad_norm": 1.44760025, "learning_rate": 9.203e-05, "elapsed_time_per_iteration": 4.72495151, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 38s", "remaining_time": "6h 36m 25s", "loss_scale": 1.0, "consumed_samples": 367104, "global_step/max_steps": "1434/6350"}
{"lm loss": 5.10863686, "grad_norm": 1.20368171, "learning_rate": 9.202e-05, "elapsed_time_per_iteration": 4.8101809, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 43s", "remaining_time": "6h 36m 20s", "loss_scale": 1.0, "consumed_samples": 367360, "global_step/max_steps": "1435/6350"}
{"lm loss": 5.08006525, "grad_norm": 1.2720176, "learning_rate": 9.2e-05, "elapsed_time_per_iteration": 4.81178141, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 47s", "remaining_time": "6h 36m 16s", "loss_scale": 1.0, "consumed_samples": 367616, "global_step/max_steps": "1436/6350"}
{"lm loss": 5.10266495, "grad_norm": 1.19520974, "learning_rate": 9.199e-05, "elapsed_time_per_iteration": 4.75171328, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 52s", "remaining_time": "6h 36m 10s", "loss_scale": 1.0, "consumed_samples": 367872, "global_step/max_steps": "1437/6350"}
{"lm loss": 5.08937788, "grad_norm": 1.55098307, "learning_rate": 9.197e-05, "elapsed_time_per_iteration": 4.74734139, "memory(GiB)": 28.03, "elapsed_time": "1h 55m 57s", "remaining_time": "6h 36m 5s", "loss_scale": 1.0, "consumed_samples": 368128, "global_step/max_steps": "1438/6350"}
{"lm loss": 5.09871483, "grad_norm": 1.19191062, "learning_rate": 9.196e-05, "elapsed_time_per_iteration": 4.72952509, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 2s", "remaining_time": "6h 36m 0s", "loss_scale": 1.0, "consumed_samples": 368384, "global_step/max_steps": "1439/6350"}
{"lm loss": 5.08809566, "grad_norm": 1.53600073, "learning_rate": 9.195e-05, "elapsed_time_per_iteration": 4.72146988, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 6s", "remaining_time": "6h 35m 55s", "loss_scale": 1.0, "consumed_samples": 368640, "global_step/max_steps": "1440/6350"}
{"lm loss": 5.09264851, "grad_norm": 1.2330519, "learning_rate": 9.193e-05, "elapsed_time_per_iteration": 4.74021912, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 11s", "remaining_time": "6h 35m 50s", "loss_scale": 1.0, "consumed_samples": 368896, "global_step/max_steps": "1441/6350"}
{"lm loss": 5.10043049, "grad_norm": 1.3559289, "learning_rate": 9.192e-05, "elapsed_time_per_iteration": 4.72749949, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 16s", "remaining_time": "6h 35m 44s", "loss_scale": 1.0, "consumed_samples": 369152, "global_step/max_steps": "1442/6350"}
{"lm loss": 5.11116695, "grad_norm": 1.80094743, "learning_rate": 9.19e-05, "elapsed_time_per_iteration": 4.87306333, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 21s", "remaining_time": "6h 35m 40s", "loss_scale": 1.0, "consumed_samples": 369408, "global_step/max_steps": "1443/6350"}
{"lm loss": 5.10163212, "grad_norm": 1.27235532, "learning_rate": 9.189e-05, "elapsed_time_per_iteration": 5.47607183, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 26s", "remaining_time": "6h 35m 37s", "loss_scale": 1.0, "consumed_samples": 369664, "global_step/max_steps": "1444/6350"}
{"lm loss": 5.07873678, "grad_norm": 1.01985657, "learning_rate": 9.188e-05, "elapsed_time_per_iteration": 4.97781706, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 31s", "remaining_time": "6h 35m 33s", "loss_scale": 1.0, "consumed_samples": 369920, "global_step/max_steps": "1445/6350"}
{"lm loss": 5.08327532, "grad_norm": 1.98176193, "learning_rate": 9.186e-05, "elapsed_time_per_iteration": 5.20169854, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 36s", "remaining_time": "6h 35m 29s", "loss_scale": 1.0, "consumed_samples": 370176, "global_step/max_steps": "1446/6350"}
{"lm loss": 5.08760214, "grad_norm": 1.06646228, "learning_rate": 9.185e-05, "elapsed_time_per_iteration": 4.83938575, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 41s", "remaining_time": "6h 35m 24s", "loss_scale": 1.0, "consumed_samples": 370432, "global_step/max_steps": "1447/6350"}
{"lm loss": 5.10168743, "grad_norm": 1.53630948, "learning_rate": 9.183e-05, "elapsed_time_per_iteration": 4.76800609, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 46s", "remaining_time": "6h 35m 19s", "loss_scale": 1.0, "consumed_samples": 370688, "global_step/max_steps": "1448/6350"}
{"lm loss": 5.08651876, "grad_norm": 1.28340697, "learning_rate": 9.182e-05, "elapsed_time_per_iteration": 4.81980991, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 51s", "remaining_time": "6h 35m 14s", "loss_scale": 1.0, "consumed_samples": 370944, "global_step/max_steps": "1449/6350"}
{"lm loss": 5.10277271, "grad_norm": 1.42528868, "learning_rate": 9.181e-05, "elapsed_time_per_iteration": 4.73208475, "memory(GiB)": 28.03, "elapsed_time": "1h 56m 56s", "remaining_time": "6h 35m 9s", "loss_scale": 1.0, "consumed_samples": 371200, "global_step/max_steps": "1450/6350"}
{"lm loss": 5.09555626, "grad_norm": 1.34778452, "learning_rate": 9.179e-05, "elapsed_time_per_iteration": 5.46814466, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 1s", "remaining_time": "6h 35m 6s", "loss_scale": 1.0, "consumed_samples": 371456, "global_step/max_steps": "1451/6350"}
{"lm loss": 5.08731127, "grad_norm": 1.22371817, "learning_rate": 9.178e-05, "elapsed_time_per_iteration": 4.79979086, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 6s", "remaining_time": "6h 35m 1s", "loss_scale": 1.0, "consumed_samples": 371712, "global_step/max_steps": "1452/6350"}
{"lm loss": 5.06870127, "grad_norm": 1.24842203, "learning_rate": 9.176e-05, "elapsed_time_per_iteration": 4.7386353, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 11s", "remaining_time": "6h 34m 56s", "loss_scale": 1.0, "consumed_samples": 371968, "global_step/max_steps": "1453/6350"}
{"lm loss": 5.08795786, "grad_norm": 1.52426362, "learning_rate": 9.175e-05, "elapsed_time_per_iteration": 4.73146534, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 15s", "remaining_time": "6h 34m 51s", "loss_scale": 1.0, "consumed_samples": 372224, "global_step/max_steps": "1454/6350"}
{"lm loss": 5.10341787, "grad_norm": 1.24193704, "learning_rate": 9.174e-05, "elapsed_time_per_iteration": 4.88953829, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 20s", "remaining_time": "6h 34m 46s", "loss_scale": 1.0, "consumed_samples": 372480, "global_step/max_steps": "1455/6350"}
{"lm loss": 5.0872221, "grad_norm": 1.31573296, "learning_rate": 9.172e-05, "elapsed_time_per_iteration": 4.80978537, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 25s", "remaining_time": "6h 34m 41s", "loss_scale": 1.0, "consumed_samples": 372736, "global_step/max_steps": "1456/6350"}
{"lm loss": 5.10726547, "grad_norm": 1.53444362, "learning_rate": 9.171e-05, "elapsed_time_per_iteration": 4.79929638, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 30s", "remaining_time": "6h 34m 36s", "loss_scale": 1.0, "consumed_samples": 372992, "global_step/max_steps": "1457/6350"}
{"lm loss": 5.09572983, "grad_norm": 1.01881874, "learning_rate": 9.169e-05, "elapsed_time_per_iteration": 4.70762658, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 35s", "remaining_time": "6h 34m 31s", "loss_scale": 1.0, "consumed_samples": 373248, "global_step/max_steps": "1458/6350"}
{"lm loss": 5.08478069, "grad_norm": 1.60678089, "learning_rate": 9.168e-05, "elapsed_time_per_iteration": 4.82480645, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 39s", "remaining_time": "6h 34m 26s", "loss_scale": 1.0, "consumed_samples": 373504, "global_step/max_steps": "1459/6350"}
{"lm loss": 5.11134052, "grad_norm": 1.44413269, "learning_rate": 9.167e-05, "elapsed_time_per_iteration": 4.89935136, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 44s", "remaining_time": "6h 34m 22s", "loss_scale": 1.0, "consumed_samples": 373760, "global_step/max_steps": "1460/6350"}
{"lm loss": 5.09993696, "grad_norm": 1.60546565, "learning_rate": 9.165e-05, "elapsed_time_per_iteration": 4.79312301, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 49s", "remaining_time": "6h 34m 17s", "loss_scale": 1.0, "consumed_samples": 374016, "global_step/max_steps": "1461/6350"}
{"lm loss": 5.08956051, "grad_norm": 0.87896389, "learning_rate": 9.164e-05, "elapsed_time_per_iteration": 4.84140205, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 54s", "remaining_time": "6h 34m 12s", "loss_scale": 1.0, "consumed_samples": 374272, "global_step/max_steps": "1462/6350"}
{"lm loss": 5.10289717, "grad_norm": 1.36437726, "learning_rate": 9.162e-05, "elapsed_time_per_iteration": 4.90626597, "memory(GiB)": 28.03, "elapsed_time": "1h 57m 59s", "remaining_time": "6h 34m 7s", "loss_scale": 1.0, "consumed_samples": 374528, "global_step/max_steps": "1463/6350"}
{"lm loss": 5.11486578, "grad_norm": 1.37872648, "learning_rate": 9.161e-05, "elapsed_time_per_iteration": 5.30818725, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 4s", "remaining_time": "6h 34m 4s", "loss_scale": 1.0, "consumed_samples": 374784, "global_step/max_steps": "1464/6350"}
{"lm loss": 5.0770092, "grad_norm": 1.50120485, "learning_rate": 9.159e-05, "elapsed_time_per_iteration": 4.76183367, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 9s", "remaining_time": "6h 33m 59s", "loss_scale": 1.0, "consumed_samples": 375040, "global_step/max_steps": "1465/6350"}
{"lm loss": 5.07998562, "grad_norm": 1.47601175, "learning_rate": 9.158e-05, "elapsed_time_per_iteration": 4.79883671, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 14s", "remaining_time": "6h 33m 54s", "loss_scale": 1.0, "consumed_samples": 375296, "global_step/max_steps": "1466/6350"}
{"lm loss": 5.05916071, "grad_norm": 1.18620992, "learning_rate": 9.157e-05, "elapsed_time_per_iteration": 4.78551984, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 18s", "remaining_time": "6h 33m 49s", "loss_scale": 1.0, "consumed_samples": 375552, "global_step/max_steps": "1467/6350"}
{"lm loss": 5.08407831, "grad_norm": 1.86626673, "learning_rate": 9.155e-05, "elapsed_time_per_iteration": 4.67078948, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 23s", "remaining_time": "6h 33m 43s", "loss_scale": 1.0, "consumed_samples": 375808, "global_step/max_steps": "1468/6350"}
{"lm loss": 5.10248518, "grad_norm": 0.98410016, "learning_rate": 9.154e-05, "elapsed_time_per_iteration": 5.50773573, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 29s", "remaining_time": "6h 33m 41s", "loss_scale": 1.0, "consumed_samples": 376064, "global_step/max_steps": "1469/6350"}
{"lm loss": 5.09642887, "grad_norm": 1.47192872, "learning_rate": 9.152e-05, "elapsed_time_per_iteration": 4.73717928, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 33s", "remaining_time": "6h 33m 36s", "loss_scale": 1.0, "consumed_samples": 376320, "global_step/max_steps": "1470/6350"}
{"lm loss": 5.07311678, "grad_norm": 1.23399448, "learning_rate": 9.151e-05, "elapsed_time_per_iteration": 5.09830785, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 38s", "remaining_time": "6h 33m 32s", "loss_scale": 1.0, "consumed_samples": 376576, "global_step/max_steps": "1471/6350"}
{"lm loss": 5.08268118, "grad_norm": 1.3358525, "learning_rate": 9.149e-05, "elapsed_time_per_iteration": 4.68329263, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 43s", "remaining_time": "6h 33m 26s", "loss_scale": 1.0, "consumed_samples": 376832, "global_step/max_steps": "1472/6350"}
{"lm loss": 5.11679649, "grad_norm": 2.02621198, "learning_rate": 9.148e-05, "elapsed_time_per_iteration": 4.68210697, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 48s", "remaining_time": "6h 33m 21s", "loss_scale": 1.0, "consumed_samples": 377088, "global_step/max_steps": "1473/6350"}
{"lm loss": 5.10219812, "grad_norm": 1.0637635, "learning_rate": 9.147e-05, "elapsed_time_per_iteration": 4.62780523, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 52s", "remaining_time": "6h 33m 15s", "loss_scale": 1.0, "consumed_samples": 377344, "global_step/max_steps": "1474/6350"}
{"lm loss": 5.08292341, "grad_norm": 1.50062346, "learning_rate": 9.145e-05, "elapsed_time_per_iteration": 4.76019931, "memory(GiB)": 28.03, "elapsed_time": "1h 58m 57s", "remaining_time": "6h 33m 10s", "loss_scale": 1.0, "consumed_samples": 377600, "global_step/max_steps": "1475/6350"}
{"lm loss": 5.10008097, "grad_norm": 1.58585584, "learning_rate": 9.144e-05, "elapsed_time_per_iteration": 4.84471512, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 2s", "remaining_time": "6h 33m 5s", "loss_scale": 1.0, "consumed_samples": 377856, "global_step/max_steps": "1476/6350"}
{"lm loss": 5.07004833, "grad_norm": 1.19588673, "learning_rate": 9.142e-05, "elapsed_time_per_iteration": 4.72177267, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 7s", "remaining_time": "6h 33m 0s", "loss_scale": 1.0, "consumed_samples": 378112, "global_step/max_steps": "1477/6350"}
{"lm loss": 5.09402275, "grad_norm": 1.43933225, "learning_rate": 9.141e-05, "elapsed_time_per_iteration": 4.79564023, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 12s", "remaining_time": "6h 32m 55s", "loss_scale": 1.0, "consumed_samples": 378368, "global_step/max_steps": "1478/6350"}
{"lm loss": 5.08801603, "grad_norm": 1.36198485, "learning_rate": 9.139e-05, "elapsed_time_per_iteration": 4.97770023, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 17s", "remaining_time": "6h 32m 51s", "loss_scale": 1.0, "consumed_samples": 378624, "global_step/max_steps": "1479/6350"}
{"lm loss": 5.09784555, "grad_norm": 1.45679843, "learning_rate": 9.138e-05, "elapsed_time_per_iteration": 4.79512358, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 21s", "remaining_time": "6h 32m 46s", "loss_scale": 1.0, "consumed_samples": 378880, "global_step/max_steps": "1480/6350"}
{"lm loss": 5.08362198, "grad_norm": 1.5877974, "learning_rate": 9.137e-05, "elapsed_time_per_iteration": 4.72908807, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 26s", "remaining_time": "6h 32m 41s", "loss_scale": 1.0, "consumed_samples": 379136, "global_step/max_steps": "1481/6350"}
{"lm loss": 5.10287094, "grad_norm": 1.52074146, "learning_rate": 9.135e-05, "elapsed_time_per_iteration": 4.68925858, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 31s", "remaining_time": "6h 32m 35s", "loss_scale": 1.0, "consumed_samples": 379392, "global_step/max_steps": "1482/6350"}
{"lm loss": 5.0991888, "grad_norm": 1.07156646, "learning_rate": 9.134e-05, "elapsed_time_per_iteration": 5.75961876, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 37s", "remaining_time": "6h 32m 34s", "loss_scale": 1.0, "consumed_samples": 379648, "global_step/max_steps": "1483/6350"}
{"lm loss": 5.07312822, "grad_norm": 2.07661271, "learning_rate": 9.132e-05, "elapsed_time_per_iteration": 4.72900796, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 41s", "remaining_time": "6h 32m 28s", "loss_scale": 1.0, "consumed_samples": 379904, "global_step/max_steps": "1484/6350"}
{"lm loss": 5.07312298, "grad_norm": 1.02937698, "learning_rate": 9.131e-05, "elapsed_time_per_iteration": 4.73730278, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 46s", "remaining_time": "6h 32m 23s", "loss_scale": 1.0, "consumed_samples": 380160, "global_step/max_steps": "1485/6350"}
{"lm loss": 5.1074934, "grad_norm": 1.53821385, "learning_rate": 9.129e-05, "elapsed_time_per_iteration": 4.69143748, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 51s", "remaining_time": "6h 32m 18s", "loss_scale": 1.0, "consumed_samples": 380416, "global_step/max_steps": "1486/6350"}
{"lm loss": 5.10037661, "grad_norm": 0.95731449, "learning_rate": 9.128e-05, "elapsed_time_per_iteration": 4.70883918, "memory(GiB)": 28.03, "elapsed_time": "1h 59m 55s", "remaining_time": "6h 32m 13s", "loss_scale": 1.0, "consumed_samples": 380672, "global_step/max_steps": "1487/6350"}
{"lm loss": 5.07574081, "grad_norm": 1.65509176, "learning_rate": 9.126e-05, "elapsed_time_per_iteration": 4.72455239, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 0s", "remaining_time": "6h 32m 7s", "loss_scale": 1.0, "consumed_samples": 380928, "global_step/max_steps": "1488/6350"}
{"lm loss": 5.09689903, "grad_norm": 1.88200092, "learning_rate": 9.125e-05, "elapsed_time_per_iteration": 4.77655768, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 5s", "remaining_time": "6h 32m 2s", "loss_scale": 1.0, "consumed_samples": 381184, "global_step/max_steps": "1489/6350"}
{"lm loss": 5.07806063, "grad_norm": 0.92739135, "learning_rate": 9.124e-05, "elapsed_time_per_iteration": 5.64279652, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 11s", "remaining_time": "6h 32m 0s", "loss_scale": 1.0, "consumed_samples": 381440, "global_step/max_steps": "1490/6350"}
{"lm loss": 5.05559731, "grad_norm": 2.05421495, "learning_rate": 9.122e-05, "elapsed_time_per_iteration": 4.72382593, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 15s", "remaining_time": "6h 31m 55s", "loss_scale": 1.0, "consumed_samples": 381696, "global_step/max_steps": "1491/6350"}
{"lm loss": 5.09488201, "grad_norm": 1.46898711, "learning_rate": 9.121e-05, "elapsed_time_per_iteration": 4.75056815, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 20s", "remaining_time": "6h 31m 50s", "loss_scale": 1.0, "consumed_samples": 381952, "global_step/max_steps": "1492/6350"}
{"lm loss": 5.09098625, "grad_norm": 1.37709665, "learning_rate": 9.119e-05, "elapsed_time_per_iteration": 4.75430417, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 25s", "remaining_time": "6h 31m 45s", "loss_scale": 1.0, "consumed_samples": 382208, "global_step/max_steps": "1493/6350"}
{"lm loss": 5.07851982, "grad_norm": 1.19787598, "learning_rate": 9.118e-05, "elapsed_time_per_iteration": 4.70719361, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 29s", "remaining_time": "6h 31m 39s", "loss_scale": 1.0, "consumed_samples": 382464, "global_step/max_steps": "1494/6350"}
{"lm loss": 5.08592176, "grad_norm": 1.42654335, "learning_rate": 9.116e-05, "elapsed_time_per_iteration": 4.78831315, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 34s", "remaining_time": "6h 31m 34s", "loss_scale": 1.0, "consumed_samples": 382720, "global_step/max_steps": "1495/6350"}
{"lm loss": 5.08910799, "grad_norm": 1.23710799, "learning_rate": 9.115e-05, "elapsed_time_per_iteration": 4.76397896, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 39s", "remaining_time": "6h 31m 29s", "loss_scale": 1.0, "consumed_samples": 382976, "global_step/max_steps": "1496/6350"}
{"lm loss": 5.09704399, "grad_norm": 1.53993595, "learning_rate": 9.113e-05, "elapsed_time_per_iteration": 4.79404283, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 44s", "remaining_time": "6h 31m 24s", "loss_scale": 1.0, "consumed_samples": 383232, "global_step/max_steps": "1497/6350"}
{"lm loss": 5.07657242, "grad_norm": 1.16238284, "learning_rate": 9.112e-05, "elapsed_time_per_iteration": 4.72884369, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 49s", "remaining_time": "6h 31m 19s", "loss_scale": 1.0, "consumed_samples": 383488, "global_step/max_steps": "1498/6350"}
{"lm loss": 5.0626545, "grad_norm": 1.54715014, "learning_rate": 9.111e-05, "elapsed_time_per_iteration": 4.80919886, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 53s", "remaining_time": "6h 31m 14s", "loss_scale": 1.0, "consumed_samples": 383744, "global_step/max_steps": "1499/6350"}
{"lm loss": 5.07333899, "grad_norm": 1.16176295, "learning_rate": 9.109e-05, "elapsed_time_per_iteration": 5.40814304, "memory(GiB)": 28.03, "elapsed_time": "2h 0m 59s", "remaining_time": "6h 31m 11s", "loss_scale": 1.0, "consumed_samples": 384000, "global_step/max_steps": "1500/6350"}
{"lm loss": 5.09645653, "grad_norm": 1.16896176, "learning_rate": 9.108e-05, "elapsed_time_per_iteration": 4.65463161, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 3s", "remaining_time": "6h 31m 6s", "loss_scale": 1.0, "consumed_samples": 384256, "global_step/max_steps": "1501/6350"}
{"lm loss": 5.10183191, "grad_norm": 1.19547629, "learning_rate": 9.106e-05, "elapsed_time_per_iteration": 4.77065921, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 8s", "remaining_time": "6h 31m 1s", "loss_scale": 1.0, "consumed_samples": 384512, "global_step/max_steps": "1502/6350"}
{"lm loss": 5.08751965, "grad_norm": 1.19620407, "learning_rate": 9.105e-05, "elapsed_time_per_iteration": 4.70619416, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 13s", "remaining_time": "6h 30m 55s", "loss_scale": 1.0, "consumed_samples": 384768, "global_step/max_steps": "1503/6350"}
{"lm loss": 5.059093, "grad_norm": 1.04662299, "learning_rate": 9.103e-05, "elapsed_time_per_iteration": 4.75946164, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 18s", "remaining_time": "6h 30m 50s", "loss_scale": 1.0, "consumed_samples": 385024, "global_step/max_steps": "1504/6350"}
{"lm loss": 5.06329632, "grad_norm": 1.77066743, "learning_rate": 9.102e-05, "elapsed_time_per_iteration": 4.69847798, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 22s", "remaining_time": "6h 30m 45s", "loss_scale": 1.0, "consumed_samples": 385280, "global_step/max_steps": "1505/6350"}
{"lm loss": 5.06989717, "grad_norm": 1.34041917, "learning_rate": 9.1e-05, "elapsed_time_per_iteration": 4.67918181, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 27s", "remaining_time": "6h 30m 40s", "loss_scale": 1.0, "consumed_samples": 385536, "global_step/max_steps": "1506/6350"}
{"lm loss": 5.06998587, "grad_norm": 1.31625664, "learning_rate": 9.099e-05, "elapsed_time_per_iteration": 4.72223067, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 32s", "remaining_time": "6h 30m 34s", "loss_scale": 1.0, "consumed_samples": 385792, "global_step/max_steps": "1507/6350"}
{"lm loss": 5.08487749, "grad_norm": 1.25649905, "learning_rate": 9.097e-05, "elapsed_time_per_iteration": 4.71045494, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 36s", "remaining_time": "6h 30m 29s", "loss_scale": 1.0, "consumed_samples": 386048, "global_step/max_steps": "1508/6350"}
{"lm loss": 5.07808208, "grad_norm": 1.27229989, "learning_rate": 9.096e-05, "elapsed_time_per_iteration": 4.84914756, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 41s", "remaining_time": "6h 30m 24s", "loss_scale": 1.0, "consumed_samples": 386304, "global_step/max_steps": "1509/6350"}
{"lm loss": 5.08866739, "grad_norm": 1.05771124, "learning_rate": 9.094e-05, "elapsed_time_per_iteration": 4.72170544, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 46s", "remaining_time": "6h 30m 19s", "loss_scale": 1.0, "consumed_samples": 386560, "global_step/max_steps": "1510/6350"}
{"lm loss": 5.09299326, "grad_norm": 1.1418612, "learning_rate": 9.093e-05, "elapsed_time_per_iteration": 4.69656396, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 51s", "remaining_time": "6h 30m 14s", "loss_scale": 1.0, "consumed_samples": 386816, "global_step/max_steps": "1511/6350"}
{"lm loss": 5.08984995, "grad_norm": 1.13537097, "learning_rate": 9.091e-05, "elapsed_time_per_iteration": 5.61084056, "memory(GiB)": 28.03, "elapsed_time": "2h 1m 56s", "remaining_time": "6h 30m 12s", "loss_scale": 1.0, "consumed_samples": 387072, "global_step/max_steps": "1512/6350"}
{"lm loss": 5.06439018, "grad_norm": 1.40856111, "learning_rate": 9.09e-05, "elapsed_time_per_iteration": 4.72403932, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 1s", "remaining_time": "6h 30m 6s", "loss_scale": 1.0, "consumed_samples": 387328, "global_step/max_steps": "1513/6350"}
{"lm loss": 5.0655961, "grad_norm": 1.63076687, "learning_rate": 9.089e-05, "elapsed_time_per_iteration": 4.76582122, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 6s", "remaining_time": "6h 30m 1s", "loss_scale": 1.0, "consumed_samples": 387584, "global_step/max_steps": "1514/6350"}
{"lm loss": 5.07788849, "grad_norm": 1.45765126, "learning_rate": 9.087e-05, "elapsed_time_per_iteration": 5.76536417, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 12s", "remaining_time": "6h 29m 59s", "loss_scale": 1.0, "consumed_samples": 387840, "global_step/max_steps": "1515/6350"}
{"lm loss": 5.07732391, "grad_norm": 0.8229261, "learning_rate": 9.086e-05, "elapsed_time_per_iteration": 4.66408229, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 16s", "remaining_time": "6h 29m 54s", "loss_scale": 1.0, "consumed_samples": 388096, "global_step/max_steps": "1516/6350"}
{"lm loss": 5.06553268, "grad_norm": 0.95787251, "learning_rate": 9.084e-05, "elapsed_time_per_iteration": 4.67980337, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 21s", "remaining_time": "6h 29m 49s", "loss_scale": 1.0, "consumed_samples": 388352, "global_step/max_steps": "1517/6350"}
{"lm loss": 5.07325268, "grad_norm": 1.30428731, "learning_rate": 9.083e-05, "elapsed_time_per_iteration": 4.67268491, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 26s", "remaining_time": "6h 29m 43s", "loss_scale": 1.0, "consumed_samples": 388608, "global_step/max_steps": "1518/6350"}
{"lm loss": 5.0576458, "grad_norm": 0.83840591, "learning_rate": 9.081e-05, "elapsed_time_per_iteration": 4.70464778, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 30s", "remaining_time": "6h 29m 38s", "loss_scale": 1.0, "consumed_samples": 388864, "global_step/max_steps": "1519/6350"}
{"lm loss": 5.0893755, "grad_norm": 1.2421484, "learning_rate": 9.08e-05, "elapsed_time_per_iteration": 5.38609076, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 36s", "remaining_time": "6h 29m 35s", "loss_scale": 1.0, "consumed_samples": 389120, "global_step/max_steps": "1520/6350"}
{"lm loss": 5.09274626, "grad_norm": 1.60965633, "learning_rate": 9.078e-05, "elapsed_time_per_iteration": 4.71937728, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 40s", "remaining_time": "6h 29m 30s", "loss_scale": 1.0, "consumed_samples": 389376, "global_step/max_steps": "1521/6350"}
{"lm loss": 5.09679604, "grad_norm": 1.7010864, "learning_rate": 9.077e-05, "elapsed_time_per_iteration": 4.78901577, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 45s", "remaining_time": "6h 29m 25s", "loss_scale": 1.0, "consumed_samples": 389632, "global_step/max_steps": "1522/6350"}
{"lm loss": 5.06946421, "grad_norm": 0.84413284, "learning_rate": 9.075e-05, "elapsed_time_per_iteration": 4.75718164, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 50s", "remaining_time": "6h 29m 20s", "loss_scale": 1.0, "consumed_samples": 389888, "global_step/max_steps": "1523/6350"}
{"lm loss": 5.06997681, "grad_norm": 1.10287106, "learning_rate": 9.074e-05, "elapsed_time_per_iteration": 5.62126136, "memory(GiB)": 28.03, "elapsed_time": "2h 2m 56s", "remaining_time": "6h 29m 17s", "loss_scale": 1.0, "consumed_samples": 390144, "global_step/max_steps": "1524/6350"}
{"lm loss": 5.0640254, "grad_norm": 1.78656423, "learning_rate": 9.072e-05, "elapsed_time_per_iteration": 4.74339533, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 0s", "remaining_time": "6h 29m 12s", "loss_scale": 1.0, "consumed_samples": 390400, "global_step/max_steps": "1525/6350"}
{"lm loss": 5.07779503, "grad_norm": 1.16513538, "learning_rate": 9.071e-05, "elapsed_time_per_iteration": 4.71894598, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 5s", "remaining_time": "6h 29m 7s", "loss_scale": 1.0, "consumed_samples": 390656, "global_step/max_steps": "1526/6350"}
{"lm loss": 5.07654715, "grad_norm": 2.29736161, "learning_rate": 9.069e-05, "elapsed_time_per_iteration": 5.95499206, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 11s", "remaining_time": "6h 29m 5s", "loss_scale": 1.0, "consumed_samples": 390912, "global_step/max_steps": "1527/6350"}
{"lm loss": 5.09161758, "grad_norm": 1.27973759, "learning_rate": 9.068e-05, "elapsed_time_per_iteration": 4.73453522, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 16s", "remaining_time": "6h 29m 0s", "loss_scale": 1.0, "consumed_samples": 391168, "global_step/max_steps": "1528/6350"}
{"lm loss": 5.08016062, "grad_norm": 2.30492616, "learning_rate": 9.066e-05, "elapsed_time_per_iteration": 4.75054193, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 21s", "remaining_time": "6h 28m 55s", "loss_scale": 1.0, "consumed_samples": 391424, "global_step/max_steps": "1529/6350"}
{"lm loss": 5.10102224, "grad_norm": 1.71426749, "learning_rate": 9.065e-05, "elapsed_time_per_iteration": 4.69481754, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 25s", "remaining_time": "6h 28m 50s", "loss_scale": 1.0, "consumed_samples": 391680, "global_step/max_steps": "1530/6350"}
{"lm loss": 5.0737462, "grad_norm": 1.96771801, "learning_rate": 9.063e-05, "elapsed_time_per_iteration": 4.71365714, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 30s", "remaining_time": "6h 28m 45s", "loss_scale": 1.0, "consumed_samples": 391936, "global_step/max_steps": "1531/6350"}
{"lm loss": 5.07692671, "grad_norm": 1.52601564, "learning_rate": 9.062e-05, "elapsed_time_per_iteration": 4.74767756, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 35s", "remaining_time": "6h 28m 40s", "loss_scale": 1.0, "consumed_samples": 392192, "global_step/max_steps": "1532/6350"}
{"lm loss": 5.08369923, "grad_norm": 1.52080035, "learning_rate": 9.06e-05, "elapsed_time_per_iteration": 5.61594844, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 40s", "remaining_time": "6h 28m 37s", "loss_scale": 1.0, "consumed_samples": 392448, "global_step/max_steps": "1533/6350"}
{"lm loss": 5.08140326, "grad_norm": 1.17406833, "learning_rate": 9.059e-05, "elapsed_time_per_iteration": 4.75071812, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 45s", "remaining_time": "6h 28m 32s", "loss_scale": 1.0, "consumed_samples": 392704, "global_step/max_steps": "1534/6350"}
{"lm loss": 5.10717964, "grad_norm": 1.43738186, "learning_rate": 9.057e-05, "elapsed_time_per_iteration": 4.74227715, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 50s", "remaining_time": "6h 28m 27s", "loss_scale": 1.0, "consumed_samples": 392960, "global_step/max_steps": "1535/6350"}
{"lm loss": 5.09482813, "grad_norm": 1.13272595, "learning_rate": 9.056e-05, "elapsed_time_per_iteration": 4.78241491, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 55s", "remaining_time": "6h 28m 22s", "loss_scale": 1.0, "consumed_samples": 393216, "global_step/max_steps": "1536/6350"}
{"lm loss": 5.06959391, "grad_norm": 1.44978285, "learning_rate": 9.054e-05, "elapsed_time_per_iteration": 4.7026453, "memory(GiB)": 28.03, "elapsed_time": "2h 3m 59s", "remaining_time": "6h 28m 17s", "loss_scale": 1.0, "consumed_samples": 393472, "global_step/max_steps": "1537/6350"}
{"lm loss": 5.07420683, "grad_norm": 1.8468833, "learning_rate": 9.053e-05, "elapsed_time_per_iteration": 4.72406602, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 4s", "remaining_time": "6h 28m 11s", "loss_scale": 1.0, "consumed_samples": 393728, "global_step/max_steps": "1538/6350"}
{"lm loss": 5.07743597, "grad_norm": 1.06508625, "learning_rate": 9.051e-05, "elapsed_time_per_iteration": 4.77539873, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 9s", "remaining_time": "6h 28m 6s", "loss_scale": 1.0, "consumed_samples": 393984, "global_step/max_steps": "1539/6350"}
{"lm loss": 5.0986805, "grad_norm": 1.19441628, "learning_rate": 9.05e-05, "elapsed_time_per_iteration": 4.78654933, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 14s", "remaining_time": "6h 28m 1s", "loss_scale": 1.0, "consumed_samples": 394240, "global_step/max_steps": "1540/6350"}
{"lm loss": 5.078825, "grad_norm": 0.91599989, "learning_rate": 9.048e-05, "elapsed_time_per_iteration": 4.84778666, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 18s", "remaining_time": "6h 27m 56s", "loss_scale": 1.0, "consumed_samples": 394496, "global_step/max_steps": "1541/6350"}
{"lm loss": 5.07825089, "grad_norm": 1.18091428, "learning_rate": 9.047e-05, "elapsed_time_per_iteration": 4.78346062, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 23s", "remaining_time": "6h 27m 51s", "loss_scale": 1.0, "consumed_samples": 394752, "global_step/max_steps": "1542/6350"}
{"lm loss": 5.06534433, "grad_norm": 1.10181749, "learning_rate": 9.045e-05, "elapsed_time_per_iteration": 5.07186484, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 28s", "remaining_time": "6h 27m 47s", "loss_scale": 1.0, "consumed_samples": 395008, "global_step/max_steps": "1543/6350"}
{"lm loss": 5.0698204, "grad_norm": 1.52851486, "learning_rate": 9.044e-05, "elapsed_time_per_iteration": 4.75761819, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 33s", "remaining_time": "6h 27m 42s", "loss_scale": 1.0, "consumed_samples": 395264, "global_step/max_steps": "1544/6350"}
{"lm loss": 5.06838989, "grad_norm": 1.45925426, "learning_rate": 9.042e-05, "elapsed_time_per_iteration": 4.71023417, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 38s", "remaining_time": "6h 27m 37s", "loss_scale": 1.0, "consumed_samples": 395520, "global_step/max_steps": "1545/6350"}
{"lm loss": 5.08948088, "grad_norm": 1.18272018, "learning_rate": 9.041e-05, "elapsed_time_per_iteration": 4.69108176, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 42s", "remaining_time": "6h 27m 32s", "loss_scale": 1.0, "consumed_samples": 395776, "global_step/max_steps": "1546/6350"}
{"lm loss": 5.0615325, "grad_norm": 1.69291174, "learning_rate": 9.039e-05, "elapsed_time_per_iteration": 5.58212233, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 48s", "remaining_time": "6h 27m 29s", "loss_scale": 1.0, "consumed_samples": 396032, "global_step/max_steps": "1547/6350"}
{"lm loss": 5.07256174, "grad_norm": 1.52123106, "learning_rate": 9.038e-05, "elapsed_time_per_iteration": 4.72629786, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 53s", "remaining_time": "6h 27m 24s", "loss_scale": 1.0, "consumed_samples": 396288, "global_step/max_steps": "1548/6350"}
{"lm loss": 5.09267998, "grad_norm": 1.02929533, "learning_rate": 9.036e-05, "elapsed_time_per_iteration": 4.73672771, "memory(GiB)": 28.03, "elapsed_time": "2h 4m 57s", "remaining_time": "6h 27m 19s", "loss_scale": 1.0, "consumed_samples": 396544, "global_step/max_steps": "1549/6350"}
{"lm loss": 5.07893419, "grad_norm": 1.10853434, "learning_rate": 9.035e-05, "elapsed_time_per_iteration": 4.74331856, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 2s", "remaining_time": "6h 27m 14s", "loss_scale": 1.0, "consumed_samples": 396800, "global_step/max_steps": "1550/6350"}
{"lm loss": 5.0598321, "grad_norm": 1.68678355, "learning_rate": 9.033e-05, "elapsed_time_per_iteration": 4.67314148, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 7s", "remaining_time": "6h 27m 8s", "loss_scale": 1.0, "consumed_samples": 397056, "global_step/max_steps": "1551/6350"}
{"lm loss": 5.06562424, "grad_norm": 1.50731611, "learning_rate": 9.032e-05, "elapsed_time_per_iteration": 4.70188451, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 12s", "remaining_time": "6h 27m 3s", "loss_scale": 1.0, "consumed_samples": 397312, "global_step/max_steps": "1552/6350"}
{"lm loss": 5.08542395, "grad_norm": 1.38536429, "learning_rate": 9.03e-05, "elapsed_time_per_iteration": 4.64502478, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 16s", "remaining_time": "6h 26m 58s", "loss_scale": 1.0, "consumed_samples": 397568, "global_step/max_steps": "1553/6350"}
{"lm loss": 5.08041286, "grad_norm": 0.81135362, "learning_rate": 9.029e-05, "elapsed_time_per_iteration": 4.73514748, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 21s", "remaining_time": "6h 26m 52s", "loss_scale": 1.0, "consumed_samples": 397824, "global_step/max_steps": "1554/6350"}
{"lm loss": 5.0720973, "grad_norm": 1.20043719, "learning_rate": 9.027e-05, "elapsed_time_per_iteration": 4.81735039, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 26s", "remaining_time": "6h 26m 48s", "loss_scale": 1.0, "consumed_samples": 398080, "global_step/max_steps": "1555/6350"}
{"lm loss": 5.07957554, "grad_norm": 1.25319135, "learning_rate": 9.026e-05, "elapsed_time_per_iteration": 4.69770718, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 30s", "remaining_time": "6h 26m 42s", "loss_scale": 1.0, "consumed_samples": 398336, "global_step/max_steps": "1556/6350"}
{"lm loss": 5.09210491, "grad_norm": 1.35106802, "learning_rate": 9.024e-05, "elapsed_time_per_iteration": 4.72709322, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 35s", "remaining_time": "6h 26m 37s", "loss_scale": 1.0, "consumed_samples": 398592, "global_step/max_steps": "1557/6350"}
{"lm loss": 5.09846878, "grad_norm": 0.90722477, "learning_rate": 9.023e-05, "elapsed_time_per_iteration": 4.78164196, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 40s", "remaining_time": "6h 26m 32s", "loss_scale": 1.0, "consumed_samples": 398848, "global_step/max_steps": "1558/6350"}
{"lm loss": 5.08201313, "grad_norm": 1.19400084, "learning_rate": 9.021e-05, "elapsed_time_per_iteration": 4.84299231, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 45s", "remaining_time": "6h 26m 27s", "loss_scale": 1.0, "consumed_samples": 399104, "global_step/max_steps": "1559/6350"}
{"lm loss": 5.07145643, "grad_norm": 0.8066957, "learning_rate": 9.02e-05, "elapsed_time_per_iteration": 4.69769955, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 50s", "remaining_time": "6h 26m 22s", "loss_scale": 1.0, "consumed_samples": 399360, "global_step/max_steps": "1560/6350"}
{"lm loss": 5.05662203, "grad_norm": 1.62935567, "learning_rate": 9.018e-05, "elapsed_time_per_iteration": 4.68559265, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 54s", "remaining_time": "6h 26m 17s", "loss_scale": 1.0, "consumed_samples": 399616, "global_step/max_steps": "1561/6350"}
{"lm loss": 5.0563302, "grad_norm": 1.06929755, "learning_rate": 9.017e-05, "elapsed_time_per_iteration": 5.20949769, "memory(GiB)": 28.03, "elapsed_time": "2h 5m 59s", "remaining_time": "6h 26m 13s", "loss_scale": 1.0, "consumed_samples": 399872, "global_step/max_steps": "1562/6350"}
{"lm loss": 5.07504654, "grad_norm": 1.51705813, "learning_rate": 9.015e-05, "elapsed_time_per_iteration": 4.71596289, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 4s", "remaining_time": "6h 26m 8s", "loss_scale": 1.0, "consumed_samples": 400128, "global_step/max_steps": "1563/6350"}
{"lm loss": 5.09104729, "grad_norm": 1.47933662, "learning_rate": 9.014e-05, "elapsed_time_per_iteration": 4.84414649, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 9s", "remaining_time": "6h 26m 3s", "loss_scale": 1.0, "consumed_samples": 400384, "global_step/max_steps": "1564/6350"}
{"lm loss": 5.10074997, "grad_norm": 1.08796394, "learning_rate": 9.012e-05, "elapsed_time_per_iteration": 4.82637906, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 14s", "remaining_time": "6h 25m 58s", "loss_scale": 1.0, "consumed_samples": 400640, "global_step/max_steps": "1565/6350"}
{"lm loss": 5.09002638, "grad_norm": 1.48019791, "learning_rate": 9.01e-05, "elapsed_time_per_iteration": 4.75457716, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 19s", "remaining_time": "6h 25m 53s", "loss_scale": 1.0, "consumed_samples": 400896, "global_step/max_steps": "1566/6350"}
{"lm loss": 5.08584785, "grad_norm": 1.31435609, "learning_rate": 9.009e-05, "elapsed_time_per_iteration": 4.77180505, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 23s", "remaining_time": "6h 25m 48s", "loss_scale": 1.0, "consumed_samples": 401152, "global_step/max_steps": "1567/6350"}
{"lm loss": 5.06552696, "grad_norm": 1.51885068, "learning_rate": 9.007e-05, "elapsed_time_per_iteration": 4.74245191, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 28s", "remaining_time": "6h 25m 43s", "loss_scale": 1.0, "consumed_samples": 401408, "global_step/max_steps": "1568/6350"}
{"lm loss": 5.07671642, "grad_norm": 0.89146852, "learning_rate": 9.006e-05, "elapsed_time_per_iteration": 4.68350673, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 33s", "remaining_time": "6h 25m 37s", "loss_scale": 1.0, "consumed_samples": 401664, "global_step/max_steps": "1569/6350"}
{"lm loss": 5.06884336, "grad_norm": 1.15537131, "learning_rate": 9.004e-05, "elapsed_time_per_iteration": 5.62084866, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 38s", "remaining_time": "6h 25m 35s", "loss_scale": 1.0, "consumed_samples": 401920, "global_step/max_steps": "1570/6350"}
{"lm loss": 5.05368233, "grad_norm": 1.69182086, "learning_rate": 9.003e-05, "elapsed_time_per_iteration": 4.71575713, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 43s", "remaining_time": "6h 25m 30s", "loss_scale": 1.0, "consumed_samples": 402176, "global_step/max_steps": "1571/6350"}
{"lm loss": 5.0617795, "grad_norm": 0.97503394, "learning_rate": 9.001e-05, "elapsed_time_per_iteration": 4.75493717, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 48s", "remaining_time": "6h 25m 25s", "loss_scale": 1.0, "consumed_samples": 402432, "global_step/max_steps": "1572/6350"}
{"lm loss": 5.08141613, "grad_norm": 1.28345537, "learning_rate": 9e-05, "elapsed_time_per_iteration": 4.76677465, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 53s", "remaining_time": "6h 25m 20s", "loss_scale": 1.0, "consumed_samples": 402688, "global_step/max_steps": "1573/6350"}
{"lm loss": 5.07133102, "grad_norm": 1.22532952, "learning_rate": 8.998e-05, "elapsed_time_per_iteration": 4.71334434, "memory(GiB)": 28.03, "elapsed_time": "2h 6m 57s", "remaining_time": "6h 25m 14s", "loss_scale": 1.0, "consumed_samples": 402944, "global_step/max_steps": "1574/6350"}
{"lm loss": 5.07192421, "grad_norm": 1.43319583, "learning_rate": 8.997e-05, "elapsed_time_per_iteration": 5.30519128, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 3s", "remaining_time": "6h 25m 11s", "loss_scale": 1.0, "consumed_samples": 403200, "global_step/max_steps": "1575/6350"}
{"lm loss": 5.09673882, "grad_norm": 1.24747705, "learning_rate": 8.995e-05, "elapsed_time_per_iteration": 4.71495891, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 7s", "remaining_time": "6h 25m 6s", "loss_scale": 1.0, "consumed_samples": 403456, "global_step/max_steps": "1576/6350"}
{"lm loss": 5.07414484, "grad_norm": 1.22963095, "learning_rate": 8.994e-05, "elapsed_time_per_iteration": 4.73819518, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 12s", "remaining_time": "6h 25m 1s", "loss_scale": 1.0, "consumed_samples": 403712, "global_step/max_steps": "1577/6350"}
{"lm loss": 5.09168816, "grad_norm": 1.26099825, "learning_rate": 8.992e-05, "elapsed_time_per_iteration": 4.71275449, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 17s", "remaining_time": "6h 24m 55s", "loss_scale": 1.0, "consumed_samples": 403968, "global_step/max_steps": "1578/6350"}
{"lm loss": 5.07614994, "grad_norm": 1.32719791, "learning_rate": 8.99e-05, "elapsed_time_per_iteration": 4.70892835, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 22s", "remaining_time": "6h 24m 50s", "loss_scale": 1.0, "consumed_samples": 404224, "global_step/max_steps": "1579/6350"}
{"lm loss": 5.06828785, "grad_norm": 0.9893294, "learning_rate": 8.989e-05, "elapsed_time_per_iteration": 4.72515941, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 26s", "remaining_time": "6h 24m 45s", "loss_scale": 1.0, "consumed_samples": 404480, "global_step/max_steps": "1580/6350"}
{"lm loss": 5.08557606, "grad_norm": 1.31419039, "learning_rate": 8.987e-05, "elapsed_time_per_iteration": 4.67520213, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 31s", "remaining_time": "6h 24m 40s", "loss_scale": 1.0, "consumed_samples": 404736, "global_step/max_steps": "1581/6350"}
{"lm loss": 5.06079245, "grad_norm": 1.13541687, "learning_rate": 8.986e-05, "elapsed_time_per_iteration": 4.72933578, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 36s", "remaining_time": "6h 24m 34s", "loss_scale": 1.0, "consumed_samples": 404992, "global_step/max_steps": "1582/6350"}
{"lm loss": 5.06722212, "grad_norm": 1.44661534, "learning_rate": 8.984e-05, "elapsed_time_per_iteration": 5.65315986, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 41s", "remaining_time": "6h 24m 32s", "loss_scale": 1.0, "consumed_samples": 405248, "global_step/max_steps": "1583/6350"}
{"lm loss": 5.08622074, "grad_norm": 1.21845055, "learning_rate": 8.983e-05, "elapsed_time_per_iteration": 4.78606701, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 46s", "remaining_time": "6h 24m 27s", "loss_scale": 1.0, "consumed_samples": 405504, "global_step/max_steps": "1584/6350"}
{"lm loss": 5.07296848, "grad_norm": 1.07878268, "learning_rate": 8.981e-05, "elapsed_time_per_iteration": 4.72634554, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 51s", "remaining_time": "6h 24m 22s", "loss_scale": 1.0, "consumed_samples": 405760, "global_step/max_steps": "1585/6350"}
{"lm loss": 5.08006716, "grad_norm": 1.55251944, "learning_rate": 8.98e-05, "elapsed_time_per_iteration": 4.72295713, "memory(GiB)": 28.03, "elapsed_time": "2h 7m 56s", "remaining_time": "6h 24m 17s", "loss_scale": 1.0, "consumed_samples": 406016, "global_step/max_steps": "1586/6350"}
{"lm loss": 5.05298185, "grad_norm": 1.71155906, "learning_rate": 8.978e-05, "elapsed_time_per_iteration": 4.77322745, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 0s", "remaining_time": "6h 24m 12s", "loss_scale": 1.0, "consumed_samples": 406272, "global_step/max_steps": "1587/6350"}
{"lm loss": 5.0709033, "grad_norm": 1.22538924, "learning_rate": 8.977e-05, "elapsed_time_per_iteration": 4.75031686, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 5s", "remaining_time": "6h 24m 6s", "loss_scale": 1.0, "consumed_samples": 406528, "global_step/max_steps": "1588/6350"}
{"lm loss": 5.06045532, "grad_norm": 1.35456848, "learning_rate": 8.975e-05, "elapsed_time_per_iteration": 4.7165935, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 10s", "remaining_time": "6h 24m 1s", "loss_scale": 1.0, "consumed_samples": 406784, "global_step/max_steps": "1589/6350"}
{"lm loss": 5.06128645, "grad_norm": 0.8605212, "learning_rate": 8.973e-05, "elapsed_time_per_iteration": 4.81647539, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 15s", "remaining_time": "6h 23m 56s", "loss_scale": 1.0, "consumed_samples": 407040, "global_step/max_steps": "1590/6350"}
{"lm loss": 5.05634546, "grad_norm": 1.29905784, "learning_rate": 8.972e-05, "elapsed_time_per_iteration": 4.73703933, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 19s", "remaining_time": "6h 23m 51s", "loss_scale": 1.0, "consumed_samples": 407296, "global_step/max_steps": "1591/6350"}
{"lm loss": 5.05059147, "grad_norm": 1.41327167, "learning_rate": 8.97e-05, "elapsed_time_per_iteration": 5.42784619, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 25s", "remaining_time": "6h 23m 48s", "loss_scale": 1.0, "consumed_samples": 407552, "global_step/max_steps": "1592/6350"}
{"lm loss": 5.06006813, "grad_norm": 1.43455875, "learning_rate": 8.969e-05, "elapsed_time_per_iteration": 4.79211378, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 30s", "remaining_time": "6h 23m 43s", "loss_scale": 1.0, "consumed_samples": 407808, "global_step/max_steps": "1593/6350"}
{"lm loss": 5.06995487, "grad_norm": 1.55304265, "learning_rate": 8.967e-05, "elapsed_time_per_iteration": 5.52711439, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 35s", "remaining_time": "6h 23m 40s", "loss_scale": 1.0, "consumed_samples": 408064, "global_step/max_steps": "1594/6350"}
{"lm loss": 5.0598793, "grad_norm": 0.77785599, "learning_rate": 8.966e-05, "elapsed_time_per_iteration": 4.74449229, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 40s", "remaining_time": "6h 23m 35s", "loss_scale": 1.0, "consumed_samples": 408320, "global_step/max_steps": "1595/6350"}
{"lm loss": 5.0904851, "grad_norm": 1.45267224, "learning_rate": 8.964e-05, "elapsed_time_per_iteration": 4.82698345, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 45s", "remaining_time": "6h 23m 30s", "loss_scale": 1.0, "consumed_samples": 408576, "global_step/max_steps": "1596/6350"}
{"lm loss": 5.06225872, "grad_norm": 1.51351798, "learning_rate": 8.963e-05, "elapsed_time_per_iteration": 4.69259715, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 49s", "remaining_time": "6h 23m 25s", "loss_scale": 1.0, "consumed_samples": 408832, "global_step/max_steps": "1597/6350"}
{"lm loss": 5.05769396, "grad_norm": 1.07027042, "learning_rate": 8.961e-05, "elapsed_time_per_iteration": 4.72489667, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 54s", "remaining_time": "6h 23m 20s", "loss_scale": 1.0, "consumed_samples": 409088, "global_step/max_steps": "1598/6350"}
{"lm loss": 5.06877089, "grad_norm": 1.49967766, "learning_rate": 8.959e-05, "elapsed_time_per_iteration": 4.77901673, "memory(GiB)": 28.03, "elapsed_time": "2h 8m 59s", "remaining_time": "6h 23m 15s", "loss_scale": 1.0, "consumed_samples": 409344, "global_step/max_steps": "1599/6350"}
{"lm loss": 5.05009317, "grad_norm": 1.28388166, "learning_rate": 8.958e-05, "elapsed_time_per_iteration": 4.77771306, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 4s", "remaining_time": "6h 23m 10s", "loss_scale": 1.0, "consumed_samples": 409600, "global_step/max_steps": "1600/6350"}
{"lm loss": 5.05824566, "grad_norm": 1.12779522, "learning_rate": 8.956e-05, "elapsed_time_per_iteration": 4.66396832, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 8s", "remaining_time": "6h 23m 4s", "loss_scale": 1.0, "consumed_samples": 409856, "global_step/max_steps": "1601/6350"}
{"lm loss": 5.05847645, "grad_norm": 1.20139515, "learning_rate": 8.955e-05, "elapsed_time_per_iteration": 4.67533183, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 13s", "remaining_time": "6h 22m 59s", "loss_scale": 1.0, "consumed_samples": 410112, "global_step/max_steps": "1602/6350"}
{"lm loss": 5.05832243, "grad_norm": 1.02916944, "learning_rate": 8.953e-05, "elapsed_time_per_iteration": 4.75385022, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 18s", "remaining_time": "6h 22m 54s", "loss_scale": 1.0, "consumed_samples": 410368, "global_step/max_steps": "1603/6350"}
{"lm loss": 5.06772041, "grad_norm": 1.69065416, "learning_rate": 8.952e-05, "elapsed_time_per_iteration": 4.69409394, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 22s", "remaining_time": "6h 22m 49s", "loss_scale": 1.0, "consumed_samples": 410624, "global_step/max_steps": "1604/6350"}
{"lm loss": 5.06198692, "grad_norm": 1.08620095, "learning_rate": 8.95e-05, "elapsed_time_per_iteration": 4.80591035, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 27s", "remaining_time": "6h 22m 44s", "loss_scale": 1.0, "consumed_samples": 410880, "global_step/max_steps": "1605/6350"}
{"lm loss": 5.07923079, "grad_norm": 1.74420476, "learning_rate": 8.948e-05, "elapsed_time_per_iteration": 4.78257442, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 32s", "remaining_time": "6h 22m 39s", "loss_scale": 1.0, "consumed_samples": 411136, "global_step/max_steps": "1606/6350"}
{"lm loss": 5.06196022, "grad_norm": 1.05445635, "learning_rate": 8.947e-05, "elapsed_time_per_iteration": 5.81362247, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 38s", "remaining_time": "6h 22m 37s", "loss_scale": 1.0, "consumed_samples": 411392, "global_step/max_steps": "1607/6350"}
{"lm loss": 5.07471561, "grad_norm": 1.2933135, "learning_rate": 8.945e-05, "elapsed_time_per_iteration": 4.84036493, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 43s", "remaining_time": "6h 22m 32s", "loss_scale": 1.0, "consumed_samples": 411648, "global_step/max_steps": "1608/6350"}
{"lm loss": 5.06873083, "grad_norm": 1.13582277, "learning_rate": 8.944e-05, "elapsed_time_per_iteration": 4.74388862, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 47s", "remaining_time": "6h 22m 27s", "loss_scale": 1.0, "consumed_samples": 411904, "global_step/max_steps": "1609/6350"}
{"lm loss": 5.06655979, "grad_norm": 1.06739771, "learning_rate": 8.942e-05, "elapsed_time_per_iteration": 4.82058096, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 52s", "remaining_time": "6h 22m 22s", "loss_scale": 1.0, "consumed_samples": 412160, "global_step/max_steps": "1610/6350"}
{"lm loss": 5.0775938, "grad_norm": 1.27058911, "learning_rate": 8.941e-05, "elapsed_time_per_iteration": 4.86573768, "memory(GiB)": 28.03, "elapsed_time": "2h 9m 57s", "remaining_time": "6h 22m 17s", "loss_scale": 1.0, "consumed_samples": 412416, "global_step/max_steps": "1611/6350"}
{"lm loss": 5.03732491, "grad_norm": 1.13804853, "learning_rate": 8.939e-05, "elapsed_time_per_iteration": 4.8926537, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 2s", "remaining_time": "6h 22m 13s", "loss_scale": 1.0, "consumed_samples": 412672, "global_step/max_steps": "1612/6350"}
{"lm loss": 5.05761003, "grad_norm": 1.20878005, "learning_rate": 8.937e-05, "elapsed_time_per_iteration": 5.68654656, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 8s", "remaining_time": "6h 22m 10s", "loss_scale": 1.0, "consumed_samples": 412928, "global_step/max_steps": "1613/6350"}
{"lm loss": 5.07043934, "grad_norm": 1.54941344, "learning_rate": 8.936e-05, "elapsed_time_per_iteration": 4.73227024, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 12s", "remaining_time": "6h 22m 5s", "loss_scale": 1.0, "consumed_samples": 413184, "global_step/max_steps": "1614/6350"}
{"lm loss": 5.07953978, "grad_norm": 1.3515439, "learning_rate": 8.934e-05, "elapsed_time_per_iteration": 4.72804546, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 17s", "remaining_time": "6h 22m 0s", "loss_scale": 1.0, "consumed_samples": 413440, "global_step/max_steps": "1615/6350"}
{"lm loss": 5.07207918, "grad_norm": 1.06614947, "learning_rate": 8.933e-05, "elapsed_time_per_iteration": 4.747087, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 22s", "remaining_time": "6h 21m 55s", "loss_scale": 1.0, "consumed_samples": 413696, "global_step/max_steps": "1616/6350"}
{"lm loss": 5.07532501, "grad_norm": 1.46495759, "learning_rate": 8.931e-05, "elapsed_time_per_iteration": 4.68223119, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 27s", "remaining_time": "6h 21m 49s", "loss_scale": 1.0, "consumed_samples": 413952, "global_step/max_steps": "1617/6350"}
{"lm loss": 5.06125832, "grad_norm": 1.16776228, "learning_rate": 8.93e-05, "elapsed_time_per_iteration": 5.51544499, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 32s", "remaining_time": "6h 21m 47s", "loss_scale": 1.0, "consumed_samples": 414208, "global_step/max_steps": "1618/6350"}
{"lm loss": 5.05755949, "grad_norm": 1.08632994, "learning_rate": 8.928e-05, "elapsed_time_per_iteration": 4.70888019, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 37s", "remaining_time": "6h 21m 41s", "loss_scale": 1.0, "consumed_samples": 414464, "global_step/max_steps": "1619/6350"}
{"lm loss": 5.06910896, "grad_norm": 1.4584682, "learning_rate": 8.926e-05, "elapsed_time_per_iteration": 4.784096, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 42s", "remaining_time": "6h 21m 36s", "loss_scale": 1.0, "consumed_samples": 414720, "global_step/max_steps": "1620/6350"}
{"lm loss": 5.05211496, "grad_norm": 1.22615588, "learning_rate": 8.925e-05, "elapsed_time_per_iteration": 5.16960645, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 47s", "remaining_time": "6h 21m 32s", "loss_scale": 1.0, "consumed_samples": 414976, "global_step/max_steps": "1621/6350"}
{"lm loss": 5.07062054, "grad_norm": 1.18532741, "learning_rate": 8.923e-05, "elapsed_time_per_iteration": 4.7422061, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 51s", "remaining_time": "6h 21m 27s", "loss_scale": 1.0, "consumed_samples": 415232, "global_step/max_steps": "1622/6350"}
{"lm loss": 5.06684351, "grad_norm": 1.26533842, "learning_rate": 8.922e-05, "elapsed_time_per_iteration": 4.70434833, "memory(GiB)": 28.03, "elapsed_time": "2h 10m 56s", "remaining_time": "6h 21m 22s", "loss_scale": 1.0, "consumed_samples": 415488, "global_step/max_steps": "1623/6350"}
{"lm loss": 5.05027199, "grad_norm": 0.99905622, "learning_rate": 8.92e-05, "elapsed_time_per_iteration": 4.7470274, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 1s", "remaining_time": "6h 21m 17s", "loss_scale": 1.0, "consumed_samples": 415744, "global_step/max_steps": "1624/6350"}
{"lm loss": 5.07773304, "grad_norm": 1.25868607, "learning_rate": 8.918e-05, "elapsed_time_per_iteration": 4.7100656, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 6s", "remaining_time": "6h 21m 12s", "loss_scale": 1.0, "consumed_samples": 416000, "global_step/max_steps": "1625/6350"}
{"lm loss": 5.06522512, "grad_norm": 1.23314452, "learning_rate": 8.917e-05, "elapsed_time_per_iteration": 4.74443388, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 10s", "remaining_time": "6h 21m 7s", "loss_scale": 1.0, "consumed_samples": 416256, "global_step/max_steps": "1626/6350"}
{"lm loss": 5.06731272, "grad_norm": 1.38029325, "learning_rate": 8.915e-05, "elapsed_time_per_iteration": 4.77285314, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 15s", "remaining_time": "6h 21m 2s", "loss_scale": 1.0, "consumed_samples": 416512, "global_step/max_steps": "1627/6350"}
{"lm loss": 5.06347418, "grad_norm": 0.89724135, "learning_rate": 8.914e-05, "elapsed_time_per_iteration": 4.73919654, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 20s", "remaining_time": "6h 20m 56s", "loss_scale": 1.0, "consumed_samples": 416768, "global_step/max_steps": "1628/6350"}
{"lm loss": 5.04956865, "grad_norm": 1.22889435, "learning_rate": 8.912e-05, "elapsed_time_per_iteration": 4.71715117, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 25s", "remaining_time": "6h 20m 51s", "loss_scale": 1.0, "consumed_samples": 417024, "global_step/max_steps": "1629/6350"}
{"lm loss": 5.0686245, "grad_norm": 1.3370018, "learning_rate": 8.91e-05, "elapsed_time_per_iteration": 4.73104048, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 29s", "remaining_time": "6h 20m 46s", "loss_scale": 1.0, "consumed_samples": 417280, "global_step/max_steps": "1630/6350"}
{"lm loss": 5.07585382, "grad_norm": 1.17335224, "learning_rate": 8.909e-05, "elapsed_time_per_iteration": 4.80644059, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 34s", "remaining_time": "6h 20m 41s", "loss_scale": 1.0, "consumed_samples": 417536, "global_step/max_steps": "1631/6350"}
{"lm loss": 5.0720706, "grad_norm": 1.35222995, "learning_rate": 8.907e-05, "elapsed_time_per_iteration": 4.75404859, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 39s", "remaining_time": "6h 20m 36s", "loss_scale": 1.0, "consumed_samples": 417792, "global_step/max_steps": "1632/6350"}
{"lm loss": 5.05660582, "grad_norm": 0.99929833, "learning_rate": 8.906e-05, "elapsed_time_per_iteration": 4.77862453, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 44s", "remaining_time": "6h 20m 31s", "loss_scale": 1.0, "consumed_samples": 418048, "global_step/max_steps": "1633/6350"}
{"lm loss": 5.06286383, "grad_norm": 1.63139176, "learning_rate": 8.904e-05, "elapsed_time_per_iteration": 4.85634851, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 49s", "remaining_time": "6h 20m 26s", "loss_scale": 1.0, "consumed_samples": 418304, "global_step/max_steps": "1634/6350"}
{"lm loss": 5.04722834, "grad_norm": 1.13093591, "learning_rate": 8.902e-05, "elapsed_time_per_iteration": 4.79686737, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 53s", "remaining_time": "6h 20m 21s", "loss_scale": 1.0, "consumed_samples": 418560, "global_step/max_steps": "1635/6350"}
{"lm loss": 5.05621004, "grad_norm": 1.20699584, "learning_rate": 8.901e-05, "elapsed_time_per_iteration": 4.76764703, "memory(GiB)": 28.03, "elapsed_time": "2h 11m 58s", "remaining_time": "6h 20m 16s", "loss_scale": 1.0, "consumed_samples": 418816, "global_step/max_steps": "1636/6350"}
{"lm loss": 5.04620314, "grad_norm": 1.2671746, "learning_rate": 8.899e-05, "elapsed_time_per_iteration": 4.71433878, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 3s", "remaining_time": "6h 20m 11s", "loss_scale": 1.0, "consumed_samples": 419072, "global_step/max_steps": "1637/6350"}
{"lm loss": 5.06947231, "grad_norm": 1.16420591, "learning_rate": 8.898e-05, "elapsed_time_per_iteration": 4.71940017, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 8s", "remaining_time": "6h 20m 6s", "loss_scale": 1.0, "consumed_samples": 419328, "global_step/max_steps": "1638/6350"}
{"lm loss": 5.06209373, "grad_norm": 1.03494489, "learning_rate": 8.896e-05, "elapsed_time_per_iteration": 4.79724813, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 12s", "remaining_time": "6h 20m 1s", "loss_scale": 1.0, "consumed_samples": 419584, "global_step/max_steps": "1639/6350"}
{"lm loss": 5.06948423, "grad_norm": 1.24657309, "learning_rate": 8.894e-05, "elapsed_time_per_iteration": 4.83671117, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 17s", "remaining_time": "6h 19m 56s", "loss_scale": 1.0, "consumed_samples": 419840, "global_step/max_steps": "1640/6350"}
{"lm loss": 5.06866074, "grad_norm": 1.0230633, "learning_rate": 8.893e-05, "elapsed_time_per_iteration": 4.81852508, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 22s", "remaining_time": "6h 19m 51s", "loss_scale": 1.0, "consumed_samples": 420096, "global_step/max_steps": "1641/6350"}
{"lm loss": 5.0623827, "grad_norm": 1.21133232, "learning_rate": 8.891e-05, "elapsed_time_per_iteration": 4.8040781, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 27s", "remaining_time": "6h 19m 46s", "loss_scale": 1.0, "consumed_samples": 420352, "global_step/max_steps": "1642/6350"}
{"lm loss": 5.04882193, "grad_norm": 1.23400497, "learning_rate": 8.89e-05, "elapsed_time_per_iteration": 5.66192102, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 32s", "remaining_time": "6h 19m 44s", "loss_scale": 1.0, "consumed_samples": 420608, "global_step/max_steps": "1643/6350"}
{"lm loss": 5.06255341, "grad_norm": 1.33810198, "learning_rate": 8.888e-05, "elapsed_time_per_iteration": 4.88016033, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 37s", "remaining_time": "6h 19m 39s", "loss_scale": 1.0, "consumed_samples": 420864, "global_step/max_steps": "1644/6350"}
{"lm loss": 5.08250618, "grad_norm": 1.42662692, "learning_rate": 8.886e-05, "elapsed_time_per_iteration": 4.70442677, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 42s", "remaining_time": "6h 19m 34s", "loss_scale": 1.0, "consumed_samples": 421120, "global_step/max_steps": "1645/6350"}
{"lm loss": 5.07438135, "grad_norm": 0.9595232, "learning_rate": 8.885e-05, "elapsed_time_per_iteration": 5.50150537, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 48s", "remaining_time": "6h 19m 31s", "loss_scale": 1.0, "consumed_samples": 421376, "global_step/max_steps": "1646/6350"}
{"lm loss": 5.06038332, "grad_norm": 1.30023575, "learning_rate": 8.883e-05, "elapsed_time_per_iteration": 4.69054866, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 52s", "remaining_time": "6h 19m 26s", "loss_scale": 1.0, "consumed_samples": 421632, "global_step/max_steps": "1647/6350"}
{"lm loss": 5.04749537, "grad_norm": 1.19493461, "learning_rate": 8.882e-05, "elapsed_time_per_iteration": 4.71232057, "memory(GiB)": 28.03, "elapsed_time": "2h 12m 57s", "remaining_time": "6h 19m 20s", "loss_scale": 1.0, "consumed_samples": 421888, "global_step/max_steps": "1648/6350"}
{"lm loss": 5.04545927, "grad_norm": 1.37428892, "learning_rate": 8.88e-05, "elapsed_time_per_iteration": 4.65391421, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 2s", "remaining_time": "6h 19m 15s", "loss_scale": 1.0, "consumed_samples": 422144, "global_step/max_steps": "1649/6350"}
{"lm loss": 5.06033468, "grad_norm": 1.22290742, "learning_rate": 8.878e-05, "elapsed_time_per_iteration": 4.73496532, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 6s", "remaining_time": "6h 19m 10s", "loss_scale": 1.0, "consumed_samples": 422400, "global_step/max_steps": "1650/6350"}
{"lm loss": 5.05967426, "grad_norm": 1.32486773, "learning_rate": 8.877e-05, "elapsed_time_per_iteration": 4.78079963, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 11s", "remaining_time": "6h 19m 5s", "loss_scale": 1.0, "consumed_samples": 422656, "global_step/max_steps": "1651/6350"}
{"lm loss": 5.06303644, "grad_norm": 1.04033196, "learning_rate": 8.875e-05, "elapsed_time_per_iteration": 4.73962045, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 16s", "remaining_time": "6h 19m 0s", "loss_scale": 1.0, "consumed_samples": 422912, "global_step/max_steps": "1652/6350"}
{"lm loss": 5.05674696, "grad_norm": 1.12614787, "learning_rate": 8.874e-05, "elapsed_time_per_iteration": 4.75473142, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 21s", "remaining_time": "6h 18m 55s", "loss_scale": 1.0, "consumed_samples": 423168, "global_step/max_steps": "1653/6350"}
{"lm loss": 5.0610137, "grad_norm": 1.10610926, "learning_rate": 8.872e-05, "elapsed_time_per_iteration": 4.69037533, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 25s", "remaining_time": "6h 18m 49s", "loss_scale": 1.0, "consumed_samples": 423424, "global_step/max_steps": "1654/6350"}
{"lm loss": 5.04821491, "grad_norm": 1.14635658, "learning_rate": 8.87e-05, "elapsed_time_per_iteration": 4.80240393, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 30s", "remaining_time": "6h 18m 44s", "loss_scale": 1.0, "consumed_samples": 423680, "global_step/max_steps": "1655/6350"}
{"lm loss": 5.0626564, "grad_norm": 1.44563079, "learning_rate": 8.869e-05, "elapsed_time_per_iteration": 4.74039817, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 35s", "remaining_time": "6h 18m 39s", "loss_scale": 1.0, "consumed_samples": 423936, "global_step/max_steps": "1656/6350"}
{"lm loss": 5.05360317, "grad_norm": 1.58315551, "learning_rate": 8.867e-05, "elapsed_time_per_iteration": 4.69509482, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 40s", "remaining_time": "6h 18m 34s", "loss_scale": 1.0, "consumed_samples": 424192, "global_step/max_steps": "1657/6350"}
{"lm loss": 5.04289818, "grad_norm": 0.8675167, "learning_rate": 8.865e-05, "elapsed_time_per_iteration": 4.64766884, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 44s", "remaining_time": "6h 18m 29s", "loss_scale": 1.0, "consumed_samples": 424448, "global_step/max_steps": "1658/6350"}
{"lm loss": 5.07192755, "grad_norm": 1.28081894, "learning_rate": 8.864e-05, "elapsed_time_per_iteration": 4.73005199, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 49s", "remaining_time": "6h 18m 23s", "loss_scale": 1.0, "consumed_samples": 424704, "global_step/max_steps": "1659/6350"}
{"lm loss": 5.07933664, "grad_norm": 1.53567207, "learning_rate": 8.862e-05, "elapsed_time_per_iteration": 4.69205999, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 54s", "remaining_time": "6h 18m 18s", "loss_scale": 1.0, "consumed_samples": 424960, "global_step/max_steps": "1660/6350"}
{"lm loss": 5.05401278, "grad_norm": 1.12527025, "learning_rate": 8.861e-05, "elapsed_time_per_iteration": 4.72893929, "memory(GiB)": 28.03, "elapsed_time": "2h 13m 58s", "remaining_time": "6h 18m 13s", "loss_scale": 1.0, "consumed_samples": 425216, "global_step/max_steps": "1661/6350"}
{"lm loss": 5.05323553, "grad_norm": 1.45594501, "learning_rate": 8.859e-05, "elapsed_time_per_iteration": 5.67512536, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 4s", "remaining_time": "6h 18m 11s", "loss_scale": 1.0, "consumed_samples": 425472, "global_step/max_steps": "1662/6350"}
{"lm loss": 5.05544138, "grad_norm": 0.96285796, "learning_rate": 8.857e-05, "elapsed_time_per_iteration": 5.20961857, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 9s", "remaining_time": "6h 18m 7s", "loss_scale": 1.0, "consumed_samples": 425728, "global_step/max_steps": "1663/6350"}
{"lm loss": 5.04876614, "grad_norm": 1.24791873, "learning_rate": 8.856e-05, "elapsed_time_per_iteration": 4.79645848, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 14s", "remaining_time": "6h 18m 2s", "loss_scale": 1.0, "consumed_samples": 425984, "global_step/max_steps": "1664/6350"}
{"lm loss": 5.06603479, "grad_norm": 1.38381493, "learning_rate": 8.854e-05, "elapsed_time_per_iteration": 4.77448082, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 19s", "remaining_time": "6h 17m 57s", "loss_scale": 1.0, "consumed_samples": 426240, "global_step/max_steps": "1665/6350"}
{"lm loss": 5.05064869, "grad_norm": 1.00893092, "learning_rate": 8.852e-05, "elapsed_time_per_iteration": 4.72265959, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 23s", "remaining_time": "6h 17m 52s", "loss_scale": 1.0, "consumed_samples": 426496, "global_step/max_steps": "1666/6350"}
{"lm loss": 5.04347229, "grad_norm": 1.32036507, "learning_rate": 8.851e-05, "elapsed_time_per_iteration": 4.78981853, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 28s", "remaining_time": "6h 17m 47s", "loss_scale": 1.0, "consumed_samples": 426752, "global_step/max_steps": "1667/6350"}
{"lm loss": 5.0530839, "grad_norm": 1.17514431, "learning_rate": 8.849e-05, "elapsed_time_per_iteration": 4.84586835, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 33s", "remaining_time": "6h 17m 42s", "loss_scale": 1.0, "consumed_samples": 427008, "global_step/max_steps": "1668/6350"}
{"lm loss": 5.05634165, "grad_norm": 1.23376572, "learning_rate": 8.847e-05, "elapsed_time_per_iteration": 4.80488896, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 38s", "remaining_time": "6h 17m 37s", "loss_scale": 1.0, "consumed_samples": 427264, "global_step/max_steps": "1669/6350"}
{"lm loss": 5.04043102, "grad_norm": 0.9776926, "learning_rate": 8.846e-05, "elapsed_time_per_iteration": 4.68970871, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 43s", "remaining_time": "6h 17m 32s", "loss_scale": 1.0, "consumed_samples": 427520, "global_step/max_steps": "1670/6350"}
{"lm loss": 5.06918097, "grad_norm": 1.33530295, "learning_rate": 8.844e-05, "elapsed_time_per_iteration": 4.72738385, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 47s", "remaining_time": "6h 17m 26s", "loss_scale": 1.0, "consumed_samples": 427776, "global_step/max_steps": "1671/6350"}
{"lm loss": 5.04206133, "grad_norm": 1.3819828, "learning_rate": 8.843e-05, "elapsed_time_per_iteration": 5.30607367, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 53s", "remaining_time": "6h 17m 23s", "loss_scale": 1.0, "consumed_samples": 428032, "global_step/max_steps": "1672/6350"}
{"lm loss": 5.04280901, "grad_norm": 0.8689034, "learning_rate": 8.841e-05, "elapsed_time_per_iteration": 4.75973725, "memory(GiB)": 28.03, "elapsed_time": "2h 14m 57s", "remaining_time": "6h 17m 18s", "loss_scale": 1.0, "consumed_samples": 428288, "global_step/max_steps": "1673/6350"}
{"lm loss": 5.04172134, "grad_norm": 1.11419046, "learning_rate": 8.839e-05, "elapsed_time_per_iteration": 4.81669688, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 2s", "remaining_time": "6h 17m 13s", "loss_scale": 1.0, "consumed_samples": 428544, "global_step/max_steps": "1674/6350"}
{"lm loss": 5.05398417, "grad_norm": 1.39568985, "learning_rate": 8.838e-05, "elapsed_time_per_iteration": 4.75416589, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 7s", "remaining_time": "6h 17m 8s", "loss_scale": 1.0, "consumed_samples": 428800, "global_step/max_steps": "1675/6350"}
{"lm loss": 5.0645504, "grad_norm": 1.54538691, "learning_rate": 8.836e-05, "elapsed_time_per_iteration": 4.75323391, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 12s", "remaining_time": "6h 17m 3s", "loss_scale": 1.0, "consumed_samples": 429056, "global_step/max_steps": "1676/6350"}
{"lm loss": 5.05489445, "grad_norm": 1.08267057, "learning_rate": 8.834e-05, "elapsed_time_per_iteration": 4.67109537, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 16s", "remaining_time": "6h 16m 57s", "loss_scale": 1.0, "consumed_samples": 429312, "global_step/max_steps": "1677/6350"}
{"lm loss": 5.05262136, "grad_norm": 0.96019238, "learning_rate": 8.833e-05, "elapsed_time_per_iteration": 4.73171973, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 21s", "remaining_time": "6h 16m 52s", "loss_scale": 1.0, "consumed_samples": 429568, "global_step/max_steps": "1678/6350"}
{"lm loss": 5.05492306, "grad_norm": 1.25485373, "learning_rate": 8.831e-05, "elapsed_time_per_iteration": 4.71950364, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 26s", "remaining_time": "6h 16m 47s", "loss_scale": 1.0, "consumed_samples": 429824, "global_step/max_steps": "1679/6350"}
{"lm loss": 5.05092525, "grad_norm": 1.45054233, "learning_rate": 8.829e-05, "elapsed_time_per_iteration": 4.76524806, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 31s", "remaining_time": "6h 16m 42s", "loss_scale": 1.0, "consumed_samples": 430080, "global_step/max_steps": "1680/6350"}
{"lm loss": 5.07199669, "grad_norm": 1.05023015, "learning_rate": 8.828e-05, "elapsed_time_per_iteration": 4.70000172, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 35s", "remaining_time": "6h 16m 37s", "loss_scale": 1.0, "consumed_samples": 430336, "global_step/max_steps": "1681/6350"}
{"lm loss": 5.05368471, "grad_norm": 1.42700374, "learning_rate": 8.826e-05, "elapsed_time_per_iteration": 4.76211166, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 40s", "remaining_time": "6h 16m 32s", "loss_scale": 1.0, "consumed_samples": 430592, "global_step/max_steps": "1682/6350"}
{"lm loss": 5.06508303, "grad_norm": 1.34933317, "learning_rate": 8.825e-05, "elapsed_time_per_iteration": 4.72533655, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 45s", "remaining_time": "6h 16m 27s", "loss_scale": 1.0, "consumed_samples": 430848, "global_step/max_steps": "1683/6350"}
{"lm loss": 5.07396841, "grad_norm": 1.21182442, "learning_rate": 8.823e-05, "elapsed_time_per_iteration": 4.79914665, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 50s", "remaining_time": "6h 16m 22s", "loss_scale": 1.0, "consumed_samples": 431104, "global_step/max_steps": "1684/6350"}
{"lm loss": 5.04136753, "grad_norm": 1.0663054, "learning_rate": 8.821e-05, "elapsed_time_per_iteration": 5.64033294, "memory(GiB)": 28.03, "elapsed_time": "2h 15m 55s", "remaining_time": "6h 16m 19s", "loss_scale": 1.0, "consumed_samples": 431360, "global_step/max_steps": "1685/6350"}
{"lm loss": 5.06817865, "grad_norm": 1.22860038, "learning_rate": 8.82e-05, "elapsed_time_per_iteration": 4.75422311, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 0s", "remaining_time": "6h 16m 14s", "loss_scale": 1.0, "consumed_samples": 431616, "global_step/max_steps": "1686/6350"}
{"lm loss": 5.0568018, "grad_norm": 0.91623861, "learning_rate": 8.818e-05, "elapsed_time_per_iteration": 4.72719169, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 5s", "remaining_time": "6h 16m 9s", "loss_scale": 1.0, "consumed_samples": 431872, "global_step/max_steps": "1687/6350"}
{"lm loss": 5.07882833, "grad_norm": 1.98594153, "learning_rate": 8.816e-05, "elapsed_time_per_iteration": 4.76494813, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 10s", "remaining_time": "6h 16m 4s", "loss_scale": 1.0, "consumed_samples": 432128, "global_step/max_steps": "1688/6350"}
{"lm loss": 5.0665288, "grad_norm": 1.17341912, "learning_rate": 8.815e-05, "elapsed_time_per_iteration": 4.69144297, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 14s", "remaining_time": "6h 15m 59s", "loss_scale": 1.0, "consumed_samples": 432384, "global_step/max_steps": "1689/6350"}
{"lm loss": 5.06274271, "grad_norm": 1.3316586, "learning_rate": 8.813e-05, "elapsed_time_per_iteration": 5.39857054, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 20s", "remaining_time": "6h 15m 55s", "loss_scale": 1.0, "consumed_samples": 432640, "global_step/max_steps": "1690/6350"}
{"lm loss": 5.06549549, "grad_norm": 0.98052329, "learning_rate": 8.811e-05, "elapsed_time_per_iteration": 4.75884843, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 24s", "remaining_time": "6h 15m 50s", "loss_scale": 1.0, "consumed_samples": 432896, "global_step/max_steps": "1691/6350"}
{"lm loss": 5.06070328, "grad_norm": 1.34083033, "learning_rate": 8.81e-05, "elapsed_time_per_iteration": 5.40152001, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 30s", "remaining_time": "6h 15m 47s", "loss_scale": 1.0, "consumed_samples": 433152, "global_step/max_steps": "1692/6350"}
{"lm loss": 5.04718161, "grad_norm": 1.01976657, "learning_rate": 8.808e-05, "elapsed_time_per_iteration": 5.50843859, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 35s", "remaining_time": "6h 15m 44s", "loss_scale": 1.0, "consumed_samples": 433408, "global_step/max_steps": "1693/6350"}
{"lm loss": 5.07932663, "grad_norm": 1.05207145, "learning_rate": 8.806e-05, "elapsed_time_per_iteration": 4.77312374, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 40s", "remaining_time": "6h 15m 39s", "loss_scale": 1.0, "consumed_samples": 433664, "global_step/max_steps": "1694/6350"}
{"lm loss": 5.06896925, "grad_norm": 1.23493207, "learning_rate": 8.805e-05, "elapsed_time_per_iteration": 4.71281028, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 45s", "remaining_time": "6h 15m 34s", "loss_scale": 1.0, "consumed_samples": 433920, "global_step/max_steps": "1695/6350"}
{"lm loss": 5.04375935, "grad_norm": 1.21293497, "learning_rate": 8.803e-05, "elapsed_time_per_iteration": 4.8450532, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 50s", "remaining_time": "6h 15m 29s", "loss_scale": 1.0, "consumed_samples": 434176, "global_step/max_steps": "1696/6350"}
{"lm loss": 5.05226278, "grad_norm": 1.24730253, "learning_rate": 8.801e-05, "elapsed_time_per_iteration": 4.79470658, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 54s", "remaining_time": "6h 15m 24s", "loss_scale": 1.0, "consumed_samples": 434432, "global_step/max_steps": "1697/6350"}
{"lm loss": 5.04303837, "grad_norm": 1.68180859, "learning_rate": 8.8e-05, "elapsed_time_per_iteration": 4.7385385, "memory(GiB)": 28.03, "elapsed_time": "2h 16m 59s", "remaining_time": "6h 15m 19s", "loss_scale": 1.0, "consumed_samples": 434688, "global_step/max_steps": "1698/6350"}
{"lm loss": 5.04717016, "grad_norm": 1.19364488, "learning_rate": 8.798e-05, "elapsed_time_per_iteration": 4.75375223, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 4s", "remaining_time": "6h 15m 14s", "loss_scale": 1.0, "consumed_samples": 434944, "global_step/max_steps": "1699/6350"}
{"lm loss": 5.02777719, "grad_norm": 1.06084573, "learning_rate": 8.796e-05, "elapsed_time_per_iteration": 4.71554947, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 9s", "remaining_time": "6h 15m 8s", "loss_scale": 1.0, "consumed_samples": 435200, "global_step/max_steps": "1700/6350"}
{"lm loss": 5.05978489, "grad_norm": 1.39262736, "learning_rate": 8.795e-05, "elapsed_time_per_iteration": 4.80898547, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 13s", "remaining_time": "6h 15m 4s", "loss_scale": 1.0, "consumed_samples": 435456, "global_step/max_steps": "1701/6350"}
{"lm loss": 5.07023859, "grad_norm": 1.50961375, "learning_rate": 8.793e-05, "elapsed_time_per_iteration": 5.58404231, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 19s", "remaining_time": "6h 15m 1s", "loss_scale": 1.0, "consumed_samples": 435712, "global_step/max_steps": "1702/6350"}
{"lm loss": 5.07297182, "grad_norm": 1.13923252, "learning_rate": 8.791e-05, "elapsed_time_per_iteration": 4.74617457, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 24s", "remaining_time": "6h 14m 56s", "loss_scale": 1.0, "consumed_samples": 435968, "global_step/max_steps": "1703/6350"}
{"lm loss": 5.06531334, "grad_norm": 1.45383382, "learning_rate": 8.79e-05, "elapsed_time_per_iteration": 4.7434895, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 28s", "remaining_time": "6h 14m 51s", "loss_scale": 1.0, "consumed_samples": 436224, "global_step/max_steps": "1704/6350"}
{"lm loss": 5.04755402, "grad_norm": 0.89361596, "learning_rate": 8.788e-05, "elapsed_time_per_iteration": 5.78726268, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 34s", "remaining_time": "6h 14m 48s", "loss_scale": 1.0, "consumed_samples": 436480, "global_step/max_steps": "1705/6350"}
{"lm loss": 5.03433037, "grad_norm": 1.71683788, "learning_rate": 8.786e-05, "elapsed_time_per_iteration": 4.69629049, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 39s", "remaining_time": "6h 14m 43s", "loss_scale": 1.0, "consumed_samples": 436736, "global_step/max_steps": "1706/6350"}
{"lm loss": 5.0689373, "grad_norm": 1.059762, "learning_rate": 8.785e-05, "elapsed_time_per_iteration": 4.7752738, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 44s", "remaining_time": "6h 14m 38s", "loss_scale": 1.0, "consumed_samples": 436992, "global_step/max_steps": "1707/6350"}
{"lm loss": 5.03257847, "grad_norm": 1.11747241, "learning_rate": 8.783e-05, "elapsed_time_per_iteration": 4.77609944, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 49s", "remaining_time": "6h 14m 33s", "loss_scale": 1.0, "consumed_samples": 437248, "global_step/max_steps": "1708/6350"}
{"lm loss": 5.06881666, "grad_norm": 1.10268009, "learning_rate": 8.781e-05, "elapsed_time_per_iteration": 4.75905466, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 53s", "remaining_time": "6h 14m 28s", "loss_scale": 1.0, "consumed_samples": 437504, "global_step/max_steps": "1709/6350"}
{"lm loss": 5.04911947, "grad_norm": 1.49741161, "learning_rate": 8.78e-05, "elapsed_time_per_iteration": 4.76732039, "memory(GiB)": 28.03, "elapsed_time": "2h 17m 58s", "remaining_time": "6h 14m 23s", "loss_scale": 1.0, "consumed_samples": 437760, "global_step/max_steps": "1710/6350"}
{"lm loss": 5.07575321, "grad_norm": 1.47743034, "learning_rate": 8.778e-05, "elapsed_time_per_iteration": 4.7172823, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 3s", "remaining_time": "6h 14m 18s", "loss_scale": 1.0, "consumed_samples": 438016, "global_step/max_steps": "1711/6350"}
{"lm loss": 5.05165958, "grad_norm": 0.81993914, "learning_rate": 8.776e-05, "elapsed_time_per_iteration": 4.7692976, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 8s", "remaining_time": "6h 14m 13s", "loss_scale": 1.0, "consumed_samples": 438272, "global_step/max_steps": "1712/6350"}
{"lm loss": 5.06114388, "grad_norm": 1.3675741, "learning_rate": 8.775e-05, "elapsed_time_per_iteration": 4.81025243, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 12s", "remaining_time": "6h 14m 8s", "loss_scale": 1.0, "consumed_samples": 438528, "global_step/max_steps": "1713/6350"}
{"lm loss": 5.04072571, "grad_norm": 1.19054222, "learning_rate": 8.773e-05, "elapsed_time_per_iteration": 4.84947944, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 17s", "remaining_time": "6h 14m 3s", "loss_scale": 1.0, "consumed_samples": 438784, "global_step/max_steps": "1714/6350"}
{"lm loss": 5.04323196, "grad_norm": 1.2430315, "learning_rate": 8.771e-05, "elapsed_time_per_iteration": 4.73979449, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 22s", "remaining_time": "6h 13m 58s", "loss_scale": 1.0, "consumed_samples": 439040, "global_step/max_steps": "1715/6350"}
{"lm loss": 5.07966661, "grad_norm": 1.21523166, "learning_rate": 8.77e-05, "elapsed_time_per_iteration": 4.73271632, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 27s", "remaining_time": "6h 13m 53s", "loss_scale": 1.0, "consumed_samples": 439296, "global_step/max_steps": "1716/6350"}
{"lm loss": 5.04327297, "grad_norm": 1.48342574, "learning_rate": 8.768e-05, "elapsed_time_per_iteration": 4.73708558, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 31s", "remaining_time": "6h 13m 48s", "loss_scale": 1.0, "consumed_samples": 439552, "global_step/max_steps": "1717/6350"}
{"lm loss": 5.03959131, "grad_norm": 1.44857848, "learning_rate": 8.766e-05, "elapsed_time_per_iteration": 4.87531352, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 36s", "remaining_time": "6h 13m 43s", "loss_scale": 1.0, "consumed_samples": 439808, "global_step/max_steps": "1718/6350"}
{"lm loss": 5.05505753, "grad_norm": 1.00830078, "learning_rate": 8.765e-05, "elapsed_time_per_iteration": 4.81255293, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 41s", "remaining_time": "6h 13m 38s", "loss_scale": 1.0, "consumed_samples": 440064, "global_step/max_steps": "1719/6350"}
{"lm loss": 5.0589118, "grad_norm": 1.08112848, "learning_rate": 8.763e-05, "elapsed_time_per_iteration": 4.82024312, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 46s", "remaining_time": "6h 13m 33s", "loss_scale": 1.0, "consumed_samples": 440320, "global_step/max_steps": "1720/6350"}
{"lm loss": 5.04255199, "grad_norm": 1.06956327, "learning_rate": 8.761e-05, "elapsed_time_per_iteration": 4.73770642, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 51s", "remaining_time": "6h 13m 28s", "loss_scale": 1.0, "consumed_samples": 440576, "global_step/max_steps": "1721/6350"}
{"lm loss": 5.05070972, "grad_norm": 1.39972401, "learning_rate": 8.759e-05, "elapsed_time_per_iteration": 4.71784377, "memory(GiB)": 28.03, "elapsed_time": "2h 18m 55s", "remaining_time": "6h 13m 23s", "loss_scale": 1.0, "consumed_samples": 440832, "global_step/max_steps": "1722/6350"}
{"lm loss": 5.06986284, "grad_norm": 1.19440985, "learning_rate": 8.758e-05, "elapsed_time_per_iteration": 4.79032874, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 0s", "remaining_time": "6h 13m 18s", "loss_scale": 1.0, "consumed_samples": 441088, "global_step/max_steps": "1723/6350"}
{"lm loss": 5.04522991, "grad_norm": 1.6415993, "learning_rate": 8.756e-05, "elapsed_time_per_iteration": 5.57073331, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 6s", "remaining_time": "6h 13m 15s", "loss_scale": 1.0, "consumed_samples": 441344, "global_step/max_steps": "1724/6350"}
{"lm loss": 5.05988073, "grad_norm": 0.8736167, "learning_rate": 8.754e-05, "elapsed_time_per_iteration": 4.77026987, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 10s", "remaining_time": "6h 13m 10s", "loss_scale": 1.0, "consumed_samples": 441600, "global_step/max_steps": "1725/6350"}
{"lm loss": 5.07453823, "grad_norm": 1.00371373, "learning_rate": 8.753e-05, "elapsed_time_per_iteration": 4.81310773, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 15s", "remaining_time": "6h 13m 5s", "loss_scale": 1.0, "consumed_samples": 441856, "global_step/max_steps": "1726/6350"}
{"lm loss": 5.0523119, "grad_norm": 1.54038715, "learning_rate": 8.751e-05, "elapsed_time_per_iteration": 4.66424036, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 20s", "remaining_time": "6h 13m 0s", "loss_scale": 1.0, "consumed_samples": 442112, "global_step/max_steps": "1727/6350"}
{"lm loss": 5.05250931, "grad_norm": 1.28756142, "learning_rate": 8.749e-05, "elapsed_time_per_iteration": 4.74718904, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 25s", "remaining_time": "6h 12m 55s", "loss_scale": 1.0, "consumed_samples": 442368, "global_step/max_steps": "1728/6350"}
{"lm loss": 5.04064894, "grad_norm": 1.24383712, "learning_rate": 8.748e-05, "elapsed_time_per_iteration": 4.81701374, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 30s", "remaining_time": "6h 12m 50s", "loss_scale": 1.0, "consumed_samples": 442624, "global_step/max_steps": "1729/6350"}
{"lm loss": 5.04143381, "grad_norm": 1.05905581, "learning_rate": 8.746e-05, "elapsed_time_per_iteration": 4.75700784, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 34s", "remaining_time": "6h 12m 45s", "loss_scale": 1.0, "consumed_samples": 442880, "global_step/max_steps": "1730/6350"}
{"lm loss": 5.04446363, "grad_norm": 1.3408922, "learning_rate": 8.744e-05, "elapsed_time_per_iteration": 4.73079777, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 39s", "remaining_time": "6h 12m 39s", "loss_scale": 1.0, "consumed_samples": 443136, "global_step/max_steps": "1731/6350"}
{"lm loss": 5.04671001, "grad_norm": 1.13455617, "learning_rate": 8.743e-05, "elapsed_time_per_iteration": 5.62507725, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 45s", "remaining_time": "6h 12m 37s", "loss_scale": 1.0, "consumed_samples": 443392, "global_step/max_steps": "1732/6350"}
{"lm loss": 5.05481243, "grad_norm": 1.34705019, "learning_rate": 8.741e-05, "elapsed_time_per_iteration": 4.64388871, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 49s", "remaining_time": "6h 12m 31s", "loss_scale": 1.0, "consumed_samples": 443648, "global_step/max_steps": "1733/6350"}
{"lm loss": 5.06625366, "grad_norm": 1.34430695, "learning_rate": 8.739e-05, "elapsed_time_per_iteration": 4.73905635, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 54s", "remaining_time": "6h 12m 26s", "loss_scale": 1.0, "consumed_samples": 443904, "global_step/max_steps": "1734/6350"}
{"lm loss": 5.05548, "grad_norm": 1.34637129, "learning_rate": 8.737e-05, "elapsed_time_per_iteration": 4.67105818, "memory(GiB)": 28.03, "elapsed_time": "2h 19m 59s", "remaining_time": "6h 12m 21s", "loss_scale": 1.0, "consumed_samples": 444160, "global_step/max_steps": "1735/6350"}
{"lm loss": 5.06506824, "grad_norm": 0.98035479, "learning_rate": 8.736e-05, "elapsed_time_per_iteration": 4.76475716, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 3s", "remaining_time": "6h 12m 16s", "loss_scale": 1.0, "consumed_samples": 444416, "global_step/max_steps": "1736/6350"}
{"lm loss": 5.05934811, "grad_norm": 1.26794803, "learning_rate": 8.734e-05, "elapsed_time_per_iteration": 4.83628821, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 8s", "remaining_time": "6h 12m 11s", "loss_scale": 1.0, "consumed_samples": 444672, "global_step/max_steps": "1737/6350"}
{"lm loss": 5.06370497, "grad_norm": 0.90350991, "learning_rate": 8.732e-05, "elapsed_time_per_iteration": 5.16496968, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 13s", "remaining_time": "6h 12m 7s", "loss_scale": 1.0, "consumed_samples": 444928, "global_step/max_steps": "1738/6350"}
{"lm loss": 5.04992867, "grad_norm": 1.19287908, "learning_rate": 8.731e-05, "elapsed_time_per_iteration": 4.68684435, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 18s", "remaining_time": "6h 12m 2s", "loss_scale": 1.0, "consumed_samples": 445184, "global_step/max_steps": "1739/6350"}
{"lm loss": 5.03250456, "grad_norm": 1.53852761, "learning_rate": 8.729e-05, "elapsed_time_per_iteration": 4.69575167, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 23s", "remaining_time": "6h 11m 57s", "loss_scale": 1.0, "consumed_samples": 445440, "global_step/max_steps": "1740/6350"}
{"lm loss": 5.06324291, "grad_norm": 0.99062806, "learning_rate": 8.727e-05, "elapsed_time_per_iteration": 4.8691175, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 28s", "remaining_time": "6h 11m 52s", "loss_scale": 1.0, "consumed_samples": 445696, "global_step/max_steps": "1741/6350"}
{"lm loss": 5.05660152, "grad_norm": 1.5886445, "learning_rate": 8.726e-05, "elapsed_time_per_iteration": 4.76844764, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 32s", "remaining_time": "6h 11m 47s", "loss_scale": 1.0, "consumed_samples": 445952, "global_step/max_steps": "1742/6350"}
{"lm loss": 5.04743814, "grad_norm": 0.95351171, "learning_rate": 8.724e-05, "elapsed_time_per_iteration": 5.50428271, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 38s", "remaining_time": "6h 11m 44s", "loss_scale": 1.0, "consumed_samples": 446208, "global_step/max_steps": "1743/6350"}
{"lm loss": 5.06190729, "grad_norm": 1.30198681, "learning_rate": 8.722e-05, "elapsed_time_per_iteration": 4.7874248, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 43s", "remaining_time": "6h 11m 39s", "loss_scale": 1.0, "consumed_samples": 446464, "global_step/max_steps": "1744/6350"}
{"lm loss": 5.06591749, "grad_norm": 1.02907765, "learning_rate": 8.72e-05, "elapsed_time_per_iteration": 4.79721665, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 48s", "remaining_time": "6h 11m 34s", "loss_scale": 1.0, "consumed_samples": 446720, "global_step/max_steps": "1745/6350"}
{"lm loss": 5.0441246, "grad_norm": 1.3669486, "learning_rate": 8.719e-05, "elapsed_time_per_iteration": 4.73985052, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 52s", "remaining_time": "6h 11m 29s", "loss_scale": 1.0, "consumed_samples": 446976, "global_step/max_steps": "1746/6350"}
{"lm loss": 5.06278992, "grad_norm": 1.04015708, "learning_rate": 8.717e-05, "elapsed_time_per_iteration": 4.76651835, "memory(GiB)": 28.03, "elapsed_time": "2h 20m 57s", "remaining_time": "6h 11m 24s", "loss_scale": 1.0, "consumed_samples": 447232, "global_step/max_steps": "1747/6350"}
{"lm loss": 5.0631175, "grad_norm": 1.42262292, "learning_rate": 8.715e-05, "elapsed_time_per_iteration": 5.51764989, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 3s", "remaining_time": "6h 11m 20s", "loss_scale": 1.0, "consumed_samples": 447488, "global_step/max_steps": "1748/6350"}
{"lm loss": 5.04832411, "grad_norm": 1.55721486, "learning_rate": 8.714e-05, "elapsed_time_per_iteration": 4.80204773, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 7s", "remaining_time": "6h 11m 16s", "loss_scale": 1.0, "consumed_samples": 447744, "global_step/max_steps": "1749/6350"}
{"lm loss": 5.04718351, "grad_norm": 0.84766537, "learning_rate": 8.712e-05, "elapsed_time_per_iteration": 4.80965638, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 12s", "remaining_time": "6h 11m 11s", "loss_scale": 1.0, "consumed_samples": 448000, "global_step/max_steps": "1750/6350"}
{"lm loss": 5.04166746, "grad_norm": 1.07865751, "learning_rate": 8.71e-05, "elapsed_time_per_iteration": 4.79349804, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 17s", "remaining_time": "6h 11m 6s", "loss_scale": 1.0, "consumed_samples": 448256, "global_step/max_steps": "1751/6350"}
{"lm loss": 5.03533649, "grad_norm": 1.63688946, "learning_rate": 8.708e-05, "elapsed_time_per_iteration": 5.62267637, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 23s", "remaining_time": "6h 11m 3s", "loss_scale": 1.0, "consumed_samples": 448512, "global_step/max_steps": "1752/6350"}
{"lm loss": 5.03675747, "grad_norm": 1.20343387, "learning_rate": 8.707e-05, "elapsed_time_per_iteration": 4.66812086, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 27s", "remaining_time": "6h 10m 58s", "loss_scale": 1.0, "consumed_samples": 448768, "global_step/max_steps": "1753/6350"}
{"lm loss": 5.0364089, "grad_norm": 1.39030302, "learning_rate": 8.705e-05, "elapsed_time_per_iteration": 4.81247139, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 32s", "remaining_time": "6h 10m 53s", "loss_scale": 1.0, "consumed_samples": 449024, "global_step/max_steps": "1754/6350"}
{"lm loss": 5.05978489, "grad_norm": 0.9443537, "learning_rate": 8.703e-05, "elapsed_time_per_iteration": 4.75233579, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 37s", "remaining_time": "6h 10m 48s", "loss_scale": 1.0, "consumed_samples": 449280, "global_step/max_steps": "1755/6350"}
{"lm loss": 5.03118086, "grad_norm": 0.9341746, "learning_rate": 8.702e-05, "elapsed_time_per_iteration": 4.74211454, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 42s", "remaining_time": "6h 10m 42s", "loss_scale": 1.0, "consumed_samples": 449536, "global_step/max_steps": "1756/6350"}
{"lm loss": 5.04480171, "grad_norm": 1.50550056, "learning_rate": 8.7e-05, "elapsed_time_per_iteration": 4.76789927, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 46s", "remaining_time": "6h 10m 37s", "loss_scale": 1.0, "consumed_samples": 449792, "global_step/max_steps": "1757/6350"}
{"lm loss": 5.05282402, "grad_norm": 1.23163307, "learning_rate": 8.698e-05, "elapsed_time_per_iteration": 4.6953516, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 51s", "remaining_time": "6h 10m 32s", "loss_scale": 1.0, "consumed_samples": 450048, "global_step/max_steps": "1758/6350"}
{"lm loss": 5.03651476, "grad_norm": 1.1537571, "learning_rate": 8.696e-05, "elapsed_time_per_iteration": 4.78231907, "memory(GiB)": 28.03, "elapsed_time": "2h 21m 56s", "remaining_time": "6h 10m 27s", "loss_scale": 1.0, "consumed_samples": 450304, "global_step/max_steps": "1759/6350"}
{"lm loss": 5.0548315, "grad_norm": 1.1703335, "learning_rate": 8.695e-05, "elapsed_time_per_iteration": 4.74778342, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 1s", "remaining_time": "6h 10m 22s", "loss_scale": 1.0, "consumed_samples": 450560, "global_step/max_steps": "1760/6350"}
{"lm loss": 5.05870771, "grad_norm": 1.23058927, "learning_rate": 8.693e-05, "elapsed_time_per_iteration": 4.74796081, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 5s", "remaining_time": "6h 10m 17s", "loss_scale": 1.0, "consumed_samples": 450816, "global_step/max_steps": "1761/6350"}
{"lm loss": 5.04939842, "grad_norm": 1.02518284, "learning_rate": 8.691e-05, "elapsed_time_per_iteration": 4.76820922, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 10s", "remaining_time": "6h 10m 12s", "loss_scale": 1.0, "consumed_samples": 451072, "global_step/max_steps": "1762/6350"}
{"lm loss": 5.061584, "grad_norm": 1.20788634, "learning_rate": 8.689e-05, "elapsed_time_per_iteration": 4.75934839, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 15s", "remaining_time": "6h 10m 7s", "loss_scale": 1.0, "consumed_samples": 451328, "global_step/max_steps": "1763/6350"}
{"lm loss": 5.04163599, "grad_norm": 0.91874546, "learning_rate": 8.688e-05, "elapsed_time_per_iteration": 4.78857422, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 20s", "remaining_time": "6h 10m 2s", "loss_scale": 1.0, "consumed_samples": 451584, "global_step/max_steps": "1764/6350"}
{"lm loss": 5.04358816, "grad_norm": 1.12268007, "learning_rate": 8.686e-05, "elapsed_time_per_iteration": 4.84306026, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 25s", "remaining_time": "6h 9m 57s", "loss_scale": 1.0, "consumed_samples": 451840, "global_step/max_steps": "1765/6350"}
{"lm loss": 5.03801966, "grad_norm": 0.96395957, "learning_rate": 8.684e-05, "elapsed_time_per_iteration": 4.69156003, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 29s", "remaining_time": "6h 9m 52s", "loss_scale": 1.0, "consumed_samples": 452096, "global_step/max_steps": "1766/6350"}
{"lm loss": 5.05376911, "grad_norm": 1.27866447, "learning_rate": 8.683e-05, "elapsed_time_per_iteration": 4.78877497, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 34s", "remaining_time": "6h 9m 47s", "loss_scale": 1.0, "consumed_samples": 452352, "global_step/max_steps": "1767/6350"}
{"lm loss": 5.04949188, "grad_norm": 1.32130468, "learning_rate": 8.681e-05, "elapsed_time_per_iteration": 4.73177409, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 39s", "remaining_time": "6h 9m 42s", "loss_scale": 1.0, "consumed_samples": 452608, "global_step/max_steps": "1768/6350"}
{"lm loss": 5.04571438, "grad_norm": 1.37184763, "learning_rate": 8.679e-05, "elapsed_time_per_iteration": 4.84312868, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 44s", "remaining_time": "6h 9m 37s", "loss_scale": 1.0, "consumed_samples": 452864, "global_step/max_steps": "1769/6350"}
{"lm loss": 5.03279877, "grad_norm": 1.27589977, "learning_rate": 8.677e-05, "elapsed_time_per_iteration": 4.78096628, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 48s", "remaining_time": "6h 9m 32s", "loss_scale": 1.0, "consumed_samples": 453120, "global_step/max_steps": "1770/6350"}
{"lm loss": 5.06078625, "grad_norm": 0.81809521, "learning_rate": 8.676e-05, "elapsed_time_per_iteration": 4.73809958, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 53s", "remaining_time": "6h 9m 27s", "loss_scale": 1.0, "consumed_samples": 453376, "global_step/max_steps": "1771/6350"}
{"lm loss": 5.05488682, "grad_norm": 1.00342917, "learning_rate": 8.674e-05, "elapsed_time_per_iteration": 4.8033917, "memory(GiB)": 28.03, "elapsed_time": "2h 22m 58s", "remaining_time": "6h 9m 22s", "loss_scale": 1.0, "consumed_samples": 453632, "global_step/max_steps": "1772/6350"}
{"lm loss": 5.0459609, "grad_norm": 1.36808181, "learning_rate": 8.672e-05, "elapsed_time_per_iteration": 4.73074746, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 3s", "remaining_time": "6h 9m 17s", "loss_scale": 1.0, "consumed_samples": 453888, "global_step/max_steps": "1773/6350"}
{"lm loss": 5.04433298, "grad_norm": 1.17983925, "learning_rate": 8.67e-05, "elapsed_time_per_iteration": 5.4489522, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 8s", "remaining_time": "6h 9m 14s", "loss_scale": 1.0, "consumed_samples": 454144, "global_step/max_steps": "1774/6350"}
{"lm loss": 5.04895592, "grad_norm": 1.28589523, "learning_rate": 8.669e-05, "elapsed_time_per_iteration": 4.74493957, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 13s", "remaining_time": "6h 9m 8s", "loss_scale": 1.0, "consumed_samples": 454400, "global_step/max_steps": "1775/6350"}
{"lm loss": 5.04385138, "grad_norm": 0.83715338, "learning_rate": 8.667e-05, "elapsed_time_per_iteration": 5.84007168, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 19s", "remaining_time": "6h 9m 6s", "loss_scale": 1.0, "consumed_samples": 454656, "global_step/max_steps": "1776/6350"}
{"lm loss": 5.05590582, "grad_norm": 1.31202686, "learning_rate": 8.665e-05, "elapsed_time_per_iteration": 4.74078035, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 23s", "remaining_time": "6h 9m 1s", "loss_scale": 1.0, "consumed_samples": 454912, "global_step/max_steps": "1777/6350"}
{"lm loss": 5.05492306, "grad_norm": 1.0255276, "learning_rate": 8.663e-05, "elapsed_time_per_iteration": 4.76684904, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 28s", "remaining_time": "6h 8m 56s", "loss_scale": 1.0, "consumed_samples": 455168, "global_step/max_steps": "1778/6350"}
{"lm loss": 5.03368759, "grad_norm": 1.06030893, "learning_rate": 8.662e-05, "elapsed_time_per_iteration": 4.78707647, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 33s", "remaining_time": "6h 8m 51s", "loss_scale": 1.0, "consumed_samples": 455424, "global_step/max_steps": "1779/6350"}
{"lm loss": 5.03105974, "grad_norm": 1.07452834, "learning_rate": 8.66e-05, "elapsed_time_per_iteration": 4.77339339, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 38s", "remaining_time": "6h 8m 46s", "loss_scale": 1.0, "consumed_samples": 455680, "global_step/max_steps": "1780/6350"}
{"lm loss": 5.06532574, "grad_norm": 1.1322906, "learning_rate": 8.658e-05, "elapsed_time_per_iteration": 4.75892973, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 42s", "remaining_time": "6h 8m 41s", "loss_scale": 1.0, "consumed_samples": 455936, "global_step/max_steps": "1781/6350"}
{"lm loss": 5.04042053, "grad_norm": 1.15487933, "learning_rate": 8.656e-05, "elapsed_time_per_iteration": 4.74683452, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 47s", "remaining_time": "6h 8m 36s", "loss_scale": 1.0, "consumed_samples": 456192, "global_step/max_steps": "1782/6350"}
{"lm loss": 5.03679323, "grad_norm": 1.33350658, "learning_rate": 8.655e-05, "elapsed_time_per_iteration": 5.07863355, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 52s", "remaining_time": "6h 8m 32s", "loss_scale": 1.0, "consumed_samples": 456448, "global_step/max_steps": "1783/6350"}
{"lm loss": 5.0390625, "grad_norm": 1.04440939, "learning_rate": 8.653e-05, "elapsed_time_per_iteration": 4.72976804, "memory(GiB)": 28.03, "elapsed_time": "2h 23m 57s", "remaining_time": "6h 8m 27s", "loss_scale": 1.0, "consumed_samples": 456704, "global_step/max_steps": "1784/6350"}
{"lm loss": 5.07185698, "grad_norm": 1.24315882, "learning_rate": 8.651e-05, "elapsed_time_per_iteration": 4.74363446, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 2s", "remaining_time": "6h 8m 21s", "loss_scale": 1.0, "consumed_samples": 456960, "global_step/max_steps": "1785/6350"}
{"lm loss": 5.07080746, "grad_norm": 1.20563161, "learning_rate": 8.65e-05, "elapsed_time_per_iteration": 5.51958585, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 7s", "remaining_time": "6h 8m 18s", "loss_scale": 1.0, "consumed_samples": 457216, "global_step/max_steps": "1786/6350"}
{"lm loss": 5.04915237, "grad_norm": 1.01681995, "learning_rate": 8.648e-05, "elapsed_time_per_iteration": 4.73155379, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 12s", "remaining_time": "6h 8m 13s", "loss_scale": 1.0, "consumed_samples": 457472, "global_step/max_steps": "1787/6350"}
{"lm loss": 5.04068136, "grad_norm": 1.5237664, "learning_rate": 8.646e-05, "elapsed_time_per_iteration": 5.45159245, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 17s", "remaining_time": "6h 8m 10s", "loss_scale": 1.0, "consumed_samples": 457728, "global_step/max_steps": "1788/6350"}
{"lm loss": 5.04148531, "grad_norm": 0.90226269, "learning_rate": 8.644e-05, "elapsed_time_per_iteration": 4.74154067, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 22s", "remaining_time": "6h 8m 5s", "loss_scale": 1.0, "consumed_samples": 457984, "global_step/max_steps": "1789/6350"}
{"lm loss": 5.04856205, "grad_norm": 1.04472327, "learning_rate": 8.643e-05, "elapsed_time_per_iteration": 4.73668361, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 27s", "remaining_time": "6h 8m 0s", "loss_scale": 1.0, "consumed_samples": 458240, "global_step/max_steps": "1790/6350"}
{"lm loss": 5.03894806, "grad_norm": 1.100564, "learning_rate": 8.641e-05, "elapsed_time_per_iteration": 4.81050849, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 32s", "remaining_time": "6h 7m 55s", "loss_scale": 1.0, "consumed_samples": 458496, "global_step/max_steps": "1791/6350"}
{"lm loss": 5.03370142, "grad_norm": 1.28450668, "learning_rate": 8.639e-05, "elapsed_time_per_iteration": 4.76865172, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 37s", "remaining_time": "6h 7m 50s", "loss_scale": 1.0, "consumed_samples": 458752, "global_step/max_steps": "1792/6350"}
{"lm loss": 5.04970884, "grad_norm": 1.03147066, "learning_rate": 8.637e-05, "elapsed_time_per_iteration": 5.47995567, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 42s", "remaining_time": "6h 7m 47s", "loss_scale": 1.0, "consumed_samples": 459008, "global_step/max_steps": "1793/6350"}
{"lm loss": 5.03203344, "grad_norm": 1.05899262, "learning_rate": 8.635e-05, "elapsed_time_per_iteration": 4.73838544, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 47s", "remaining_time": "6h 7m 41s", "loss_scale": 1.0, "consumed_samples": 459264, "global_step/max_steps": "1794/6350"}
{"lm loss": 5.05993557, "grad_norm": 0.9196943, "learning_rate": 8.634e-05, "elapsed_time_per_iteration": 4.74312973, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 51s", "remaining_time": "6h 7m 36s", "loss_scale": 1.0, "consumed_samples": 459520, "global_step/max_steps": "1795/6350"}
{"lm loss": 5.03870296, "grad_norm": 1.03147006, "learning_rate": 8.632e-05, "elapsed_time_per_iteration": 4.63950753, "memory(GiB)": 28.03, "elapsed_time": "2h 24m 56s", "remaining_time": "6h 7m 31s", "loss_scale": 1.0, "consumed_samples": 459776, "global_step/max_steps": "1796/6350"}
{"lm loss": 5.06303358, "grad_norm": 1.27651858, "learning_rate": 8.63e-05, "elapsed_time_per_iteration": 4.69047093, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 1s", "remaining_time": "6h 7m 26s", "loss_scale": 1.0, "consumed_samples": 460032, "global_step/max_steps": "1797/6350"}
{"lm loss": 5.05700874, "grad_norm": 1.17470777, "learning_rate": 8.628e-05, "elapsed_time_per_iteration": 4.72392225, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 6s", "remaining_time": "6h 7m 21s", "loss_scale": 1.0, "consumed_samples": 460288, "global_step/max_steps": "1798/6350"}
{"lm loss": 5.03470898, "grad_norm": 1.07337892, "learning_rate": 8.627e-05, "elapsed_time_per_iteration": 4.68733668, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 10s", "remaining_time": "6h 7m 15s", "loss_scale": 1.0, "consumed_samples": 460544, "global_step/max_steps": "1799/6350"}
{"lm loss": 5.02819777, "grad_norm": 0.97521096, "learning_rate": 8.625e-05, "elapsed_time_per_iteration": 4.71202779, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 15s", "remaining_time": "6h 7m 10s", "loss_scale": 1.0, "consumed_samples": 460800, "global_step/max_steps": "1800/6350"}
{"lm loss": 5.0629344, "grad_norm": 1.10137868, "learning_rate": 8.623e-05, "elapsed_time_per_iteration": 4.70662618, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 20s", "remaining_time": "6h 7m 5s", "loss_scale": 1.0, "consumed_samples": 461056, "global_step/max_steps": "1801/6350"}
{"lm loss": 5.02500677, "grad_norm": 1.23645961, "learning_rate": 8.621e-05, "elapsed_time_per_iteration": 4.7720027, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 24s", "remaining_time": "6h 7m 0s", "loss_scale": 1.0, "consumed_samples": 461312, "global_step/max_steps": "1802/6350"}
{"lm loss": 5.0437541, "grad_norm": 1.05048835, "learning_rate": 8.62e-05, "elapsed_time_per_iteration": 4.76676345, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 29s", "remaining_time": "6h 6m 55s", "loss_scale": 1.0, "consumed_samples": 461568, "global_step/max_steps": "1803/6350"}
{"lm loss": 5.01866341, "grad_norm": 1.82422245, "learning_rate": 8.618e-05, "elapsed_time_per_iteration": 4.70111561, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 34s", "remaining_time": "6h 6m 50s", "loss_scale": 1.0, "consumed_samples": 461824, "global_step/max_steps": "1804/6350"}
{"lm loss": 5.04738712, "grad_norm": 0.93751884, "learning_rate": 8.616e-05, "elapsed_time_per_iteration": 5.56399918, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 39s", "remaining_time": "6h 6m 47s", "loss_scale": 1.0, "consumed_samples": 462080, "global_step/max_steps": "1805/6350"}
{"lm loss": 5.03050518, "grad_norm": 1.29936075, "learning_rate": 8.614e-05, "elapsed_time_per_iteration": 4.80443263, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 44s", "remaining_time": "6h 6m 42s", "loss_scale": 1.0, "consumed_samples": 462336, "global_step/max_steps": "1806/6350"}
{"lm loss": 5.03583002, "grad_norm": 1.50681376, "learning_rate": 8.613e-05, "elapsed_time_per_iteration": 4.68224978, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 49s", "remaining_time": "6h 6m 37s", "loss_scale": 1.0, "consumed_samples": 462592, "global_step/max_steps": "1807/6350"}
{"lm loss": 5.05272055, "grad_norm": 1.39913487, "learning_rate": 8.611e-05, "elapsed_time_per_iteration": 4.75277662, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 54s", "remaining_time": "6h 6m 32s", "loss_scale": 1.0, "consumed_samples": 462848, "global_step/max_steps": "1808/6350"}
{"lm loss": 5.02957726, "grad_norm": 0.96248257, "learning_rate": 8.609e-05, "elapsed_time_per_iteration": 4.77073765, "memory(GiB)": 28.03, "elapsed_time": "2h 25m 58s", "remaining_time": "6h 6m 26s", "loss_scale": 1.0, "consumed_samples": 463104, "global_step/max_steps": "1809/6350"}
{"lm loss": 5.04204798, "grad_norm": 1.36807394, "learning_rate": 8.607e-05, "elapsed_time_per_iteration": 4.70600009, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 3s", "remaining_time": "6h 6m 21s", "loss_scale": 1.0, "consumed_samples": 463360, "global_step/max_steps": "1810/6350"}
{"lm loss": 5.03435993, "grad_norm": 1.54380822, "learning_rate": 8.605e-05, "elapsed_time_per_iteration": 4.80164647, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 8s", "remaining_time": "6h 6m 16s", "loss_scale": 1.0, "consumed_samples": 463616, "global_step/max_steps": "1811/6350"}
{"lm loss": 5.03252506, "grad_norm": 0.80863726, "learning_rate": 8.604e-05, "elapsed_time_per_iteration": 4.66983151, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 13s", "remaining_time": "6h 6m 11s", "loss_scale": 1.0, "consumed_samples": 463872, "global_step/max_steps": "1812/6350"}
{"lm loss": 5.03778839, "grad_norm": 1.58862412, "learning_rate": 8.602e-05, "elapsed_time_per_iteration": 4.73468351, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 17s", "remaining_time": "6h 6m 6s", "loss_scale": 1.0, "consumed_samples": 464128, "global_step/max_steps": "1813/6350"}
{"lm loss": 5.04256153, "grad_norm": 1.10924602, "learning_rate": 8.6e-05, "elapsed_time_per_iteration": 4.80378628, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 22s", "remaining_time": "6h 6m 1s", "loss_scale": 1.0, "consumed_samples": 464384, "global_step/max_steps": "1814/6350"}
{"lm loss": 5.02613306, "grad_norm": 1.29807687, "learning_rate": 8.598e-05, "elapsed_time_per_iteration": 4.86714935, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 27s", "remaining_time": "6h 5m 56s", "loss_scale": 1.0, "consumed_samples": 464640, "global_step/max_steps": "1815/6350"}
{"lm loss": 5.03770256, "grad_norm": 1.35486734, "learning_rate": 8.597e-05, "elapsed_time_per_iteration": 4.72783971, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 32s", "remaining_time": "6h 5m 51s", "loss_scale": 1.0, "consumed_samples": 464896, "global_step/max_steps": "1816/6350"}
{"lm loss": 5.04311514, "grad_norm": 0.86279178, "learning_rate": 8.595e-05, "elapsed_time_per_iteration": 4.76623821, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 37s", "remaining_time": "6h 5m 46s", "loss_scale": 1.0, "consumed_samples": 465152, "global_step/max_steps": "1817/6350"}
{"lm loss": 5.03313398, "grad_norm": 0.99498075, "learning_rate": 8.593e-05, "elapsed_time_per_iteration": 4.76503158, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 41s", "remaining_time": "6h 5m 41s", "loss_scale": 1.0, "consumed_samples": 465408, "global_step/max_steps": "1818/6350"}
{"lm loss": 5.02906561, "grad_norm": 1.17657089, "learning_rate": 8.591e-05, "elapsed_time_per_iteration": 4.76478076, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 46s", "remaining_time": "6h 5m 36s", "loss_scale": 1.0, "consumed_samples": 465664, "global_step/max_steps": "1819/6350"}
{"lm loss": 5.03142214, "grad_norm": 1.19933498, "learning_rate": 8.589e-05, "elapsed_time_per_iteration": 4.72197223, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 51s", "remaining_time": "6h 5m 31s", "loss_scale": 1.0, "consumed_samples": 465920, "global_step/max_steps": "1820/6350"}
{"lm loss": 5.01295567, "grad_norm": 1.53438163, "learning_rate": 8.588e-05, "elapsed_time_per_iteration": 4.76593184, "memory(GiB)": 28.03, "elapsed_time": "2h 26m 56s", "remaining_time": "6h 5m 26s", "loss_scale": 1.0, "consumed_samples": 466176, "global_step/max_steps": "1821/6350"}
{"lm loss": 5.03035069, "grad_norm": 0.82078618, "learning_rate": 8.586e-05, "elapsed_time_per_iteration": 4.73186541, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 0s", "remaining_time": "6h 5m 21s", "loss_scale": 1.0, "consumed_samples": 466432, "global_step/max_steps": "1822/6350"}
{"lm loss": 5.03732014, "grad_norm": 1.17448354, "learning_rate": 8.584e-05, "elapsed_time_per_iteration": 4.77313566, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 5s", "remaining_time": "6h 5m 16s", "loss_scale": 1.0, "consumed_samples": 466688, "global_step/max_steps": "1823/6350"}
{"lm loss": 5.05156088, "grad_norm": 1.40318036, "learning_rate": 8.582e-05, "elapsed_time_per_iteration": 4.80474639, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 10s", "remaining_time": "6h 5m 11s", "loss_scale": 1.0, "consumed_samples": 466944, "global_step/max_steps": "1824/6350"}
{"lm loss": 5.05031586, "grad_norm": 0.93812197, "learning_rate": 8.581e-05, "elapsed_time_per_iteration": 4.79134512, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 15s", "remaining_time": "6h 5m 6s", "loss_scale": 1.0, "consumed_samples": 467200, "global_step/max_steps": "1825/6350"}
{"lm loss": 5.03519726, "grad_norm": 1.25696731, "learning_rate": 8.579e-05, "elapsed_time_per_iteration": 4.80640841, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 19s", "remaining_time": "6h 5m 1s", "loss_scale": 1.0, "consumed_samples": 467456, "global_step/max_steps": "1826/6350"}
{"lm loss": 5.04475164, "grad_norm": 1.16225731, "learning_rate": 8.577e-05, "elapsed_time_per_iteration": 4.8169539, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 24s", "remaining_time": "6h 4m 56s", "loss_scale": 1.0, "consumed_samples": 467712, "global_step/max_steps": "1827/6350"}
{"lm loss": 5.04231596, "grad_norm": 1.05081475, "learning_rate": 8.575e-05, "elapsed_time_per_iteration": 4.82213068, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 29s", "remaining_time": "6h 4m 51s", "loss_scale": 1.0, "consumed_samples": 467968, "global_step/max_steps": "1828/6350"}
{"lm loss": 5.03836536, "grad_norm": 1.32532251, "learning_rate": 8.573e-05, "elapsed_time_per_iteration": 4.75183725, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 34s", "remaining_time": "6h 4m 46s", "loss_scale": 1.0, "consumed_samples": 468224, "global_step/max_steps": "1829/6350"}
{"lm loss": 5.08086729, "grad_norm": 1.34231639, "learning_rate": 8.572e-05, "elapsed_time_per_iteration": 4.76717758, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 39s", "remaining_time": "6h 4m 41s", "loss_scale": 1.0, "consumed_samples": 468480, "global_step/max_steps": "1830/6350"}
{"lm loss": 5.03875256, "grad_norm": 1.11990702, "learning_rate": 8.57e-05, "elapsed_time_per_iteration": 4.86294723, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 43s", "remaining_time": "6h 4m 36s", "loss_scale": 1.0, "consumed_samples": 468736, "global_step/max_steps": "1831/6350"}
{"lm loss": 5.03188467, "grad_norm": 1.41995406, "learning_rate": 8.568e-05, "elapsed_time_per_iteration": 4.80310202, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 48s", "remaining_time": "6h 4m 31s", "loss_scale": 1.0, "consumed_samples": 468992, "global_step/max_steps": "1832/6350"}
{"lm loss": 5.04393721, "grad_norm": 0.8151437, "learning_rate": 8.566e-05, "elapsed_time_per_iteration": 4.76202154, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 53s", "remaining_time": "6h 4m 26s", "loss_scale": 1.0, "consumed_samples": 469248, "global_step/max_steps": "1833/6350"}
{"lm loss": 5.04075193, "grad_norm": 0.83749503, "learning_rate": 8.564e-05, "elapsed_time_per_iteration": 5.95182538, "memory(GiB)": 28.03, "elapsed_time": "2h 27m 59s", "remaining_time": "6h 4m 24s", "loss_scale": 1.0, "consumed_samples": 469504, "global_step/max_steps": "1834/6350"}
{"lm loss": 5.04027843, "grad_norm": 0.99443996, "learning_rate": 8.563e-05, "elapsed_time_per_iteration": 4.73521638, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 4s", "remaining_time": "6h 4m 19s", "loss_scale": 1.0, "consumed_samples": 469760, "global_step/max_steps": "1835/6350"}
{"lm loss": 5.03537607, "grad_norm": 1.05706763, "learning_rate": 8.561e-05, "elapsed_time_per_iteration": 4.7519846, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 8s", "remaining_time": "6h 4m 14s", "loss_scale": 1.0, "consumed_samples": 470016, "global_step/max_steps": "1836/6350"}
{"lm loss": 5.02272415, "grad_norm": 0.90125322, "learning_rate": 8.559e-05, "elapsed_time_per_iteration": 5.5993185, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 14s", "remaining_time": "6h 4m 11s", "loss_scale": 1.0, "consumed_samples": 470272, "global_step/max_steps": "1837/6350"}
{"lm loss": 5.04870892, "grad_norm": 1.2924366, "learning_rate": 8.557e-05, "elapsed_time_per_iteration": 4.82941556, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 19s", "remaining_time": "6h 4m 6s", "loss_scale": 1.0, "consumed_samples": 470528, "global_step/max_steps": "1838/6350"}
{"lm loss": 5.02499104, "grad_norm": 1.47180927, "learning_rate": 8.555e-05, "elapsed_time_per_iteration": 4.72925091, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 24s", "remaining_time": "6h 4m 1s", "loss_scale": 1.0, "consumed_samples": 470784, "global_step/max_steps": "1839/6350"}
{"lm loss": 5.05415726, "grad_norm": 1.03117895, "learning_rate": 8.554e-05, "elapsed_time_per_iteration": 4.72252917, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 28s", "remaining_time": "6h 3m 56s", "loss_scale": 1.0, "consumed_samples": 471040, "global_step/max_steps": "1840/6350"}
{"lm loss": 5.0241313, "grad_norm": 1.01545608, "learning_rate": 8.552e-05, "elapsed_time_per_iteration": 4.74468851, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 33s", "remaining_time": "6h 3m 51s", "loss_scale": 1.0, "consumed_samples": 471296, "global_step/max_steps": "1841/6350"}
{"lm loss": 4.99866962, "grad_norm": 1.43397439, "learning_rate": 8.55e-05, "elapsed_time_per_iteration": 4.76801896, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 38s", "remaining_time": "6h 3m 46s", "loss_scale": 1.0, "consumed_samples": 471552, "global_step/max_steps": "1842/6350"}
{"lm loss": 5.03459597, "grad_norm": 0.81926465, "learning_rate": 8.548e-05, "elapsed_time_per_iteration": 5.69403744, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 44s", "remaining_time": "6h 3m 43s", "loss_scale": 1.0, "consumed_samples": 471808, "global_step/max_steps": "1843/6350"}
{"lm loss": 5.04221249, "grad_norm": 1.19802547, "learning_rate": 8.546e-05, "elapsed_time_per_iteration": 4.7566967, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 48s", "remaining_time": "6h 3m 38s", "loss_scale": 1.0, "consumed_samples": 472064, "global_step/max_steps": "1844/6350"}
{"lm loss": 5.04156303, "grad_norm": 1.13721836, "learning_rate": 8.545e-05, "elapsed_time_per_iteration": 4.69308901, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 53s", "remaining_time": "6h 3m 33s", "loss_scale": 1.0, "consumed_samples": 472320, "global_step/max_steps": "1845/6350"}
{"lm loss": 5.02111292, "grad_norm": 0.96808887, "learning_rate": 8.543e-05, "elapsed_time_per_iteration": 4.70614481, "memory(GiB)": 28.03, "elapsed_time": "2h 28m 58s", "remaining_time": "6h 3m 28s", "loss_scale": 1.0, "consumed_samples": 472576, "global_step/max_steps": "1846/6350"}
{"lm loss": 5.03726101, "grad_norm": 1.38691175, "learning_rate": 8.541e-05, "elapsed_time_per_iteration": 5.07817054, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 3s", "remaining_time": "6h 3m 23s", "loss_scale": 1.0, "consumed_samples": 472832, "global_step/max_steps": "1847/6350"}
{"lm loss": 5.03799152, "grad_norm": 1.00326622, "learning_rate": 8.539e-05, "elapsed_time_per_iteration": 4.76621485, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 8s", "remaining_time": "6h 3m 18s", "loss_scale": 1.0, "consumed_samples": 473088, "global_step/max_steps": "1848/6350"}
{"lm loss": 5.02694845, "grad_norm": 1.31925154, "learning_rate": 8.537e-05, "elapsed_time_per_iteration": 4.72972655, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 12s", "remaining_time": "6h 3m 13s", "loss_scale": 1.0, "consumed_samples": 473344, "global_step/max_steps": "1849/6350"}
{"lm loss": 5.0488658, "grad_norm": 0.95046979, "learning_rate": 8.536e-05, "elapsed_time_per_iteration": 5.56481504, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 18s", "remaining_time": "6h 3m 10s", "loss_scale": 1.0, "consumed_samples": 473600, "global_step/max_steps": "1850/6350"}
{"lm loss": 5.03345299, "grad_norm": 1.24642539, "learning_rate": 8.534e-05, "elapsed_time_per_iteration": 4.81432223, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 23s", "remaining_time": "6h 3m 5s", "loss_scale": 1.0, "consumed_samples": 473856, "global_step/max_steps": "1851/6350"}
{"lm loss": 5.01946115, "grad_norm": 1.19509625, "learning_rate": 8.532e-05, "elapsed_time_per_iteration": 5.1379025, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 28s", "remaining_time": "6h 3m 1s", "loss_scale": 1.0, "consumed_samples": 474112, "global_step/max_steps": "1852/6350"}
{"lm loss": 5.06001568, "grad_norm": 0.94042301, "learning_rate": 8.53e-05, "elapsed_time_per_iteration": 4.86533332, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 33s", "remaining_time": "6h 2m 56s", "loss_scale": 1.0, "consumed_samples": 474368, "global_step/max_steps": "1853/6350"}
{"lm loss": 5.03052473, "grad_norm": 0.9136107, "learning_rate": 8.528e-05, "elapsed_time_per_iteration": 4.80153108, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 37s", "remaining_time": "6h 2m 51s", "loss_scale": 1.0, "consumed_samples": 474624, "global_step/max_steps": "1854/6350"}
{"lm loss": 5.00867414, "grad_norm": 1.26525545, "learning_rate": 8.527e-05, "elapsed_time_per_iteration": 4.74098778, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 42s", "remaining_time": "6h 2m 46s", "loss_scale": 1.0, "consumed_samples": 474880, "global_step/max_steps": "1855/6350"}
{"lm loss": 5.04206181, "grad_norm": 1.24637282, "learning_rate": 8.525e-05, "elapsed_time_per_iteration": 4.76672006, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 47s", "remaining_time": "6h 2m 41s", "loss_scale": 1.0, "consumed_samples": 475136, "global_step/max_steps": "1856/6350"}
{"lm loss": 5.03786993, "grad_norm": 1.00070024, "learning_rate": 8.523e-05, "elapsed_time_per_iteration": 5.52684736, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 53s", "remaining_time": "6h 2m 38s", "loss_scale": 1.0, "consumed_samples": 475392, "global_step/max_steps": "1857/6350"}
{"lm loss": 5.01463842, "grad_norm": 1.1880765, "learning_rate": 8.521e-05, "elapsed_time_per_iteration": 4.79601455, "memory(GiB)": 28.03, "elapsed_time": "2h 29m 57s", "remaining_time": "6h 2m 33s", "loss_scale": 1.0, "consumed_samples": 475648, "global_step/max_steps": "1858/6350"}
{"lm loss": 5.04600239, "grad_norm": 1.3489902, "learning_rate": 8.519e-05, "elapsed_time_per_iteration": 4.75584626, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 2s", "remaining_time": "6h 2m 28s", "loss_scale": 1.0, "consumed_samples": 475904, "global_step/max_steps": "1859/6350"}
{"lm loss": 5.01720428, "grad_norm": 1.04032719, "learning_rate": 8.518e-05, "elapsed_time_per_iteration": 4.87248707, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 7s", "remaining_time": "6h 2m 23s", "loss_scale": 1.0, "consumed_samples": 476160, "global_step/max_steps": "1860/6350"}
{"lm loss": 5.03571701, "grad_norm": 0.99012762, "learning_rate": 8.516e-05, "elapsed_time_per_iteration": 4.73866916, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 12s", "remaining_time": "6h 2m 18s", "loss_scale": 1.0, "consumed_samples": 476416, "global_step/max_steps": "1861/6350"}
{"lm loss": 5.02360535, "grad_norm": 1.16991007, "learning_rate": 8.514e-05, "elapsed_time_per_iteration": 4.86231208, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 17s", "remaining_time": "6h 2m 13s", "loss_scale": 1.0, "consumed_samples": 476672, "global_step/max_steps": "1862/6350"}
{"lm loss": 5.02291822, "grad_norm": 0.82300669, "learning_rate": 8.512e-05, "elapsed_time_per_iteration": 4.73022294, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 21s", "remaining_time": "6h 2m 8s", "loss_scale": 1.0, "consumed_samples": 476928, "global_step/max_steps": "1863/6350"}
{"lm loss": 5.03757238, "grad_norm": 0.83571702, "learning_rate": 8.51e-05, "elapsed_time_per_iteration": 4.83416867, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 26s", "remaining_time": "6h 2m 3s", "loss_scale": 1.0, "consumed_samples": 477184, "global_step/max_steps": "1864/6350"}
{"lm loss": 5.04268217, "grad_norm": 1.12747526, "learning_rate": 8.508e-05, "elapsed_time_per_iteration": 4.83111358, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 31s", "remaining_time": "6h 1m 59s", "loss_scale": 1.0, "consumed_samples": 477440, "global_step/max_steps": "1865/6350"}
{"lm loss": 5.02298784, "grad_norm": 1.13685358, "learning_rate": 8.507e-05, "elapsed_time_per_iteration": 4.67630982, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 36s", "remaining_time": "6h 1m 53s", "loss_scale": 1.0, "consumed_samples": 477696, "global_step/max_steps": "1866/6350"}
{"lm loss": 5.04416275, "grad_norm": 1.44523525, "learning_rate": 8.505e-05, "elapsed_time_per_iteration": 4.70997024, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 40s", "remaining_time": "6h 1m 48s", "loss_scale": 1.0, "consumed_samples": 477952, "global_step/max_steps": "1867/6350"}
{"lm loss": 5.0307126, "grad_norm": 0.93550861, "learning_rate": 8.503e-05, "elapsed_time_per_iteration": 4.77857566, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 45s", "remaining_time": "6h 1m 43s", "loss_scale": 1.0, "consumed_samples": 478208, "global_step/max_steps": "1868/6350"}
{"lm loss": 5.03148079, "grad_norm": 0.89985764, "learning_rate": 8.501e-05, "elapsed_time_per_iteration": 4.76998472, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 50s", "remaining_time": "6h 1m 38s", "loss_scale": 1.0, "consumed_samples": 478464, "global_step/max_steps": "1869/6350"}
{"lm loss": 5.04305172, "grad_norm": 1.06962204, "learning_rate": 8.499e-05, "elapsed_time_per_iteration": 4.72688055, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 55s", "remaining_time": "6h 1m 33s", "loss_scale": 1.0, "consumed_samples": 478720, "global_step/max_steps": "1870/6350"}
{"lm loss": 5.03549337, "grad_norm": 1.16652822, "learning_rate": 8.497e-05, "elapsed_time_per_iteration": 4.7710104, "memory(GiB)": 28.03, "elapsed_time": "2h 30m 59s", "remaining_time": "6h 1m 28s", "loss_scale": 1.0, "consumed_samples": 478976, "global_step/max_steps": "1871/6350"}
{"lm loss": 5.00317669, "grad_norm": 1.12027371, "learning_rate": 8.496e-05, "elapsed_time_per_iteration": 4.78730249, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 4s", "remaining_time": "6h 1m 23s", "loss_scale": 1.0, "consumed_samples": 479232, "global_step/max_steps": "1872/6350"}
{"lm loss": 5.03434896, "grad_norm": 1.46481943, "learning_rate": 8.494e-05, "elapsed_time_per_iteration": 4.78078818, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 9s", "remaining_time": "6h 1m 18s", "loss_scale": 1.0, "consumed_samples": 479488, "global_step/max_steps": "1873/6350"}
{"lm loss": 5.04681683, "grad_norm": 0.91571414, "learning_rate": 8.492e-05, "elapsed_time_per_iteration": 4.8301506, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 14s", "remaining_time": "6h 1m 13s", "loss_scale": 1.0, "consumed_samples": 479744, "global_step/max_steps": "1874/6350"}
{"lm loss": 5.03664303, "grad_norm": 1.18134415, "learning_rate": 8.49e-05, "elapsed_time_per_iteration": 4.76453519, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 19s", "remaining_time": "6h 1m 8s", "loss_scale": 1.0, "consumed_samples": 480000, "global_step/max_steps": "1875/6350"}
{"lm loss": 5.02795029, "grad_norm": 1.32537997, "learning_rate": 8.488e-05, "elapsed_time_per_iteration": 4.75582933, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 23s", "remaining_time": "6h 1m 3s", "loss_scale": 1.0, "consumed_samples": 480256, "global_step/max_steps": "1876/6350"}
{"lm loss": 5.03551626, "grad_norm": 0.72794926, "learning_rate": 8.486e-05, "elapsed_time_per_iteration": 4.78909802, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 28s", "remaining_time": "6h 0m 58s", "loss_scale": 1.0, "consumed_samples": 480512, "global_step/max_steps": "1877/6350"}
{"lm loss": 5.02555895, "grad_norm": 1.16048753, "learning_rate": 8.485e-05, "elapsed_time_per_iteration": 4.71416569, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 33s", "remaining_time": "6h 0m 53s", "loss_scale": 1.0, "consumed_samples": 480768, "global_step/max_steps": "1878/6350"}
{"lm loss": 5.01740837, "grad_norm": 1.08952177, "learning_rate": 8.483e-05, "elapsed_time_per_iteration": 4.76089501, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 38s", "remaining_time": "6h 0m 48s", "loss_scale": 1.0, "consumed_samples": 481024, "global_step/max_steps": "1879/6350"}
{"lm loss": 5.02266169, "grad_norm": 1.07279718, "learning_rate": 8.481e-05, "elapsed_time_per_iteration": 4.70653844, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 42s", "remaining_time": "6h 0m 43s", "loss_scale": 1.0, "consumed_samples": 481280, "global_step/max_steps": "1880/6350"}
{"lm loss": 5.02926874, "grad_norm": 1.17128837, "learning_rate": 8.479e-05, "elapsed_time_per_iteration": 4.7581799, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 47s", "remaining_time": "6h 0m 38s", "loss_scale": 1.0, "consumed_samples": 481536, "global_step/max_steps": "1881/6350"}
{"lm loss": 5.0330162, "grad_norm": 1.27290165, "learning_rate": 8.477e-05, "elapsed_time_per_iteration": 4.84240937, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 52s", "remaining_time": "6h 0m 33s", "loss_scale": 1.0, "consumed_samples": 481792, "global_step/max_steps": "1882/6350"}
{"lm loss": 5.02551079, "grad_norm": 0.94266897, "learning_rate": 8.475e-05, "elapsed_time_per_iteration": 5.55823088, "memory(GiB)": 28.03, "elapsed_time": "2h 31m 57s", "remaining_time": "6h 0m 30s", "loss_scale": 1.0, "consumed_samples": 482048, "global_step/max_steps": "1883/6350"}
{"lm loss": 5.03581667, "grad_norm": 1.01861966, "learning_rate": 8.474e-05, "elapsed_time_per_iteration": 5.70340204, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 3s", "remaining_time": "6h 0m 27s", "loss_scale": 1.0, "consumed_samples": 482304, "global_step/max_steps": "1884/6350"}
{"lm loss": 5.03566456, "grad_norm": 1.71957695, "learning_rate": 8.472e-05, "elapsed_time_per_iteration": 5.0517509, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 8s", "remaining_time": "6h 0m 23s", "loss_scale": 1.0, "consumed_samples": 482560, "global_step/max_steps": "1885/6350"}
{"lm loss": 5.06374454, "grad_norm": 0.87036884, "learning_rate": 8.47e-05, "elapsed_time_per_iteration": 4.78192258, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 13s", "remaining_time": "6h 0m 18s", "loss_scale": 1.0, "consumed_samples": 482816, "global_step/max_steps": "1886/6350"}
{"lm loss": 5.04124022, "grad_norm": 1.22561324, "learning_rate": 8.468e-05, "elapsed_time_per_iteration": 4.72662711, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 18s", "remaining_time": "6h 0m 13s", "loss_scale": 1.0, "consumed_samples": 483072, "global_step/max_steps": "1887/6350"}
{"lm loss": 5.02585649, "grad_norm": 1.23676467, "learning_rate": 8.466e-05, "elapsed_time_per_iteration": 4.7873435, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 22s", "remaining_time": "6h 0m 8s", "loss_scale": 1.0, "consumed_samples": 483328, "global_step/max_steps": "1888/6350"}
{"lm loss": 5.02265692, "grad_norm": 1.81023967, "learning_rate": 8.464e-05, "elapsed_time_per_iteration": 4.81266999, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 27s", "remaining_time": "6h 0m 3s", "loss_scale": 1.0, "consumed_samples": 483584, "global_step/max_steps": "1889/6350"}
{"lm loss": 5.02113199, "grad_norm": 1.03927124, "learning_rate": 8.463e-05, "elapsed_time_per_iteration": 4.76975846, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 32s", "remaining_time": "5h 59m 58s", "loss_scale": 1.0, "consumed_samples": 483840, "global_step/max_steps": "1890/6350"}
{"lm loss": 5.01613474, "grad_norm": 1.53236735, "learning_rate": 8.461e-05, "elapsed_time_per_iteration": 4.83904767, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 37s", "remaining_time": "5h 59m 53s", "loss_scale": 1.0, "consumed_samples": 484096, "global_step/max_steps": "1891/6350"}
{"lm loss": 5.03541756, "grad_norm": 1.43649685, "learning_rate": 8.459e-05, "elapsed_time_per_iteration": 4.85202074, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 42s", "remaining_time": "5h 59m 48s", "loss_scale": 1.0, "consumed_samples": 484352, "global_step/max_steps": "1892/6350"}
{"lm loss": 5.02297306, "grad_norm": 1.04340911, "learning_rate": 8.457e-05, "elapsed_time_per_iteration": 6.2104764, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 48s", "remaining_time": "5h 59m 46s", "loss_scale": 1.0, "consumed_samples": 484608, "global_step/max_steps": "1893/6350"}
{"lm loss": 5.02190781, "grad_norm": 1.68462873, "learning_rate": 8.455e-05, "elapsed_time_per_iteration": 4.72178817, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 53s", "remaining_time": "5h 59m 41s", "loss_scale": 1.0, "consumed_samples": 484864, "global_step/max_steps": "1894/6350"}
{"lm loss": 5.02676487, "grad_norm": 1.06212854, "learning_rate": 8.453e-05, "elapsed_time_per_iteration": 4.71184421, "memory(GiB)": 28.03, "elapsed_time": "2h 32m 57s", "remaining_time": "5h 59m 36s", "loss_scale": 1.0, "consumed_samples": 485120, "global_step/max_steps": "1895/6350"}
{"lm loss": 5.02064228, "grad_norm": 1.4338479, "learning_rate": 8.452e-05, "elapsed_time_per_iteration": 4.85498333, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 2s", "remaining_time": "5h 59m 31s", "loss_scale": 1.0, "consumed_samples": 485376, "global_step/max_steps": "1896/6350"}
{"lm loss": 5.03964233, "grad_norm": 1.09121764, "learning_rate": 8.45e-05, "elapsed_time_per_iteration": 4.74454045, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 7s", "remaining_time": "5h 59m 26s", "loss_scale": 1.0, "consumed_samples": 485632, "global_step/max_steps": "1897/6350"}
{"lm loss": 5.02881098, "grad_norm": 1.31656957, "learning_rate": 8.448e-05, "elapsed_time_per_iteration": 4.83026505, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 12s", "remaining_time": "5h 59m 21s", "loss_scale": 1.0, "consumed_samples": 485888, "global_step/max_steps": "1898/6350"}
{"lm loss": 5.00736237, "grad_norm": 1.01439238, "learning_rate": 8.446e-05, "elapsed_time_per_iteration": 4.77065253, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 17s", "remaining_time": "5h 59m 16s", "loss_scale": 1.0, "consumed_samples": 486144, "global_step/max_steps": "1899/6350"}
{"lm loss": 5.0509181, "grad_norm": 1.28135538, "learning_rate": 8.444e-05, "elapsed_time_per_iteration": 4.71806216, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 21s", "remaining_time": "5h 59m 11s", "loss_scale": 1.0, "consumed_samples": 486400, "global_step/max_steps": "1900/6350"}
{"lm loss": 5.01836014, "grad_norm": 0.96746838, "learning_rate": 8.442e-05, "elapsed_time_per_iteration": 4.77557755, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 26s", "remaining_time": "5h 59m 6s", "loss_scale": 1.0, "consumed_samples": 486656, "global_step/max_steps": "1901/6350"}
{"lm loss": 5.02943373, "grad_norm": 0.97360653, "learning_rate": 8.44e-05, "elapsed_time_per_iteration": 4.77071238, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 31s", "remaining_time": "5h 59m 1s", "loss_scale": 1.0, "consumed_samples": 486912, "global_step/max_steps": "1902/6350"}
{"lm loss": 5.04116869, "grad_norm": 1.06250656, "learning_rate": 8.439e-05, "elapsed_time_per_iteration": 4.69441867, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 36s", "remaining_time": "5h 58m 56s", "loss_scale": 1.0, "consumed_samples": 487168, "global_step/max_steps": "1903/6350"}
{"lm loss": 5.03591681, "grad_norm": 1.50085008, "learning_rate": 8.437e-05, "elapsed_time_per_iteration": 4.74266076, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 40s", "remaining_time": "5h 58m 51s", "loss_scale": 1.0, "consumed_samples": 487424, "global_step/max_steps": "1904/6350"}
{"lm loss": 5.00161076, "grad_norm": 1.20983982, "learning_rate": 8.435e-05, "elapsed_time_per_iteration": 5.64934421, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 46s", "remaining_time": "5h 58m 48s", "loss_scale": 1.0, "consumed_samples": 487680, "global_step/max_steps": "1905/6350"}
{"lm loss": 5.01671696, "grad_norm": 1.05838537, "learning_rate": 8.433e-05, "elapsed_time_per_iteration": 5.60935473, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 52s", "remaining_time": "5h 58m 45s", "loss_scale": 1.0, "consumed_samples": 487936, "global_step/max_steps": "1906/6350"}
{"lm loss": 5.0278759, "grad_norm": 1.05366087, "learning_rate": 8.431e-05, "elapsed_time_per_iteration": 4.81953669, "memory(GiB)": 28.03, "elapsed_time": "2h 33m 56s", "remaining_time": "5h 58m 40s", "loss_scale": 1.0, "consumed_samples": 488192, "global_step/max_steps": "1907/6350"}
{"lm loss": 5.03904152, "grad_norm": 1.22837722, "learning_rate": 8.429e-05, "elapsed_time_per_iteration": 4.79974842, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 1s", "remaining_time": "5h 58m 35s", "loss_scale": 1.0, "consumed_samples": 488448, "global_step/max_steps": "1908/6350"}
{"lm loss": 5.03237915, "grad_norm": 1.35961163, "learning_rate": 8.427e-05, "elapsed_time_per_iteration": 4.77958012, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 6s", "remaining_time": "5h 58m 30s", "loss_scale": 1.0, "consumed_samples": 488704, "global_step/max_steps": "1909/6350"}
{"lm loss": 5.02119207, "grad_norm": 1.0239042, "learning_rate": 8.426e-05, "elapsed_time_per_iteration": 4.78777361, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 11s", "remaining_time": "5h 58m 25s", "loss_scale": 1.0, "consumed_samples": 488960, "global_step/max_steps": "1910/6350"}
{"lm loss": 5.03749037, "grad_norm": 1.19358027, "learning_rate": 8.424e-05, "elapsed_time_per_iteration": 5.61416936, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 16s", "remaining_time": "5h 58m 22s", "loss_scale": 1.0, "consumed_samples": 489216, "global_step/max_steps": "1911/6350"}
{"lm loss": 5.05771303, "grad_norm": 0.94829589, "learning_rate": 8.422e-05, "elapsed_time_per_iteration": 4.73385715, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 21s", "remaining_time": "5h 58m 17s", "loss_scale": 1.0, "consumed_samples": 489472, "global_step/max_steps": "1912/6350"}
{"lm loss": 5.02370167, "grad_norm": 0.92067724, "learning_rate": 8.42e-05, "elapsed_time_per_iteration": 4.74895811, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 26s", "remaining_time": "5h 58m 12s", "loss_scale": 1.0, "consumed_samples": 489728, "global_step/max_steps": "1913/6350"}
{"lm loss": 5.02141428, "grad_norm": 1.01591396, "learning_rate": 8.418e-05, "elapsed_time_per_iteration": 4.73059368, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 31s", "remaining_time": "5h 58m 7s", "loss_scale": 1.0, "consumed_samples": 489984, "global_step/max_steps": "1914/6350"}
{"lm loss": 5.03408813, "grad_norm": 1.37680447, "learning_rate": 8.416e-05, "elapsed_time_per_iteration": 4.82673979, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 35s", "remaining_time": "5h 58m 2s", "loss_scale": 1.0, "consumed_samples": 490240, "global_step/max_steps": "1915/6350"}
{"lm loss": 5.03341627, "grad_norm": 1.32609367, "learning_rate": 8.414e-05, "elapsed_time_per_iteration": 4.74142599, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 40s", "remaining_time": "5h 57m 57s", "loss_scale": 1.0, "consumed_samples": 490496, "global_step/max_steps": "1916/6350"}
{"lm loss": 5.03587484, "grad_norm": 0.85834271, "learning_rate": 8.412e-05, "elapsed_time_per_iteration": 4.77381277, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 45s", "remaining_time": "5h 57m 52s", "loss_scale": 1.0, "consumed_samples": 490752, "global_step/max_steps": "1917/6350"}
{"lm loss": 5.0045619, "grad_norm": 0.9657129, "learning_rate": 8.411e-05, "elapsed_time_per_iteration": 4.85689259, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 50s", "remaining_time": "5h 57m 47s", "loss_scale": 1.0, "consumed_samples": 491008, "global_step/max_steps": "1918/6350"}
{"lm loss": 5.02639723, "grad_norm": 1.61738324, "learning_rate": 8.409e-05, "elapsed_time_per_iteration": 4.75964355, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 55s", "remaining_time": "5h 57m 42s", "loss_scale": 1.0, "consumed_samples": 491264, "global_step/max_steps": "1919/6350"}
{"lm loss": 5.02810478, "grad_norm": 0.90448755, "learning_rate": 8.407e-05, "elapsed_time_per_iteration": 4.84149671, "memory(GiB)": 28.03, "elapsed_time": "2h 34m 59s", "remaining_time": "5h 57m 37s", "loss_scale": 1.0, "consumed_samples": 491520, "global_step/max_steps": "1920/6350"}
{"lm loss": 5.04182482, "grad_norm": 1.38903642, "learning_rate": 8.405e-05, "elapsed_time_per_iteration": 5.57359004, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 5s", "remaining_time": "5h 57m 34s", "loss_scale": 1.0, "consumed_samples": 491776, "global_step/max_steps": "1921/6350"}
{"lm loss": 5.00778341, "grad_norm": 0.8878842, "learning_rate": 8.403e-05, "elapsed_time_per_iteration": 4.82097673, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 10s", "remaining_time": "5h 57m 29s", "loss_scale": 1.0, "consumed_samples": 492032, "global_step/max_steps": "1922/6350"}
{"lm loss": 5.04727411, "grad_norm": 1.23489642, "learning_rate": 8.401e-05, "elapsed_time_per_iteration": 4.78029108, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 15s", "remaining_time": "5h 57m 24s", "loss_scale": 1.0, "consumed_samples": 492288, "global_step/max_steps": "1923/6350"}
{"lm loss": 5.03426361, "grad_norm": 1.10854769, "learning_rate": 8.399e-05, "elapsed_time_per_iteration": 4.70385242, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 19s", "remaining_time": "5h 57m 19s", "loss_scale": 1.0, "consumed_samples": 492544, "global_step/max_steps": "1924/6350"}
{"lm loss": 5.0266099, "grad_norm": 1.80611944, "learning_rate": 8.397e-05, "elapsed_time_per_iteration": 4.75807619, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 24s", "remaining_time": "5h 57m 14s", "loss_scale": 1.0, "consumed_samples": 492800, "global_step/max_steps": "1925/6350"}
{"lm loss": 5.01296902, "grad_norm": 1.08144951, "learning_rate": 8.396e-05, "elapsed_time_per_iteration": 4.7868228, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 29s", "remaining_time": "5h 57m 9s", "loss_scale": 1.0, "consumed_samples": 493056, "global_step/max_steps": "1926/6350"}
{"lm loss": 5.00775862, "grad_norm": 1.29479349, "learning_rate": 8.394e-05, "elapsed_time_per_iteration": 4.71591067, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 34s", "remaining_time": "5h 57m 4s", "loss_scale": 1.0, "consumed_samples": 493312, "global_step/max_steps": "1927/6350"}
{"lm loss": 5.03151369, "grad_norm": 1.16716743, "learning_rate": 8.392e-05, "elapsed_time_per_iteration": 4.70991564, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 38s", "remaining_time": "5h 56m 58s", "loss_scale": 1.0, "consumed_samples": 493568, "global_step/max_steps": "1928/6350"}
{"lm loss": 5.03409386, "grad_norm": 1.10053074, "learning_rate": 8.39e-05, "elapsed_time_per_iteration": 4.73121142, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 43s", "remaining_time": "5h 56m 53s", "loss_scale": 1.0, "consumed_samples": 493824, "global_step/max_steps": "1929/6350"}
{"lm loss": 5.02250671, "grad_norm": 1.06125152, "learning_rate": 8.388e-05, "elapsed_time_per_iteration": 4.75809765, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 48s", "remaining_time": "5h 56m 48s", "loss_scale": 1.0, "consumed_samples": 494080, "global_step/max_steps": "1930/6350"}
{"lm loss": 5.02184868, "grad_norm": 1.07959044, "learning_rate": 8.386e-05, "elapsed_time_per_iteration": 4.71647191, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 52s", "remaining_time": "5h 56m 43s", "loss_scale": 1.0, "consumed_samples": 494336, "global_step/max_steps": "1931/6350"}
{"lm loss": 5.02815437, "grad_norm": 1.35275531, "learning_rate": 8.384e-05, "elapsed_time_per_iteration": 4.73212194, "memory(GiB)": 28.03, "elapsed_time": "2h 35m 57s", "remaining_time": "5h 56m 38s", "loss_scale": 1.0, "consumed_samples": 494592, "global_step/max_steps": "1932/6350"}
{"lm loss": 5.01443005, "grad_norm": 1.23630786, "learning_rate": 8.382e-05, "elapsed_time_per_iteration": 4.76350641, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 2s", "remaining_time": "5h 56m 33s", "loss_scale": 1.0, "consumed_samples": 494848, "global_step/max_steps": "1933/6350"}
{"lm loss": 5.03030586, "grad_norm": 0.93194795, "learning_rate": 8.381e-05, "elapsed_time_per_iteration": 4.67379832, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 7s", "remaining_time": "5h 56m 28s", "loss_scale": 1.0, "consumed_samples": 495104, "global_step/max_steps": "1934/6350"}
{"lm loss": 5.04479694, "grad_norm": 1.17481124, "learning_rate": 8.379e-05, "elapsed_time_per_iteration": 4.68898821, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 11s", "remaining_time": "5h 56m 23s", "loss_scale": 1.0, "consumed_samples": 495360, "global_step/max_steps": "1935/6350"}
{"lm loss": 5.0254221, "grad_norm": 1.40097749, "learning_rate": 8.377e-05, "elapsed_time_per_iteration": 4.75119185, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 16s", "remaining_time": "5h 56m 18s", "loss_scale": 1.0, "consumed_samples": 495616, "global_step/max_steps": "1936/6350"}
{"lm loss": 5.00967693, "grad_norm": 1.0073247, "learning_rate": 8.375e-05, "elapsed_time_per_iteration": 4.74830341, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 21s", "remaining_time": "5h 56m 13s", "loss_scale": 1.0, "consumed_samples": 495872, "global_step/max_steps": "1937/6350"}
{"lm loss": 5.01969337, "grad_norm": 1.20091224, "learning_rate": 8.373e-05, "elapsed_time_per_iteration": 4.74092865, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 26s", "remaining_time": "5h 56m 7s", "loss_scale": 1.0, "consumed_samples": 496128, "global_step/max_steps": "1938/6350"}
{"lm loss": 5.02176142, "grad_norm": 1.18297529, "learning_rate": 8.371e-05, "elapsed_time_per_iteration": 4.7436316, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 30s", "remaining_time": "5h 56m 2s", "loss_scale": 1.0, "consumed_samples": 496384, "global_step/max_steps": "1939/6350"}
{"lm loss": 5.03971004, "grad_norm": 0.85739988, "learning_rate": 8.369e-05, "elapsed_time_per_iteration": 4.79746437, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 35s", "remaining_time": "5h 55m 57s", "loss_scale": 1.0, "consumed_samples": 496640, "global_step/max_steps": "1940/6350"}
{"lm loss": 5.01474047, "grad_norm": 1.02336919, "learning_rate": 8.367e-05, "elapsed_time_per_iteration": 4.8157599, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 40s", "remaining_time": "5h 55m 53s", "loss_scale": 1.0, "consumed_samples": 496896, "global_step/max_steps": "1941/6350"}
{"lm loss": 5.00705481, "grad_norm": 1.22203529, "learning_rate": 8.365e-05, "elapsed_time_per_iteration": 4.73890138, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 45s", "remaining_time": "5h 55m 47s", "loss_scale": 1.0, "consumed_samples": 497152, "global_step/max_steps": "1942/6350"}
{"lm loss": 5.0068984, "grad_norm": 1.09673131, "learning_rate": 8.364e-05, "elapsed_time_per_iteration": 4.79265547, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 49s", "remaining_time": "5h 55m 43s", "loss_scale": 1.0, "consumed_samples": 497408, "global_step/max_steps": "1943/6350"}
{"lm loss": 5.02319098, "grad_norm": 1.42399275, "learning_rate": 8.362e-05, "elapsed_time_per_iteration": 4.74006653, "memory(GiB)": 28.03, "elapsed_time": "2h 36m 54s", "remaining_time": "5h 55m 37s", "loss_scale": 1.0, "consumed_samples": 497664, "global_step/max_steps": "1944/6350"}
{"lm loss": 5.02517605, "grad_norm": 0.86302692, "learning_rate": 8.36e-05, "elapsed_time_per_iteration": 5.52239275, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 0s", "remaining_time": "5h 55m 34s", "loss_scale": 1.0, "consumed_samples": 497920, "global_step/max_steps": "1945/6350"}
{"lm loss": 5.02266741, "grad_norm": 0.9804076, "learning_rate": 8.358e-05, "elapsed_time_per_iteration": 4.73833561, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 4s", "remaining_time": "5h 55m 29s", "loss_scale": 1.0, "consumed_samples": 498176, "global_step/max_steps": "1946/6350"}
{"lm loss": 5.0328207, "grad_norm": 0.99160397, "learning_rate": 8.356e-05, "elapsed_time_per_iteration": 4.76019788, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 9s", "remaining_time": "5h 55m 24s", "loss_scale": 1.0, "consumed_samples": 498432, "global_step/max_steps": "1947/6350"}
{"lm loss": 5.03419161, "grad_norm": 0.8880837, "learning_rate": 8.354e-05, "elapsed_time_per_iteration": 5.11949015, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 14s", "remaining_time": "5h 55m 20s", "loss_scale": 1.0, "consumed_samples": 498688, "global_step/max_steps": "1948/6350"}
{"lm loss": 5.02420521, "grad_norm": 1.23364198, "learning_rate": 8.352e-05, "elapsed_time_per_iteration": 4.74833941, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 19s", "remaining_time": "5h 55m 15s", "loss_scale": 1.0, "consumed_samples": 498944, "global_step/max_steps": "1949/6350"}
{"lm loss": 5.02662992, "grad_norm": 1.11317444, "learning_rate": 8.35e-05, "elapsed_time_per_iteration": 4.770612, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 24s", "remaining_time": "5h 55m 10s", "loss_scale": 1.0, "consumed_samples": 499200, "global_step/max_steps": "1950/6350"}
{"lm loss": 5.01793194, "grad_norm": 1.16177177, "learning_rate": 8.348e-05, "elapsed_time_per_iteration": 5.53369164, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 29s", "remaining_time": "5h 55m 6s", "loss_scale": 1.0, "consumed_samples": 499456, "global_step/max_steps": "1951/6350"}
{"lm loss": 4.99052906, "grad_norm": 1.33525276, "learning_rate": 8.347e-05, "elapsed_time_per_iteration": 5.89456892, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 35s", "remaining_time": "5h 55m 4s", "loss_scale": 1.0, "consumed_samples": 499712, "global_step/max_steps": "1952/6350"}
{"lm loss": 5.0345211, "grad_norm": 0.8197664, "learning_rate": 8.345e-05, "elapsed_time_per_iteration": 4.85410619, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 40s", "remaining_time": "5h 54m 59s", "loss_scale": 1.0, "consumed_samples": 499968, "global_step/max_steps": "1953/6350"}
{"lm loss": 5.02073526, "grad_norm": 0.98141384, "learning_rate": 8.343e-05, "elapsed_time_per_iteration": 4.81050611, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 45s", "remaining_time": "5h 54m 54s", "loss_scale": 1.0, "consumed_samples": 500224, "global_step/max_steps": "1954/6350"}
{"lm loss": 5.01931381, "grad_norm": 1.13890648, "learning_rate": 8.341e-05, "elapsed_time_per_iteration": 4.85066271, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 50s", "remaining_time": "5h 54m 49s", "loss_scale": 1.0, "consumed_samples": 500480, "global_step/max_steps": "1955/6350"}
{"lm loss": 5.0029788, "grad_norm": 1.00456548, "learning_rate": 8.339e-05, "elapsed_time_per_iteration": 5.44389677, "memory(GiB)": 28.03, "elapsed_time": "2h 37m 55s", "remaining_time": "5h 54m 46s", "loss_scale": 1.0, "consumed_samples": 500736, "global_step/max_steps": "1956/6350"}
{"lm loss": 5.04860163, "grad_norm": 1.05948842, "learning_rate": 8.337e-05, "elapsed_time_per_iteration": 4.78087687, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 0s", "remaining_time": "5h 54m 41s", "loss_scale": 1.0, "consumed_samples": 500992, "global_step/max_steps": "1957/6350"}
{"lm loss": 5.03444099, "grad_norm": 1.19310677, "learning_rate": 8.335e-05, "elapsed_time_per_iteration": 4.8104291, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 5s", "remaining_time": "5h 54m 36s", "loss_scale": 1.0, "consumed_samples": 501248, "global_step/max_steps": "1958/6350"}
{"lm loss": 5.02134418, "grad_norm": 1.33616352, "learning_rate": 8.333e-05, "elapsed_time_per_iteration": 4.79063702, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 10s", "remaining_time": "5h 54m 31s", "loss_scale": 1.0, "consumed_samples": 501504, "global_step/max_steps": "1959/6350"}
{"lm loss": 5.02778053, "grad_norm": 1.11456847, "learning_rate": 8.331e-05, "elapsed_time_per_iteration": 4.81769753, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 14s", "remaining_time": "5h 54m 26s", "loss_scale": 1.0, "consumed_samples": 501760, "global_step/max_steps": "1960/6350"}
{"lm loss": 5.00491953, "grad_norm": 1.04335737, "learning_rate": 8.329e-05, "elapsed_time_per_iteration": 4.84186983, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 19s", "remaining_time": "5h 54m 21s", "loss_scale": 1.0, "consumed_samples": 502016, "global_step/max_steps": "1961/6350"}
{"lm loss": 5.02069378, "grad_norm": 0.93608195, "learning_rate": 8.327e-05, "elapsed_time_per_iteration": 4.82600641, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 24s", "remaining_time": "5h 54m 16s", "loss_scale": 1.0, "consumed_samples": 502272, "global_step/max_steps": "1962/6350"}
{"lm loss": 5.01563215, "grad_norm": 0.91004223, "learning_rate": 8.326e-05, "elapsed_time_per_iteration": 4.7749362, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 29s", "remaining_time": "5h 54m 11s", "loss_scale": 1.0, "consumed_samples": 502528, "global_step/max_steps": "1963/6350"}
{"lm loss": 5.01208591, "grad_norm": 0.9670437, "learning_rate": 8.324e-05, "elapsed_time_per_iteration": 4.88796186, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 34s", "remaining_time": "5h 54m 7s", "loss_scale": 1.0, "consumed_samples": 502784, "global_step/max_steps": "1964/6350"}
{"lm loss": 5.03840971, "grad_norm": 1.10272431, "learning_rate": 8.322e-05, "elapsed_time_per_iteration": 5.53259659, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 39s", "remaining_time": "5h 54m 3s", "loss_scale": 1.0, "consumed_samples": 503040, "global_step/max_steps": "1965/6350"}
{"lm loss": 5.01141119, "grad_norm": 1.20612848, "learning_rate": 8.32e-05, "elapsed_time_per_iteration": 4.75531125, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 44s", "remaining_time": "5h 53m 58s", "loss_scale": 1.0, "consumed_samples": 503296, "global_step/max_steps": "1966/6350"}
{"lm loss": 5.05147743, "grad_norm": 1.03273129, "learning_rate": 8.318e-05, "elapsed_time_per_iteration": 4.83818102, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 49s", "remaining_time": "5h 53m 53s", "loss_scale": 1.0, "consumed_samples": 503552, "global_step/max_steps": "1967/6350"}
{"lm loss": 5.0211544, "grad_norm": 1.06470895, "learning_rate": 8.316e-05, "elapsed_time_per_iteration": 4.74610424, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 54s", "remaining_time": "5h 53m 48s", "loss_scale": 1.0, "consumed_samples": 503808, "global_step/max_steps": "1968/6350"}
{"lm loss": 5.01801825, "grad_norm": 1.20640111, "learning_rate": 8.314e-05, "elapsed_time_per_iteration": 4.76266909, "memory(GiB)": 28.03, "elapsed_time": "2h 38m 58s", "remaining_time": "5h 53m 43s", "loss_scale": 1.0, "consumed_samples": 504064, "global_step/max_steps": "1969/6350"}
{"lm loss": 4.97991705, "grad_norm": 1.29104364, "learning_rate": 8.312e-05, "elapsed_time_per_iteration": 4.7652483, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 3s", "remaining_time": "5h 53m 38s", "loss_scale": 1.0, "consumed_samples": 504320, "global_step/max_steps": "1970/6350"}
{"lm loss": 5.00248575, "grad_norm": 0.8947894, "learning_rate": 8.31e-05, "elapsed_time_per_iteration": 4.77015948, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 8s", "remaining_time": "5h 53m 33s", "loss_scale": 1.0, "consumed_samples": 504576, "global_step/max_steps": "1971/6350"}
{"lm loss": 4.99468803, "grad_norm": 0.99767071, "learning_rate": 8.308e-05, "elapsed_time_per_iteration": 4.74629593, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 13s", "remaining_time": "5h 53m 28s", "loss_scale": 1.0, "consumed_samples": 504832, "global_step/max_steps": "1972/6350"}
{"lm loss": 5.03828764, "grad_norm": 1.19973421, "learning_rate": 8.306e-05, "elapsed_time_per_iteration": 4.6819303, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 17s", "remaining_time": "5h 53m 23s", "loss_scale": 1.0, "consumed_samples": 505088, "global_step/max_steps": "1973/6350"}
{"lm loss": 5.0273242, "grad_norm": 1.13704062, "learning_rate": 8.305e-05, "elapsed_time_per_iteration": 4.72558379, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 22s", "remaining_time": "5h 53m 18s", "loss_scale": 1.0, "consumed_samples": 505344, "global_step/max_steps": "1974/6350"}
{"lm loss": 5.0194211, "grad_norm": 1.12960553, "learning_rate": 8.303e-05, "elapsed_time_per_iteration": 4.75496602, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 27s", "remaining_time": "5h 53m 13s", "loss_scale": 1.0, "consumed_samples": 505600, "global_step/max_steps": "1975/6350"}
{"lm loss": 5.03220367, "grad_norm": 1.05308044, "learning_rate": 8.301e-05, "elapsed_time_per_iteration": 4.69713759, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 32s", "remaining_time": "5h 53m 8s", "loss_scale": 1.0, "consumed_samples": 505856, "global_step/max_steps": "1976/6350"}
{"lm loss": 5.00904322, "grad_norm": 1.08000183, "learning_rate": 8.299e-05, "elapsed_time_per_iteration": 5.54777837, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 37s", "remaining_time": "5h 53m 4s", "loss_scale": 1.0, "consumed_samples": 506112, "global_step/max_steps": "1977/6350"}
{"lm loss": 5.01579332, "grad_norm": 1.16021848, "learning_rate": 8.297e-05, "elapsed_time_per_iteration": 4.71865177, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 42s", "remaining_time": "5h 52m 59s", "loss_scale": 1.0, "consumed_samples": 506368, "global_step/max_steps": "1978/6350"}
{"lm loss": 5.01332617, "grad_norm": 1.22934055, "learning_rate": 8.295e-05, "elapsed_time_per_iteration": 4.74175024, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 47s", "remaining_time": "5h 52m 54s", "loss_scale": 1.0, "consumed_samples": 506624, "global_step/max_steps": "1979/6350"}
{"lm loss": 5.00066042, "grad_norm": 1.1130743, "learning_rate": 8.293e-05, "elapsed_time_per_iteration": 4.72140813, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 51s", "remaining_time": "5h 52m 49s", "loss_scale": 1.0, "consumed_samples": 506880, "global_step/max_steps": "1980/6350"}
{"lm loss": 5.00867748, "grad_norm": 0.92798412, "learning_rate": 8.291e-05, "elapsed_time_per_iteration": 4.85028458, "memory(GiB)": 28.03, "elapsed_time": "2h 39m 56s", "remaining_time": "5h 52m 44s", "loss_scale": 1.0, "consumed_samples": 507136, "global_step/max_steps": "1981/6350"}
{"lm loss": 5.00977182, "grad_norm": 1.11601973, "learning_rate": 8.289e-05, "elapsed_time_per_iteration": 4.69251752, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 1s", "remaining_time": "5h 52m 39s", "loss_scale": 1.0, "consumed_samples": 507392, "global_step/max_steps": "1982/6350"}
{"lm loss": 4.99533939, "grad_norm": 0.79793864, "learning_rate": 8.287e-05, "elapsed_time_per_iteration": 4.75660372, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 6s", "remaining_time": "5h 52m 34s", "loss_scale": 1.0, "consumed_samples": 507648, "global_step/max_steps": "1983/6350"}
{"lm loss": 5.01147413, "grad_norm": 0.71893716, "learning_rate": 8.285e-05, "elapsed_time_per_iteration": 4.84581995, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 10s", "remaining_time": "5h 52m 29s", "loss_scale": 1.0, "consumed_samples": 507904, "global_step/max_steps": "1984/6350"}
{"lm loss": 5.01366138, "grad_norm": 0.92705089, "learning_rate": 8.283e-05, "elapsed_time_per_iteration": 4.79659724, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 15s", "remaining_time": "5h 52m 24s", "loss_scale": 1.0, "consumed_samples": 508160, "global_step/max_steps": "1985/6350"}
{"lm loss": 5.04774523, "grad_norm": 1.14285088, "learning_rate": 8.281e-05, "elapsed_time_per_iteration": 4.76649833, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 20s", "remaining_time": "5h 52m 19s", "loss_scale": 1.0, "consumed_samples": 508416, "global_step/max_steps": "1986/6350"}
{"lm loss": 5.02435541, "grad_norm": 1.0429095, "learning_rate": 8.279e-05, "elapsed_time_per_iteration": 4.75186992, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 25s", "remaining_time": "5h 52m 14s", "loss_scale": 1.0, "consumed_samples": 508672, "global_step/max_steps": "1987/6350"}
{"lm loss": 5.03205824, "grad_norm": 1.01391912, "learning_rate": 8.278e-05, "elapsed_time_per_iteration": 4.75550127, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 29s", "remaining_time": "5h 52m 9s", "loss_scale": 1.0, "consumed_samples": 508928, "global_step/max_steps": "1988/6350"}
{"lm loss": 5.01351833, "grad_norm": 1.0963136, "learning_rate": 8.276e-05, "elapsed_time_per_iteration": 4.78460979, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 34s", "remaining_time": "5h 52m 4s", "loss_scale": 1.0, "consumed_samples": 509184, "global_step/max_steps": "1989/6350"}
{"lm loss": 5.04857159, "grad_norm": 1.20322931, "learning_rate": 8.274e-05, "elapsed_time_per_iteration": 4.81561708, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 39s", "remaining_time": "5h 51m 59s", "loss_scale": 1.0, "consumed_samples": 509440, "global_step/max_steps": "1990/6350"}
{"lm loss": 4.99982786, "grad_norm": 1.19296348, "learning_rate": 8.272e-05, "elapsed_time_per_iteration": 5.56679821, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 45s", "remaining_time": "5h 51m 56s", "loss_scale": 1.0, "consumed_samples": 509696, "global_step/max_steps": "1991/6350"}
{"lm loss": 5.00873899, "grad_norm": 1.03952169, "learning_rate": 8.27e-05, "elapsed_time_per_iteration": 4.76045346, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 49s", "remaining_time": "5h 51m 51s", "loss_scale": 1.0, "consumed_samples": 509952, "global_step/max_steps": "1992/6350"}
{"lm loss": 5.01671553, "grad_norm": 1.00518358, "learning_rate": 8.268e-05, "elapsed_time_per_iteration": 4.80846119, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 54s", "remaining_time": "5h 51m 46s", "loss_scale": 1.0, "consumed_samples": 510208, "global_step/max_steps": "1993/6350"}
{"lm loss": 5.04284859, "grad_norm": 1.39480591, "learning_rate": 8.266e-05, "elapsed_time_per_iteration": 5.0496757, "memory(GiB)": 28.03, "elapsed_time": "2h 40m 59s", "remaining_time": "5h 51m 42s", "loss_scale": 1.0, "consumed_samples": 510464, "global_step/max_steps": "1994/6350"}
{"lm loss": 5.03838825, "grad_norm": 1.01823318, "learning_rate": 8.264e-05, "elapsed_time_per_iteration": 5.56739807, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 5s", "remaining_time": "5h 51m 38s", "loss_scale": 1.0, "consumed_samples": 510720, "global_step/max_steps": "1995/6350"}
{"lm loss": 4.98227835, "grad_norm": 1.20517838, "learning_rate": 8.262e-05, "elapsed_time_per_iteration": 4.75010943, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 10s", "remaining_time": "5h 51m 33s", "loss_scale": 1.0, "consumed_samples": 510976, "global_step/max_steps": "1996/6350"}
{"lm loss": 5.03143024, "grad_norm": 0.92415774, "learning_rate": 8.26e-05, "elapsed_time_per_iteration": 4.78018832, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 14s", "remaining_time": "5h 51m 28s", "loss_scale": 1.0, "consumed_samples": 511232, "global_step/max_steps": "1997/6350"}
{"lm loss": 5.00939274, "grad_norm": 1.14093435, "learning_rate": 8.258e-05, "elapsed_time_per_iteration": 4.83063149, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 19s", "remaining_time": "5h 51m 24s", "loss_scale": 1.0, "consumed_samples": 511488, "global_step/max_steps": "1998/6350"}
{"lm loss": 5.03285456, "grad_norm": 1.33855283, "learning_rate": 8.256e-05, "elapsed_time_per_iteration": 4.78966713, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 24s", "remaining_time": "5h 51m 19s", "loss_scale": 1.0, "consumed_samples": 511744, "global_step/max_steps": "1999/6350"}
{"lm loss": 5.00799561, "grad_norm": 0.90939409, "learning_rate": 8.254e-05, "elapsed_time_per_iteration": 4.85881162, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 29s", "remaining_time": "5h 51m 14s", "loss_scale": 1.0, "consumed_samples": 512000, "global_step/max_steps": "2000/6350"}
{"lm loss": 5.01428652, "grad_norm": 0.93544209, "learning_rate": 8.252e-05, "elapsed_time_per_iteration": 4.80500007, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 34s", "remaining_time": "5h 51m 9s", "loss_scale": 1.0, "consumed_samples": 512256, "global_step/max_steps": "2001/6350"}
{"lm loss": 5.04550028, "grad_norm": 1.01749468, "learning_rate": 8.25e-05, "elapsed_time_per_iteration": 4.79492688, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 38s", "remaining_time": "5h 51m 4s", "loss_scale": 1.0, "consumed_samples": 512512, "global_step/max_steps": "2002/6350"}
{"lm loss": 5.01357841, "grad_norm": 1.47235799, "learning_rate": 8.249e-05, "elapsed_time_per_iteration": 4.75726056, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 43s", "remaining_time": "5h 50m 59s", "loss_scale": 1.0, "consumed_samples": 512768, "global_step/max_steps": "2003/6350"}
{"lm loss": 5.02444172, "grad_norm": 1.15651882, "learning_rate": 8.247e-05, "elapsed_time_per_iteration": 4.74810219, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 48s", "remaining_time": "5h 50m 54s", "loss_scale": 1.0, "consumed_samples": 513024, "global_step/max_steps": "2004/6350"}
{"lm loss": 5.00500393, "grad_norm": 1.14923859, "learning_rate": 8.245e-05, "elapsed_time_per_iteration": 5.78371692, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 54s", "remaining_time": "5h 50m 51s", "loss_scale": 1.0, "consumed_samples": 513280, "global_step/max_steps": "2005/6350"}
{"lm loss": 4.99620295, "grad_norm": 1.01584542, "learning_rate": 8.243e-05, "elapsed_time_per_iteration": 4.7036736, "memory(GiB)": 28.03, "elapsed_time": "2h 41m 58s", "remaining_time": "5h 50m 46s", "loss_scale": 1.0, "consumed_samples": 513536, "global_step/max_steps": "2006/6350"}
{"lm loss": 5.0130825, "grad_norm": 1.62061226, "learning_rate": 8.241e-05, "elapsed_time_per_iteration": 4.74157977, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 3s", "remaining_time": "5h 50m 41s", "loss_scale": 1.0, "consumed_samples": 513792, "global_step/max_steps": "2007/6350"}
{"lm loss": 5.00551987, "grad_norm": 1.1163466, "learning_rate": 8.239e-05, "elapsed_time_per_iteration": 4.71161318, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 8s", "remaining_time": "5h 50m 36s", "loss_scale": 1.0, "consumed_samples": 514048, "global_step/max_steps": "2008/6350"}
{"lm loss": 5.01394463, "grad_norm": 1.19965291, "learning_rate": 8.237e-05, "elapsed_time_per_iteration": 4.80269861, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 13s", "remaining_time": "5h 50m 31s", "loss_scale": 1.0, "consumed_samples": 514304, "global_step/max_steps": "2009/6350"}
{"lm loss": 5.00485802, "grad_norm": 1.33097458, "learning_rate": 8.235e-05, "elapsed_time_per_iteration": 4.74318051, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 17s", "remaining_time": "5h 50m 26s", "loss_scale": 1.0, "consumed_samples": 514560, "global_step/max_steps": "2010/6350"}
{"lm loss": 4.99756289, "grad_norm": 1.5345366, "learning_rate": 8.233e-05, "elapsed_time_per_iteration": 4.75503922, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 22s", "remaining_time": "5h 50m 21s", "loss_scale": 1.0, "consumed_samples": 514816, "global_step/max_steps": "2011/6350"}
{"lm loss": 5.00720835, "grad_norm": 0.70884734, "learning_rate": 8.231e-05, "elapsed_time_per_iteration": 4.77829933, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 27s", "remaining_time": "5h 50m 16s", "loss_scale": 1.0, "consumed_samples": 515072, "global_step/max_steps": "2012/6350"}
{"lm loss": 4.99746799, "grad_norm": 1.44845998, "learning_rate": 8.229e-05, "elapsed_time_per_iteration": 4.72180843, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 32s", "remaining_time": "5h 50m 10s", "loss_scale": 1.0, "consumed_samples": 515328, "global_step/max_steps": "2013/6350"}
{"lm loss": 4.99076653, "grad_norm": 1.31170607, "learning_rate": 8.227e-05, "elapsed_time_per_iteration": 4.74494672, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 36s", "remaining_time": "5h 50m 5s", "loss_scale": 1.0, "consumed_samples": 515584, "global_step/max_steps": "2014/6350"}
{"lm loss": 5.01336336, "grad_norm": 0.70280617, "learning_rate": 8.225e-05, "elapsed_time_per_iteration": 4.70818973, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 41s", "remaining_time": "5h 50m 0s", "loss_scale": 1.0, "consumed_samples": 515840, "global_step/max_steps": "2015/6350"}
{"lm loss": 5.0003891, "grad_norm": 1.08997607, "learning_rate": 8.223e-05, "elapsed_time_per_iteration": 4.72386575, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 46s", "remaining_time": "5h 49m 55s", "loss_scale": 1.0, "consumed_samples": 516096, "global_step/max_steps": "2016/6350"}
{"lm loss": 5.02454948, "grad_norm": 1.04275477, "learning_rate": 8.221e-05, "elapsed_time_per_iteration": 4.67703915, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 51s", "remaining_time": "5h 49m 50s", "loss_scale": 1.0, "consumed_samples": 516352, "global_step/max_steps": "2017/6350"}
{"lm loss": 5.02979517, "grad_norm": 1.09854591, "learning_rate": 8.219e-05, "elapsed_time_per_iteration": 4.77409434, "memory(GiB)": 28.03, "elapsed_time": "2h 42m 55s", "remaining_time": "5h 49m 45s", "loss_scale": 1.0, "consumed_samples": 516608, "global_step/max_steps": "2018/6350"}
{"lm loss": 4.98726273, "grad_norm": 1.14914858, "learning_rate": 8.217e-05, "elapsed_time_per_iteration": 4.75564575, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 0s", "remaining_time": "5h 49m 40s", "loss_scale": 1.0, "consumed_samples": 516864, "global_step/max_steps": "2019/6350"}
{"lm loss": 5.02568102, "grad_norm": 0.93108243, "learning_rate": 8.215e-05, "elapsed_time_per_iteration": 4.83612776, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 5s", "remaining_time": "5h 49m 35s", "loss_scale": 1.0, "consumed_samples": 517120, "global_step/max_steps": "2020/6350"}
{"lm loss": 5.01161194, "grad_norm": 1.0183574, "learning_rate": 8.213e-05, "elapsed_time_per_iteration": 4.74562955, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 10s", "remaining_time": "5h 49m 30s", "loss_scale": 1.0, "consumed_samples": 517376, "global_step/max_steps": "2021/6350"}
{"lm loss": 5.01735735, "grad_norm": 1.15940297, "learning_rate": 8.211e-05, "elapsed_time_per_iteration": 4.82478905, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 14s", "remaining_time": "5h 49m 25s", "loss_scale": 1.0, "consumed_samples": 517632, "global_step/max_steps": "2022/6350"}
{"lm loss": 5.01191187, "grad_norm": 0.80564022, "learning_rate": 8.209e-05, "elapsed_time_per_iteration": 4.70778537, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 19s", "remaining_time": "5h 49m 20s", "loss_scale": 1.0, "consumed_samples": 517888, "global_step/max_steps": "2023/6350"}
{"lm loss": 4.99753952, "grad_norm": 0.85801899, "learning_rate": 8.208e-05, "elapsed_time_per_iteration": 4.78112936, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 24s", "remaining_time": "5h 49m 15s", "loss_scale": 1.0, "consumed_samples": 518144, "global_step/max_steps": "2024/6350"}
{"lm loss": 5.01193571, "grad_norm": 1.21745384, "learning_rate": 8.206e-05, "elapsed_time_per_iteration": 5.70723653, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 30s", "remaining_time": "5h 49m 12s", "loss_scale": 1.0, "consumed_samples": 518400, "global_step/max_steps": "2025/6350"}
{"lm loss": 4.99710274, "grad_norm": 1.27805293, "learning_rate": 8.204e-05, "elapsed_time_per_iteration": 4.90889668, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 35s", "remaining_time": "5h 49m 7s", "loss_scale": 1.0, "consumed_samples": 518656, "global_step/max_steps": "2026/6350"}
{"lm loss": 5.0184021, "grad_norm": 0.8503136, "learning_rate": 8.202e-05, "elapsed_time_per_iteration": 4.78946972, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 39s", "remaining_time": "5h 49m 2s", "loss_scale": 1.0, "consumed_samples": 518912, "global_step/max_steps": "2027/6350"}
{"lm loss": 5.02211332, "grad_norm": 1.02891672, "learning_rate": 8.2e-05, "elapsed_time_per_iteration": 4.81645751, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 44s", "remaining_time": "5h 48m 57s", "loss_scale": 1.0, "consumed_samples": 519168, "global_step/max_steps": "2028/6350"}
{"lm loss": 5.00242281, "grad_norm": 1.25942266, "learning_rate": 8.198e-05, "elapsed_time_per_iteration": 4.79313898, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 49s", "remaining_time": "5h 48m 53s", "loss_scale": 1.0, "consumed_samples": 519424, "global_step/max_steps": "2029/6350"}
{"lm loss": 4.99908686, "grad_norm": 1.1205101, "learning_rate": 8.196e-05, "elapsed_time_per_iteration": 4.80083942, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 54s", "remaining_time": "5h 48m 48s", "loss_scale": 1.0, "consumed_samples": 519680, "global_step/max_steps": "2030/6350"}
{"lm loss": 5.00398636, "grad_norm": 1.1525414, "learning_rate": 8.194e-05, "elapsed_time_per_iteration": 4.87137508, "memory(GiB)": 28.03, "elapsed_time": "2h 43m 59s", "remaining_time": "5h 48m 43s", "loss_scale": 1.0, "consumed_samples": 519936, "global_step/max_steps": "2031/6350"}
{"lm loss": 5.01976728, "grad_norm": 1.20005095, "learning_rate": 8.192e-05, "elapsed_time_per_iteration": 4.78436637, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 3s", "remaining_time": "5h 48m 38s", "loss_scale": 1.0, "consumed_samples": 520192, "global_step/max_steps": "2032/6350"}
{"lm loss": 5.02750063, "grad_norm": 1.14763427, "learning_rate": 8.19e-05, "elapsed_time_per_iteration": 5.68462849, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 9s", "remaining_time": "5h 48m 35s", "loss_scale": 1.0, "consumed_samples": 520448, "global_step/max_steps": "2033/6350"}
{"lm loss": 4.99049282, "grad_norm": 0.91512781, "learning_rate": 8.188e-05, "elapsed_time_per_iteration": 4.86663604, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 14s", "remaining_time": "5h 48m 30s", "loss_scale": 1.0, "consumed_samples": 520704, "global_step/max_steps": "2034/6350"}
{"lm loss": 5.02956676, "grad_norm": 0.88630968, "learning_rate": 8.186e-05, "elapsed_time_per_iteration": 5.35405636, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 19s", "remaining_time": "5h 48m 26s", "loss_scale": 1.0, "consumed_samples": 520960, "global_step/max_steps": "2035/6350"}
{"lm loss": 5.01917076, "grad_norm": 1.21760881, "learning_rate": 8.184e-05, "elapsed_time_per_iteration": 4.8053329, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 24s", "remaining_time": "5h 48m 21s", "loss_scale": 1.0, "consumed_samples": 521216, "global_step/max_steps": "2036/6350"}
{"lm loss": 5.03258514, "grad_norm": 0.80390275, "learning_rate": 8.182e-05, "elapsed_time_per_iteration": 4.79267883, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 29s", "remaining_time": "5h 48m 16s", "loss_scale": 1.0, "consumed_samples": 521472, "global_step/max_steps": "2037/6350"}
{"lm loss": 5.00452518, "grad_norm": 0.89305061, "learning_rate": 8.18e-05, "elapsed_time_per_iteration": 5.39558744, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 34s", "remaining_time": "5h 48m 13s", "loss_scale": 1.0, "consumed_samples": 521728, "global_step/max_steps": "2038/6350"}
{"lm loss": 5.00711393, "grad_norm": 1.26102793, "learning_rate": 8.178e-05, "elapsed_time_per_iteration": 4.78878689, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 39s", "remaining_time": "5h 48m 8s", "loss_scale": 1.0, "consumed_samples": 521984, "global_step/max_steps": "2039/6350"}
{"lm loss": 5.00754213, "grad_norm": 1.21424568, "learning_rate": 8.176e-05, "elapsed_time_per_iteration": 4.93977022, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 44s", "remaining_time": "5h 48m 3s", "loss_scale": 1.0, "consumed_samples": 522240, "global_step/max_steps": "2040/6350"}
{"lm loss": 5.01948261, "grad_norm": 1.11349356, "learning_rate": 8.174e-05, "elapsed_time_per_iteration": 5.71043825, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 50s", "remaining_time": "5h 48m 0s", "loss_scale": 1.0, "consumed_samples": 522496, "global_step/max_steps": "2041/6350"}
{"lm loss": 5.02576256, "grad_norm": 0.90705407, "learning_rate": 8.172e-05, "elapsed_time_per_iteration": 4.7815063, "memory(GiB)": 28.03, "elapsed_time": "2h 44m 55s", "remaining_time": "5h 47m 55s", "loss_scale": 1.0, "consumed_samples": 522752, "global_step/max_steps": "2042/6350"}
{"lm loss": 5.01937962, "grad_norm": 0.84701675, "learning_rate": 8.17e-05, "elapsed_time_per_iteration": 5.66804552, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 0s", "remaining_time": "5h 47m 52s", "loss_scale": 1.0, "consumed_samples": 523008, "global_step/max_steps": "2043/6350"}
{"lm loss": 4.9843564, "grad_norm": 0.96611524, "learning_rate": 8.168e-05, "elapsed_time_per_iteration": 4.84077716, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 5s", "remaining_time": "5h 47m 47s", "loss_scale": 1.0, "consumed_samples": 523264, "global_step/max_steps": "2044/6350"}
{"lm loss": 5.01694965, "grad_norm": 1.35104513, "learning_rate": 8.166e-05, "elapsed_time_per_iteration": 4.78695631, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 10s", "remaining_time": "5h 47m 42s", "loss_scale": 1.0, "consumed_samples": 523520, "global_step/max_steps": "2045/6350"}
{"lm loss": 5.04612923, "grad_norm": 0.91378444, "learning_rate": 8.164e-05, "elapsed_time_per_iteration": 4.81687307, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 15s", "remaining_time": "5h 47m 37s", "loss_scale": 1.0, "consumed_samples": 523776, "global_step/max_steps": "2046/6350"}
{"lm loss": 4.99844122, "grad_norm": 0.9771136, "learning_rate": 8.162e-05, "elapsed_time_per_iteration": 4.74475956, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 19s", "remaining_time": "5h 47m 32s", "loss_scale": 1.0, "consumed_samples": 524032, "global_step/max_steps": "2047/6350"}
{"lm loss": 5.01556158, "grad_norm": 1.05589616, "learning_rate": 8.16e-05, "elapsed_time_per_iteration": 5.21909976, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 25s", "remaining_time": "5h 47m 28s", "loss_scale": 1.0, "consumed_samples": 524288, "global_step/max_steps": "2048/6350"}
{"lm loss": 5.00229454, "grad_norm": 1.27038991, "learning_rate": 8.158e-05, "elapsed_time_per_iteration": 4.83461308, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 29s", "remaining_time": "5h 47m 23s", "loss_scale": 1.0, "consumed_samples": 524544, "global_step/max_steps": "2049/6350"}
{"lm loss": 5.0241456, "grad_norm": 1.1965605, "learning_rate": 8.156e-05, "elapsed_time_per_iteration": 4.75632501, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 34s", "remaining_time": "5h 47m 18s", "loss_scale": 1.0, "consumed_samples": 524800, "global_step/max_steps": "2050/6350"}
{"lm loss": 5.023417, "grad_norm": 0.93378562, "learning_rate": 8.154e-05, "elapsed_time_per_iteration": 5.73735833, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 40s", "remaining_time": "5h 47m 15s", "loss_scale": 1.0, "consumed_samples": 525056, "global_step/max_steps": "2051/6350"}
{"lm loss": 5.00167513, "grad_norm": 1.00708342, "learning_rate": 8.152e-05, "elapsed_time_per_iteration": 4.7597146, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 45s", "remaining_time": "5h 47m 10s", "loss_scale": 1.0, "consumed_samples": 525312, "global_step/max_steps": "2052/6350"}
{"lm loss": 4.99809361, "grad_norm": 0.93550724, "learning_rate": 8.15e-05, "elapsed_time_per_iteration": 4.71673274, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 49s", "remaining_time": "5h 47m 5s", "loss_scale": 1.0, "consumed_samples": 525568, "global_step/max_steps": "2053/6350"}
{"lm loss": 5.02836084, "grad_norm": 0.89995515, "learning_rate": 8.148e-05, "elapsed_time_per_iteration": 4.71520805, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 54s", "remaining_time": "5h 47m 0s", "loss_scale": 1.0, "consumed_samples": 525824, "global_step/max_steps": "2054/6350"}
{"lm loss": 5.03004694, "grad_norm": 1.02753663, "learning_rate": 8.146e-05, "elapsed_time_per_iteration": 4.72503734, "memory(GiB)": 28.03, "elapsed_time": "2h 45m 59s", "remaining_time": "5h 46m 55s", "loss_scale": 1.0, "consumed_samples": 526080, "global_step/max_steps": "2055/6350"}
{"lm loss": 4.99669123, "grad_norm": 1.33370686, "learning_rate": 8.144e-05, "elapsed_time_per_iteration": 4.70129609, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 4s", "remaining_time": "5h 46m 50s", "loss_scale": 1.0, "consumed_samples": 526336, "global_step/max_steps": "2056/6350"}
{"lm loss": 5.00772095, "grad_norm": 1.05787253, "learning_rate": 8.142e-05, "elapsed_time_per_iteration": 4.73191905, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 8s", "remaining_time": "5h 46m 45s", "loss_scale": 1.0, "consumed_samples": 526592, "global_step/max_steps": "2057/6350"}
{"lm loss": 5.01092863, "grad_norm": 0.90194958, "learning_rate": 8.14e-05, "elapsed_time_per_iteration": 4.7845974, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 13s", "remaining_time": "5h 46m 40s", "loss_scale": 1.0, "consumed_samples": 526848, "global_step/max_steps": "2058/6350"}
{"lm loss": 5.00059223, "grad_norm": 0.90325397, "learning_rate": 8.138e-05, "elapsed_time_per_iteration": 4.76999617, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 18s", "remaining_time": "5h 46m 35s", "loss_scale": 1.0, "consumed_samples": 527104, "global_step/max_steps": "2059/6350"}
{"lm loss": 5.00179815, "grad_norm": 1.240466, "learning_rate": 8.136e-05, "elapsed_time_per_iteration": 4.67882419, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 23s", "remaining_time": "5h 46m 29s", "loss_scale": 1.0, "consumed_samples": 527360, "global_step/max_steps": "2060/6350"}
{"lm loss": 5.00402212, "grad_norm": 1.21360278, "learning_rate": 8.134e-05, "elapsed_time_per_iteration": 4.69733834, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 27s", "remaining_time": "5h 46m 24s", "loss_scale": 1.0, "consumed_samples": 527616, "global_step/max_steps": "2061/6350"}
{"lm loss": 5.01112652, "grad_norm": 1.21588993, "learning_rate": 8.132e-05, "elapsed_time_per_iteration": 4.75176787, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 32s", "remaining_time": "5h 46m 19s", "loss_scale": 1.0, "consumed_samples": 527872, "global_step/max_steps": "2062/6350"}
{"lm loss": 4.99237204, "grad_norm": 0.83321112, "learning_rate": 8.13e-05, "elapsed_time_per_iteration": 4.78901577, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 37s", "remaining_time": "5h 46m 14s", "loss_scale": 1.0, "consumed_samples": 528128, "global_step/max_steps": "2063/6350"}
{"lm loss": 4.98859262, "grad_norm": 0.99834561, "learning_rate": 8.128e-05, "elapsed_time_per_iteration": 4.72059202, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 41s", "remaining_time": "5h 46m 9s", "loss_scale": 1.0, "consumed_samples": 528384, "global_step/max_steps": "2064/6350"}
{"lm loss": 5.04006052, "grad_norm": 1.31183231, "learning_rate": 8.126e-05, "elapsed_time_per_iteration": 4.66920543, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 46s", "remaining_time": "5h 46m 4s", "loss_scale": 1.0, "consumed_samples": 528640, "global_step/max_steps": "2065/6350"}
{"lm loss": 5.02201748, "grad_norm": 1.14360416, "learning_rate": 8.124e-05, "elapsed_time_per_iteration": 4.77916193, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 51s", "remaining_time": "5h 45m 59s", "loss_scale": 1.0, "consumed_samples": 528896, "global_step/max_steps": "2066/6350"}
{"lm loss": 5.0077672, "grad_norm": 1.18905151, "learning_rate": 8.122e-05, "elapsed_time_per_iteration": 4.78163743, "memory(GiB)": 28.03, "elapsed_time": "2h 46m 56s", "remaining_time": "5h 45m 54s", "loss_scale": 1.0, "consumed_samples": 529152, "global_step/max_steps": "2067/6350"}
{"lm loss": 4.99559212, "grad_norm": 0.966479, "learning_rate": 8.12e-05, "elapsed_time_per_iteration": 4.75433683, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 0s", "remaining_time": "5h 45m 49s", "loss_scale": 1.0, "consumed_samples": 529408, "global_step/max_steps": "2068/6350"}
{"lm loss": 5.01818466, "grad_norm": 1.27162862, "learning_rate": 8.118e-05, "elapsed_time_per_iteration": 4.7375319, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 5s", "remaining_time": "5h 45m 44s", "loss_scale": 1.0, "consumed_samples": 529664, "global_step/max_steps": "2069/6350"}
{"lm loss": 5.00854206, "grad_norm": 1.08276057, "learning_rate": 8.116e-05, "elapsed_time_per_iteration": 4.72488761, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 10s", "remaining_time": "5h 45m 39s", "loss_scale": 1.0, "consumed_samples": 529920, "global_step/max_steps": "2070/6350"}
{"lm loss": 5.01167297, "grad_norm": 0.89734113, "learning_rate": 8.114e-05, "elapsed_time_per_iteration": 4.73327231, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 15s", "remaining_time": "5h 45m 34s", "loss_scale": 1.0, "consumed_samples": 530176, "global_step/max_steps": "2071/6350"}
{"lm loss": 5.01024294, "grad_norm": 1.09750426, "learning_rate": 8.112e-05, "elapsed_time_per_iteration": 4.71415019, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 19s", "remaining_time": "5h 45m 29s", "loss_scale": 1.0, "consumed_samples": 530432, "global_step/max_steps": "2072/6350"}
{"lm loss": 5.00382948, "grad_norm": 1.22137022, "learning_rate": 8.11e-05, "elapsed_time_per_iteration": 4.73086977, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 24s", "remaining_time": "5h 45m 23s", "loss_scale": 1.0, "consumed_samples": 530688, "global_step/max_steps": "2073/6350"}
{"lm loss": 5.01245499, "grad_norm": 0.96928382, "learning_rate": 8.108e-05, "elapsed_time_per_iteration": 4.79437518, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 29s", "remaining_time": "5h 45m 19s", "loss_scale": 1.0, "consumed_samples": 530944, "global_step/max_steps": "2074/6350"}
{"lm loss": 4.99240828, "grad_norm": 1.17288172, "learning_rate": 8.106e-05, "elapsed_time_per_iteration": 5.58376002, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 34s", "remaining_time": "5h 45m 15s", "loss_scale": 1.0, "consumed_samples": 531200, "global_step/max_steps": "2075/6350"}
{"lm loss": 5.02122593, "grad_norm": 1.29724205, "learning_rate": 8.104e-05, "elapsed_time_per_iteration": 4.7158668, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 39s", "remaining_time": "5h 45m 10s", "loss_scale": 1.0, "consumed_samples": 531456, "global_step/max_steps": "2076/6350"}
{"lm loss": 5.02381849, "grad_norm": 0.8770017, "learning_rate": 8.102e-05, "elapsed_time_per_iteration": 4.82329822, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 44s", "remaining_time": "5h 45m 5s", "loss_scale": 1.0, "consumed_samples": 531712, "global_step/max_steps": "2077/6350"}
{"lm loss": 4.99550676, "grad_norm": 0.82360637, "learning_rate": 8.1e-05, "elapsed_time_per_iteration": 4.75037909, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 49s", "remaining_time": "5h 45m 0s", "loss_scale": 1.0, "consumed_samples": 531968, "global_step/max_steps": "2078/6350"}
{"lm loss": 5.01339531, "grad_norm": 0.7513563, "learning_rate": 8.098e-05, "elapsed_time_per_iteration": 4.75809264, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 54s", "remaining_time": "5h 44m 55s", "loss_scale": 1.0, "consumed_samples": 532224, "global_step/max_steps": "2079/6350"}
{"lm loss": 5.01703072, "grad_norm": 0.89456403, "learning_rate": 8.096e-05, "elapsed_time_per_iteration": 4.71354032, "memory(GiB)": 28.03, "elapsed_time": "2h 47m 58s", "remaining_time": "5h 44m 50s", "loss_scale": 1.0, "consumed_samples": 532480, "global_step/max_steps": "2080/6350"}
{"lm loss": 5.01726532, "grad_norm": 1.32469726, "learning_rate": 8.094e-05, "elapsed_time_per_iteration": 4.70768309, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 3s", "remaining_time": "5h 44m 45s", "loss_scale": 1.0, "consumed_samples": 532736, "global_step/max_steps": "2081/6350"}
{"lm loss": 5.02091074, "grad_norm": 0.93658262, "learning_rate": 8.092e-05, "elapsed_time_per_iteration": 4.72046089, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 8s", "remaining_time": "5h 44m 40s", "loss_scale": 1.0, "consumed_samples": 532992, "global_step/max_steps": "2082/6350"}
{"lm loss": 5.02759695, "grad_norm": 1.28499496, "learning_rate": 8.09e-05, "elapsed_time_per_iteration": 4.75230408, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 12s", "remaining_time": "5h 44m 35s", "loss_scale": 1.0, "consumed_samples": 533248, "global_step/max_steps": "2083/6350"}
{"lm loss": 5.01656342, "grad_norm": 0.81394029, "learning_rate": 8.088e-05, "elapsed_time_per_iteration": 4.73075819, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 17s", "remaining_time": "5h 44m 30s", "loss_scale": 1.0, "consumed_samples": 533504, "global_step/max_steps": "2084/6350"}
{"lm loss": 5.002738, "grad_norm": 0.92946303, "learning_rate": 8.086e-05, "elapsed_time_per_iteration": 4.81945539, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 22s", "remaining_time": "5h 44m 25s", "loss_scale": 1.0, "consumed_samples": 533760, "global_step/max_steps": "2085/6350"}
{"lm loss": 4.9983263, "grad_norm": 0.85856551, "learning_rate": 8.084e-05, "elapsed_time_per_iteration": 4.69150424, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 27s", "remaining_time": "5h 44m 20s", "loss_scale": 1.0, "consumed_samples": 534016, "global_step/max_steps": "2086/6350"}
{"lm loss": 4.99746275, "grad_norm": 1.03590775, "learning_rate": 8.082e-05, "elapsed_time_per_iteration": 4.7588129, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 31s", "remaining_time": "5h 44m 15s", "loss_scale": 1.0, "consumed_samples": 534272, "global_step/max_steps": "2087/6350"}
{"lm loss": 5.01465654, "grad_norm": 0.91306823, "learning_rate": 8.08e-05, "elapsed_time_per_iteration": 4.87891364, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 36s", "remaining_time": "5h 44m 10s", "loss_scale": 1.0, "consumed_samples": 534528, "global_step/max_steps": "2088/6350"}
{"lm loss": 5.01986408, "grad_norm": 0.90360361, "learning_rate": 8.078e-05, "elapsed_time_per_iteration": 4.81373501, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 41s", "remaining_time": "5h 44m 5s", "loss_scale": 1.0, "consumed_samples": 534784, "global_step/max_steps": "2089/6350"}
{"lm loss": 5.02520227, "grad_norm": 1.12007749, "learning_rate": 8.076e-05, "elapsed_time_per_iteration": 5.68442678, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 47s", "remaining_time": "5h 44m 2s", "loss_scale": 1.0, "consumed_samples": 535040, "global_step/max_steps": "2090/6350"}
{"lm loss": 5.00325346, "grad_norm": 1.57891703, "learning_rate": 8.074e-05, "elapsed_time_per_iteration": 4.83473659, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 52s", "remaining_time": "5h 43m 57s", "loss_scale": 1.0, "consumed_samples": 535296, "global_step/max_steps": "2091/6350"}
{"lm loss": 5.0011344, "grad_norm": 0.78556275, "learning_rate": 8.072e-05, "elapsed_time_per_iteration": 4.89164925, "memory(GiB)": 28.03, "elapsed_time": "2h 48m 57s", "remaining_time": "5h 43m 52s", "loss_scale": 1.0, "consumed_samples": 535552, "global_step/max_steps": "2092/6350"}
{"lm loss": 5.01497459, "grad_norm": 1.12917101, "learning_rate": 8.07e-05, "elapsed_time_per_iteration": 5.15502095, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 2s", "remaining_time": "5h 43m 48s", "loss_scale": 1.0, "consumed_samples": 535808, "global_step/max_steps": "2093/6350"}
{"lm loss": 4.99210072, "grad_norm": 1.38525295, "learning_rate": 8.068e-05, "elapsed_time_per_iteration": 4.78698182, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 6s", "remaining_time": "5h 43m 43s", "loss_scale": 1.0, "consumed_samples": 536064, "global_step/max_steps": "2094/6350"}
{"lm loss": 5.00486851, "grad_norm": 1.00665069, "learning_rate": 8.066e-05, "elapsed_time_per_iteration": 4.77204394, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 11s", "remaining_time": "5h 43m 38s", "loss_scale": 1.0, "consumed_samples": 536320, "global_step/max_steps": "2095/6350"}
{"lm loss": 5.00784111, "grad_norm": 1.28455675, "learning_rate": 8.064e-05, "elapsed_time_per_iteration": 5.58814526, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 17s", "remaining_time": "5h 43m 35s", "loss_scale": 1.0, "consumed_samples": 536576, "global_step/max_steps": "2096/6350"}
{"lm loss": 5.00438929, "grad_norm": 0.8527869, "learning_rate": 8.062e-05, "elapsed_time_per_iteration": 4.78418708, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 22s", "remaining_time": "5h 43m 30s", "loss_scale": 1.0, "consumed_samples": 536832, "global_step/max_steps": "2097/6350"}
{"lm loss": 5.00803471, "grad_norm": 0.93196142, "learning_rate": 8.06e-05, "elapsed_time_per_iteration": 4.76635265, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 26s", "remaining_time": "5h 43m 25s", "loss_scale": 1.0, "consumed_samples": 537088, "global_step/max_steps": "2098/6350"}
{"lm loss": 4.99549818, "grad_norm": 0.81823343, "learning_rate": 8.058e-05, "elapsed_time_per_iteration": 4.78599477, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 31s", "remaining_time": "5h 43m 20s", "loss_scale": 1.0, "consumed_samples": 537344, "global_step/max_steps": "2099/6350"}
{"lm loss": 5.01654434, "grad_norm": 1.02200246, "learning_rate": 8.056e-05, "elapsed_time_per_iteration": 4.76836038, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 36s", "remaining_time": "5h 43m 15s", "loss_scale": 1.0, "consumed_samples": 537600, "global_step/max_steps": "2100/6350"}
{"lm loss": 4.99483967, "grad_norm": 1.8045634, "learning_rate": 8.054e-05, "elapsed_time_per_iteration": 4.79945922, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 41s", "remaining_time": "5h 43m 10s", "loss_scale": 1.0, "consumed_samples": 537856, "global_step/max_steps": "2101/6350"}
{"lm loss": 4.98456144, "grad_norm": 1.14999413, "learning_rate": 8.052e-05, "elapsed_time_per_iteration": 4.85877132, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 46s", "remaining_time": "5h 43m 5s", "loss_scale": 1.0, "consumed_samples": 538112, "global_step/max_steps": "2102/6350"}
{"lm loss": 5.02014208, "grad_norm": 1.10813272, "learning_rate": 8.05e-05, "elapsed_time_per_iteration": 4.7367363, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 50s", "remaining_time": "5h 43m 0s", "loss_scale": 1.0, "consumed_samples": 538368, "global_step/max_steps": "2103/6350"}
{"lm loss": 4.99863005, "grad_norm": 1.57305658, "learning_rate": 8.048e-05, "elapsed_time_per_iteration": 4.80135751, "memory(GiB)": 28.03, "elapsed_time": "2h 49m 55s", "remaining_time": "5h 42m 55s", "loss_scale": 1.0, "consumed_samples": 538624, "global_step/max_steps": "2104/6350"}
{"lm loss": 5.0027504, "grad_norm": 1.04123843, "learning_rate": 8.046e-05, "elapsed_time_per_iteration": 4.77956796, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 0s", "remaining_time": "5h 42m 50s", "loss_scale": 1.0, "consumed_samples": 538880, "global_step/max_steps": "2105/6350"}
{"lm loss": 5.02174807, "grad_norm": 1.02039993, "learning_rate": 8.044e-05, "elapsed_time_per_iteration": 4.67744493, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 5s", "remaining_time": "5h 42m 45s", "loss_scale": 1.0, "consumed_samples": 539136, "global_step/max_steps": "2106/6350"}
{"lm loss": 5.00775719, "grad_norm": 1.14380014, "learning_rate": 8.042e-05, "elapsed_time_per_iteration": 4.73501801, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 9s", "remaining_time": "5h 42m 40s", "loss_scale": 1.0, "consumed_samples": 539392, "global_step/max_steps": "2107/6350"}
{"lm loss": 4.98882294, "grad_norm": 1.09456611, "learning_rate": 8.04e-05, "elapsed_time_per_iteration": 5.53544068, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 15s", "remaining_time": "5h 42m 36s", "loss_scale": 1.0, "consumed_samples": 539648, "global_step/max_steps": "2108/6350"}
{"lm loss": 5.02237415, "grad_norm": 1.35057199, "learning_rate": 8.038e-05, "elapsed_time_per_iteration": 4.71801925, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 20s", "remaining_time": "5h 42m 31s", "loss_scale": 1.0, "consumed_samples": 539904, "global_step/max_steps": "2109/6350"}
{"lm loss": 5.00829124, "grad_norm": 1.02328873, "learning_rate": 8.036e-05, "elapsed_time_per_iteration": 4.77815557, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 24s", "remaining_time": "5h 42m 26s", "loss_scale": 1.0, "consumed_samples": 540160, "global_step/max_steps": "2110/6350"}
{"lm loss": 5.01702118, "grad_norm": 1.00288188, "learning_rate": 8.034e-05, "elapsed_time_per_iteration": 4.7490356, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 29s", "remaining_time": "5h 42m 21s", "loss_scale": 1.0, "consumed_samples": 540416, "global_step/max_steps": "2111/6350"}
{"lm loss": 5.02107286, "grad_norm": 1.19452322, "learning_rate": 8.032e-05, "elapsed_time_per_iteration": 4.77917671, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 34s", "remaining_time": "5h 42m 16s", "loss_scale": 1.0, "consumed_samples": 540672, "global_step/max_steps": "2112/6350"}
{"lm loss": 5.02733326, "grad_norm": 0.82770663, "learning_rate": 8.03e-05, "elapsed_time_per_iteration": 4.77049732, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 39s", "remaining_time": "5h 42m 11s", "loss_scale": 1.0, "consumed_samples": 540928, "global_step/max_steps": "2113/6350"}
{"lm loss": 4.99282837, "grad_norm": 0.92819077, "learning_rate": 8.028e-05, "elapsed_time_per_iteration": 4.73688579, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 43s", "remaining_time": "5h 42m 6s", "loss_scale": 1.0, "consumed_samples": 541184, "global_step/max_steps": "2114/6350"}
{"lm loss": 5.01855946, "grad_norm": 1.4170109, "learning_rate": 8.026e-05, "elapsed_time_per_iteration": 5.6464982, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 49s", "remaining_time": "5h 42m 3s", "loss_scale": 1.0, "consumed_samples": 541440, "global_step/max_steps": "2115/6350"}
{"lm loss": 4.98937559, "grad_norm": 0.94159669, "learning_rate": 8.024e-05, "elapsed_time_per_iteration": 4.8420682, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 54s", "remaining_time": "5h 41m 58s", "loss_scale": 1.0, "consumed_samples": 541696, "global_step/max_steps": "2116/6350"}
{"lm loss": 5.01737738, "grad_norm": 1.22997713, "learning_rate": 8.022e-05, "elapsed_time_per_iteration": 4.74044609, "memory(GiB)": 28.03, "elapsed_time": "2h 50m 59s", "remaining_time": "5h 41m 53s", "loss_scale": 1.0, "consumed_samples": 541952, "global_step/max_steps": "2117/6350"}
{"lm loss": 5.02843904, "grad_norm": 0.8955586, "learning_rate": 8.02e-05, "elapsed_time_per_iteration": 4.7093637, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 3s", "remaining_time": "5h 41m 48s", "loss_scale": 1.0, "consumed_samples": 542208, "global_step/max_steps": "2118/6350"}
{"lm loss": 5.00409079, "grad_norm": 0.98201138, "learning_rate": 8.018e-05, "elapsed_time_per_iteration": 4.745435, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 8s", "remaining_time": "5h 41m 43s", "loss_scale": 1.0, "consumed_samples": 542464, "global_step/max_steps": "2119/6350"}
{"lm loss": 5.00904131, "grad_norm": 1.03149629, "learning_rate": 8.016e-05, "elapsed_time_per_iteration": 4.6986258, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 13s", "remaining_time": "5h 41m 38s", "loss_scale": 1.0, "consumed_samples": 542720, "global_step/max_steps": "2120/6350"}
{"lm loss": 5.0052495, "grad_norm": 1.1915437, "learning_rate": 8.014e-05, "elapsed_time_per_iteration": 4.8066349, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 18s", "remaining_time": "5h 41m 33s", "loss_scale": 1.0, "consumed_samples": 542976, "global_step/max_steps": "2121/6350"}
{"lm loss": 5.01641417, "grad_norm": 1.77919507, "learning_rate": 8.011e-05, "elapsed_time_per_iteration": 4.80166054, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 22s", "remaining_time": "5h 41m 28s", "loss_scale": 1.0, "consumed_samples": 543232, "global_step/max_steps": "2122/6350"}
{"lm loss": 5.00282669, "grad_norm": 1.0014087, "learning_rate": 8.009e-05, "elapsed_time_per_iteration": 4.76846528, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 27s", "remaining_time": "5h 41m 23s", "loss_scale": 1.0, "consumed_samples": 543488, "global_step/max_steps": "2123/6350"}
{"lm loss": 4.98638916, "grad_norm": 1.66053414, "learning_rate": 8.007e-05, "elapsed_time_per_iteration": 4.88305449, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 32s", "remaining_time": "5h 41m 18s", "loss_scale": 1.0, "consumed_samples": 543744, "global_step/max_steps": "2124/6350"}
{"lm loss": 4.98970175, "grad_norm": 0.9588905, "learning_rate": 8.005e-05, "elapsed_time_per_iteration": 4.77280307, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 37s", "remaining_time": "5h 41m 13s", "loss_scale": 1.0, "consumed_samples": 544000, "global_step/max_steps": "2125/6350"}
{"lm loss": 4.98370314, "grad_norm": 1.9317807, "learning_rate": 8.003e-05, "elapsed_time_per_iteration": 4.73422074, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 42s", "remaining_time": "5h 41m 8s", "loss_scale": 1.0, "consumed_samples": 544256, "global_step/max_steps": "2126/6350"}
{"lm loss": 5.00998974, "grad_norm": 1.16059983, "learning_rate": 8.001e-05, "elapsed_time_per_iteration": 4.73360968, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 46s", "remaining_time": "5h 41m 3s", "loss_scale": 1.0, "consumed_samples": 544512, "global_step/max_steps": "2127/6350"}
{"lm loss": 5.01790285, "grad_norm": 1.55257463, "learning_rate": 7.999e-05, "elapsed_time_per_iteration": 5.8668263, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 52s", "remaining_time": "5h 41m 0s", "loss_scale": 1.0, "consumed_samples": 544768, "global_step/max_steps": "2128/6350"}
{"lm loss": 5.02125311, "grad_norm": 1.22922516, "learning_rate": 7.997e-05, "elapsed_time_per_iteration": 4.73485947, "memory(GiB)": 28.03, "elapsed_time": "2h 51m 57s", "remaining_time": "5h 40m 55s", "loss_scale": 1.0, "consumed_samples": 545024, "global_step/max_steps": "2129/6350"}
{"lm loss": 5.00157166, "grad_norm": 1.3391434, "learning_rate": 7.995e-05, "elapsed_time_per_iteration": 4.78363967, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 2s", "remaining_time": "5h 40m 50s", "loss_scale": 1.0, "consumed_samples": 545280, "global_step/max_steps": "2130/6350"}
{"lm loss": 5.02952719, "grad_norm": 1.16129375, "learning_rate": 7.993e-05, "elapsed_time_per_iteration": 4.78830051, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 6s", "remaining_time": "5h 40m 45s", "loss_scale": 1.0, "consumed_samples": 545536, "global_step/max_steps": "2131/6350"}
{"lm loss": 4.99604797, "grad_norm": 1.11834943, "learning_rate": 7.991e-05, "elapsed_time_per_iteration": 4.86217141, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 11s", "remaining_time": "5h 40m 40s", "loss_scale": 1.0, "consumed_samples": 545792, "global_step/max_steps": "2132/6350"}
{"lm loss": 5.01618481, "grad_norm": 1.20551836, "learning_rate": 7.989e-05, "elapsed_time_per_iteration": 4.73205018, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 16s", "remaining_time": "5h 40m 35s", "loss_scale": 1.0, "consumed_samples": 546048, "global_step/max_steps": "2133/6350"}
{"lm loss": 5.01588774, "grad_norm": 0.87026358, "learning_rate": 7.987e-05, "elapsed_time_per_iteration": 4.75304222, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 21s", "remaining_time": "5h 40m 30s", "loss_scale": 1.0, "consumed_samples": 546304, "global_step/max_steps": "2134/6350"}
{"lm loss": 5.00211239, "grad_norm": 0.97811097, "learning_rate": 7.985e-05, "elapsed_time_per_iteration": 4.78144407, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 26s", "remaining_time": "5h 40m 25s", "loss_scale": 1.0, "consumed_samples": 546560, "global_step/max_steps": "2135/6350"}
{"lm loss": 5.01684046, "grad_norm": 1.06103337, "learning_rate": 7.983e-05, "elapsed_time_per_iteration": 4.82411981, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 30s", "remaining_time": "5h 40m 20s", "loss_scale": 1.0, "consumed_samples": 546816, "global_step/max_steps": "2136/6350"}
{"lm loss": 4.99935722, "grad_norm": 1.42215753, "learning_rate": 7.981e-05, "elapsed_time_per_iteration": 4.85320497, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 35s", "remaining_time": "5h 40m 15s", "loss_scale": 1.0, "consumed_samples": 547072, "global_step/max_steps": "2137/6350"}
{"lm loss": 5.02382612, "grad_norm": 0.95309836, "learning_rate": 7.979e-05, "elapsed_time_per_iteration": 5.62183213, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 41s", "remaining_time": "5h 40m 12s", "loss_scale": 1.0, "consumed_samples": 547328, "global_step/max_steps": "2138/6350"}
{"lm loss": 5.01311636, "grad_norm": 1.14458919, "learning_rate": 7.977e-05, "elapsed_time_per_iteration": 4.83226562, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 46s", "remaining_time": "5h 40m 7s", "loss_scale": 1.0, "consumed_samples": 547584, "global_step/max_steps": "2139/6350"}
{"lm loss": 5.02269697, "grad_norm": 1.6180284, "learning_rate": 7.975e-05, "elapsed_time_per_iteration": 5.01653457, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 51s", "remaining_time": "5h 40m 3s", "loss_scale": 1.0, "consumed_samples": 547840, "global_step/max_steps": "2140/6350"}
{"lm loss": 5.00685835, "grad_norm": 0.78662294, "learning_rate": 7.973e-05, "elapsed_time_per_iteration": 5.07548428, "memory(GiB)": 28.03, "elapsed_time": "2h 52m 56s", "remaining_time": "5h 39m 58s", "loss_scale": 1.0, "consumed_samples": 548096, "global_step/max_steps": "2141/6350"}
{"lm loss": 5.00881481, "grad_norm": 1.07841349, "learning_rate": 7.971e-05, "elapsed_time_per_iteration": 5.03104973, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 1s", "remaining_time": "5h 39m 54s", "loss_scale": 1.0, "consumed_samples": 548352, "global_step/max_steps": "2142/6350"}
{"lm loss": 5.0094614, "grad_norm": 1.50775862, "learning_rate": 7.968e-05, "elapsed_time_per_iteration": 5.0212903, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 6s", "remaining_time": "5h 39m 49s", "loss_scale": 1.0, "consumed_samples": 548608, "global_step/max_steps": "2143/6350"}
{"lm loss": 5.0030942, "grad_norm": 1.08632135, "learning_rate": 7.966e-05, "elapsed_time_per_iteration": 6.24701738, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 12s", "remaining_time": "5h 39m 47s", "loss_scale": 1.0, "consumed_samples": 548864, "global_step/max_steps": "2144/6350"}
{"lm loss": 4.99947977, "grad_norm": 0.99342293, "learning_rate": 7.964e-05, "elapsed_time_per_iteration": 4.98805285, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 17s", "remaining_time": "5h 39m 43s", "loss_scale": 1.0, "consumed_samples": 549120, "global_step/max_steps": "2145/6350"}
{"lm loss": 4.98342562, "grad_norm": 1.2388339, "learning_rate": 7.962e-05, "elapsed_time_per_iteration": 5.16100478, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 22s", "remaining_time": "5h 39m 38s", "loss_scale": 1.0, "consumed_samples": 549376, "global_step/max_steps": "2146/6350"}
{"lm loss": 4.99222612, "grad_norm": 0.82953197, "learning_rate": 7.96e-05, "elapsed_time_per_iteration": 4.76036882, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 27s", "remaining_time": "5h 39m 33s", "loss_scale": 1.0, "consumed_samples": 549632, "global_step/max_steps": "2147/6350"}
{"lm loss": 5.00546408, "grad_norm": 0.87557912, "learning_rate": 7.958e-05, "elapsed_time_per_iteration": 4.74402285, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 32s", "remaining_time": "5h 39m 28s", "loss_scale": 1.0, "consumed_samples": 549888, "global_step/max_steps": "2148/6350"}
{"lm loss": 5.01429749, "grad_norm": 0.82368982, "learning_rate": 7.956e-05, "elapsed_time_per_iteration": 5.64428592, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 37s", "remaining_time": "5h 39m 25s", "loss_scale": 1.0, "consumed_samples": 550144, "global_step/max_steps": "2149/6350"}
{"lm loss": 4.9854002, "grad_norm": 1.06940949, "learning_rate": 7.954e-05, "elapsed_time_per_iteration": 4.75988126, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 42s", "remaining_time": "5h 39m 20s", "loss_scale": 1.0, "consumed_samples": 550400, "global_step/max_steps": "2150/6350"}
{"lm loss": 5.01413727, "grad_norm": 0.86607242, "learning_rate": 7.952e-05, "elapsed_time_per_iteration": 4.73834419, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 47s", "remaining_time": "5h 39m 15s", "loss_scale": 1.0, "consumed_samples": 550656, "global_step/max_steps": "2151/6350"}
{"lm loss": 5.02157354, "grad_norm": 1.12599957, "learning_rate": 7.95e-05, "elapsed_time_per_iteration": 4.74163294, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 52s", "remaining_time": "5h 39m 10s", "loss_scale": 1.0, "consumed_samples": 550912, "global_step/max_steps": "2152/6350"}
{"lm loss": 5.01426172, "grad_norm": 0.93477464, "learning_rate": 7.948e-05, "elapsed_time_per_iteration": 4.76878285, "memory(GiB)": 28.03, "elapsed_time": "2h 53m 56s", "remaining_time": "5h 39m 5s", "loss_scale": 1.0, "consumed_samples": 551168, "global_step/max_steps": "2153/6350"}
{"lm loss": 4.99664354, "grad_norm": 0.96402472, "learning_rate": 7.946e-05, "elapsed_time_per_iteration": 4.80423594, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 1s", "remaining_time": "5h 39m 0s", "loss_scale": 1.0, "consumed_samples": 551424, "global_step/max_steps": "2154/6350"}
{"lm loss": 4.98846817, "grad_norm": 1.13013422, "learning_rate": 7.944e-05, "elapsed_time_per_iteration": 4.81162691, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 6s", "remaining_time": "5h 38m 55s", "loss_scale": 1.0, "consumed_samples": 551680, "global_step/max_steps": "2155/6350"}
{"lm loss": 5.01628017, "grad_norm": 1.30563354, "learning_rate": 7.942e-05, "elapsed_time_per_iteration": 4.7148304, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 11s", "remaining_time": "5h 38m 50s", "loss_scale": 1.0, "consumed_samples": 551936, "global_step/max_steps": "2156/6350"}
{"lm loss": 4.99342489, "grad_norm": 0.91970694, "learning_rate": 7.94e-05, "elapsed_time_per_iteration": 4.70541883, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 15s", "remaining_time": "5h 38m 45s", "loss_scale": 1.0, "consumed_samples": 552192, "global_step/max_steps": "2157/6350"}
{"lm loss": 4.99566221, "grad_norm": 0.85649836, "learning_rate": 7.938e-05, "elapsed_time_per_iteration": 4.71128893, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 20s", "remaining_time": "5h 38m 40s", "loss_scale": 1.0, "consumed_samples": 552448, "global_step/max_steps": "2158/6350"}
{"lm loss": 4.97889042, "grad_norm": 0.84557301, "learning_rate": 7.935e-05, "elapsed_time_per_iteration": 4.66881728, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 25s", "remaining_time": "5h 38m 35s", "loss_scale": 1.0, "consumed_samples": 552704, "global_step/max_steps": "2159/6350"}
{"lm loss": 5.00935984, "grad_norm": 1.51717806, "learning_rate": 7.933e-05, "elapsed_time_per_iteration": 4.79344773, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 30s", "remaining_time": "5h 38m 30s", "loss_scale": 1.0, "consumed_samples": 552960, "global_step/max_steps": "2160/6350"}
{"lm loss": 4.99958038, "grad_norm": 0.81206077, "learning_rate": 7.931e-05, "elapsed_time_per_iteration": 5.67540002, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 35s", "remaining_time": "5h 38m 26s", "loss_scale": 1.0, "consumed_samples": 553216, "global_step/max_steps": "2161/6350"}
{"lm loss": 4.97023535, "grad_norm": 1.24564087, "learning_rate": 7.929e-05, "elapsed_time_per_iteration": 4.7823019, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 40s", "remaining_time": "5h 38m 21s", "loss_scale": 1.0, "consumed_samples": 553472, "global_step/max_steps": "2162/6350"}
{"lm loss": 4.98763275, "grad_norm": 0.71811616, "learning_rate": 7.927e-05, "elapsed_time_per_iteration": 4.77818131, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 45s", "remaining_time": "5h 38m 16s", "loss_scale": 1.0, "consumed_samples": 553728, "global_step/max_steps": "2163/6350"}
{"lm loss": 5.00385427, "grad_norm": 0.97815913, "learning_rate": 7.925e-05, "elapsed_time_per_iteration": 4.78824615, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 50s", "remaining_time": "5h 38m 11s", "loss_scale": 1.0, "consumed_samples": 553984, "global_step/max_steps": "2164/6350"}
{"lm loss": 4.99621487, "grad_norm": 1.12234521, "learning_rate": 7.923e-05, "elapsed_time_per_iteration": 4.84785557, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 54s", "remaining_time": "5h 38m 7s", "loss_scale": 1.0, "consumed_samples": 554240, "global_step/max_steps": "2165/6350"}
{"lm loss": 5.00474977, "grad_norm": 0.88823092, "learning_rate": 7.921e-05, "elapsed_time_per_iteration": 4.70683646, "memory(GiB)": 28.03, "elapsed_time": "2h 54m 59s", "remaining_time": "5h 38m 1s", "loss_scale": 1.0, "consumed_samples": 554496, "global_step/max_steps": "2166/6350"}
{"lm loss": 4.98344374, "grad_norm": 1.01537347, "learning_rate": 7.919e-05, "elapsed_time_per_iteration": 4.9207778, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 4s", "remaining_time": "5h 37m 57s", "loss_scale": 1.0, "consumed_samples": 554752, "global_step/max_steps": "2167/6350"}
{"lm loss": 5.00496531, "grad_norm": 1.13280654, "learning_rate": 7.917e-05, "elapsed_time_per_iteration": 4.80260158, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 9s", "remaining_time": "5h 37m 52s", "loss_scale": 1.0, "consumed_samples": 555008, "global_step/max_steps": "2168/6350"}
{"lm loss": 4.98713493, "grad_norm": 1.14705336, "learning_rate": 7.915e-05, "elapsed_time_per_iteration": 4.8087492, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 14s", "remaining_time": "5h 37m 47s", "loss_scale": 1.0, "consumed_samples": 555264, "global_step/max_steps": "2169/6350"}
{"lm loss": 5.00701666, "grad_norm": 1.32029402, "learning_rate": 7.913e-05, "elapsed_time_per_iteration": 4.80258489, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 19s", "remaining_time": "5h 37m 42s", "loss_scale": 1.0, "consumed_samples": 555520, "global_step/max_steps": "2170/6350"}
{"lm loss": 4.97439146, "grad_norm": 0.93158084, "learning_rate": 7.911e-05, "elapsed_time_per_iteration": 4.75114536, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 23s", "remaining_time": "5h 37m 37s", "loss_scale": 1.0, "consumed_samples": 555776, "global_step/max_steps": "2171/6350"}
{"lm loss": 5.01067638, "grad_norm": 0.92734259, "learning_rate": 7.909e-05, "elapsed_time_per_iteration": 4.76062632, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 28s", "remaining_time": "5h 37m 32s", "loss_scale": 1.0, "consumed_samples": 556032, "global_step/max_steps": "2172/6350"}
{"lm loss": 5.00758791, "grad_norm": 0.92069995, "learning_rate": 7.906e-05, "elapsed_time_per_iteration": 4.75026274, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 33s", "remaining_time": "5h 37m 27s", "loss_scale": 1.0, "consumed_samples": 556288, "global_step/max_steps": "2173/6350"}
{"lm loss": 5.01482058, "grad_norm": 0.96844476, "learning_rate": 7.904e-05, "elapsed_time_per_iteration": 4.79482698, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 38s", "remaining_time": "5h 37m 22s", "loss_scale": 1.0, "consumed_samples": 556544, "global_step/max_steps": "2174/6350"}
{"lm loss": 4.98861837, "grad_norm": 1.37811565, "learning_rate": 7.902e-05, "elapsed_time_per_iteration": 4.80222344, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 42s", "remaining_time": "5h 37m 17s", "loss_scale": 1.0, "consumed_samples": 556800, "global_step/max_steps": "2175/6350"}
{"lm loss": 4.98867226, "grad_norm": 1.21583617, "learning_rate": 7.9e-05, "elapsed_time_per_iteration": 4.76683998, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 47s", "remaining_time": "5h 37m 12s", "loss_scale": 1.0, "consumed_samples": 557056, "global_step/max_steps": "2176/6350"}
{"lm loss": 4.9636426, "grad_norm": 1.17061639, "learning_rate": 7.898e-05, "elapsed_time_per_iteration": 4.81519604, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 52s", "remaining_time": "5h 37m 7s", "loss_scale": 1.0, "consumed_samples": 557312, "global_step/max_steps": "2177/6350"}
{"lm loss": 4.98384428, "grad_norm": 0.98519427, "learning_rate": 7.896e-05, "elapsed_time_per_iteration": 4.7526443, "memory(GiB)": 28.03, "elapsed_time": "2h 55m 57s", "remaining_time": "5h 37m 2s", "loss_scale": 1.0, "consumed_samples": 557568, "global_step/max_steps": "2178/6350"}
{"lm loss": 4.99803877, "grad_norm": 1.09375596, "learning_rate": 7.894e-05, "elapsed_time_per_iteration": 4.71692038, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 1s", "remaining_time": "5h 36m 57s", "loss_scale": 1.0, "consumed_samples": 557824, "global_step/max_steps": "2179/6350"}
{"lm loss": 4.99493217, "grad_norm": 1.1474483, "learning_rate": 7.892e-05, "elapsed_time_per_iteration": 4.72448683, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 6s", "remaining_time": "5h 36m 52s", "loss_scale": 1.0, "consumed_samples": 558080, "global_step/max_steps": "2180/6350"}
{"lm loss": 4.99199104, "grad_norm": 0.88651669, "learning_rate": 7.89e-05, "elapsed_time_per_iteration": 4.73076606, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 11s", "remaining_time": "5h 36m 47s", "loss_scale": 1.0, "consumed_samples": 558336, "global_step/max_steps": "2181/6350"}
{"lm loss": 5.00455952, "grad_norm": 2.28131366, "learning_rate": 7.888e-05, "elapsed_time_per_iteration": 5.64454889, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 17s", "remaining_time": "5h 36m 43s", "loss_scale": 1.0, "consumed_samples": 558592, "global_step/max_steps": "2182/6350"}
{"lm loss": 5.02876377, "grad_norm": 1.05919611, "learning_rate": 7.886e-05, "elapsed_time_per_iteration": 4.78469682, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 21s", "remaining_time": "5h 36m 39s", "loss_scale": 1.0, "consumed_samples": 558848, "global_step/max_steps": "2183/6350"}
{"lm loss": 5.00370216, "grad_norm": 1.47659564, "learning_rate": 7.884e-05, "elapsed_time_per_iteration": 5.40091872, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 27s", "remaining_time": "5h 36m 35s", "loss_scale": 1.0, "consumed_samples": 559104, "global_step/max_steps": "2184/6350"}
{"lm loss": 5.00718451, "grad_norm": 0.98835975, "learning_rate": 7.881e-05, "elapsed_time_per_iteration": 4.66856718, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 31s", "remaining_time": "5h 36m 30s", "loss_scale": 1.0, "consumed_samples": 559360, "global_step/max_steps": "2185/6350"}
{"lm loss": 5.01527214, "grad_norm": 1.12779129, "learning_rate": 7.879e-05, "elapsed_time_per_iteration": 4.77431107, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 36s", "remaining_time": "5h 36m 25s", "loss_scale": 1.0, "consumed_samples": 559616, "global_step/max_steps": "2186/6350"}
{"lm loss": 4.99138308, "grad_norm": 0.94099897, "learning_rate": 7.877e-05, "elapsed_time_per_iteration": 4.7537818, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 41s", "remaining_time": "5h 36m 20s", "loss_scale": 1.0, "consumed_samples": 559872, "global_step/max_steps": "2187/6350"}
{"lm loss": 5.00344467, "grad_norm": 1.03426695, "learning_rate": 7.875e-05, "elapsed_time_per_iteration": 4.73177958, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 46s", "remaining_time": "5h 36m 14s", "loss_scale": 1.0, "consumed_samples": 560128, "global_step/max_steps": "2188/6350"}
{"lm loss": 4.97517347, "grad_norm": 1.2084738, "learning_rate": 7.873e-05, "elapsed_time_per_iteration": 4.76509643, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 50s", "remaining_time": "5h 36m 9s", "loss_scale": 1.0, "consumed_samples": 560384, "global_step/max_steps": "2189/6350"}
{"lm loss": 5.02725172, "grad_norm": 1.31492853, "learning_rate": 7.871e-05, "elapsed_time_per_iteration": 4.7510376, "memory(GiB)": 28.03, "elapsed_time": "2h 56m 55s", "remaining_time": "5h 36m 4s", "loss_scale": 1.0, "consumed_samples": 560640, "global_step/max_steps": "2190/6350"}
{"lm loss": 4.98912668, "grad_norm": 1.45175815, "learning_rate": 7.869e-05, "elapsed_time_per_iteration": 4.7355547, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 0s", "remaining_time": "5h 35m 59s", "loss_scale": 1.0, "consumed_samples": 560896, "global_step/max_steps": "2191/6350"}
{"lm loss": 5.01297903, "grad_norm": 0.81102842, "learning_rate": 7.867e-05, "elapsed_time_per_iteration": 4.74413252, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 5s", "remaining_time": "5h 35m 54s", "loss_scale": 1.0, "consumed_samples": 561152, "global_step/max_steps": "2192/6350"}
{"lm loss": 4.98635292, "grad_norm": 1.57511783, "learning_rate": 7.865e-05, "elapsed_time_per_iteration": 5.5760529, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 10s", "remaining_time": "5h 35m 51s", "loss_scale": 1.0, "consumed_samples": 561408, "global_step/max_steps": "2193/6350"}
{"lm loss": 5.00143385, "grad_norm": 1.23827267, "learning_rate": 7.863e-05, "elapsed_time_per_iteration": 5.50264359, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 16s", "remaining_time": "5h 35m 47s", "loss_scale": 1.0, "consumed_samples": 561664, "global_step/max_steps": "2194/6350"}
{"lm loss": 4.97766876, "grad_norm": 1.04701555, "learning_rate": 7.861e-05, "elapsed_time_per_iteration": 4.68415093, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 20s", "remaining_time": "5h 35m 42s", "loss_scale": 1.0, "consumed_samples": 561920, "global_step/max_steps": "2195/6350"}
{"lm loss": 5.00468588, "grad_norm": 1.06936038, "learning_rate": 7.858e-05, "elapsed_time_per_iteration": 4.76899171, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 25s", "remaining_time": "5h 35m 37s", "loss_scale": 1.0, "consumed_samples": 562176, "global_step/max_steps": "2196/6350"}
{"lm loss": 4.98783064, "grad_norm": 1.18867493, "learning_rate": 7.856e-05, "elapsed_time_per_iteration": 4.74637318, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 30s", "remaining_time": "5h 35m 32s", "loss_scale": 1.0, "consumed_samples": 562432, "global_step/max_steps": "2197/6350"}
{"lm loss": 5.00246572, "grad_norm": 1.27573025, "learning_rate": 7.854e-05, "elapsed_time_per_iteration": 4.74187016, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 35s", "remaining_time": "5h 35m 27s", "loss_scale": 1.0, "consumed_samples": 562688, "global_step/max_steps": "2198/6350"}
{"lm loss": 4.99717188, "grad_norm": 1.06041527, "learning_rate": 7.852e-05, "elapsed_time_per_iteration": 5.78125644, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 40s", "remaining_time": "5h 35m 24s", "loss_scale": 1.0, "consumed_samples": 562944, "global_step/max_steps": "2199/6350"}
{"lm loss": 5.00693035, "grad_norm": 1.10482359, "learning_rate": 7.85e-05, "elapsed_time_per_iteration": 4.76802516, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 45s", "remaining_time": "5h 35m 19s", "loss_scale": 1.0, "consumed_samples": 563200, "global_step/max_steps": "2200/6350"}
{"lm loss": 4.98820925, "grad_norm": 0.8654933, "learning_rate": 7.848e-05, "elapsed_time_per_iteration": 4.82813644, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 50s", "remaining_time": "5h 35m 14s", "loss_scale": 1.0, "consumed_samples": 563456, "global_step/max_steps": "2201/6350"}
{"lm loss": 4.98883677, "grad_norm": 1.01762044, "learning_rate": 7.846e-05, "elapsed_time_per_iteration": 4.69426274, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 55s", "remaining_time": "5h 35m 9s", "loss_scale": 1.0, "consumed_samples": 563712, "global_step/max_steps": "2202/6350"}
{"lm loss": 4.98194218, "grad_norm": 1.40262413, "learning_rate": 7.844e-05, "elapsed_time_per_iteration": 4.67599702, "memory(GiB)": 28.03, "elapsed_time": "2h 57m 59s", "remaining_time": "5h 35m 4s", "loss_scale": 1.0, "consumed_samples": 563968, "global_step/max_steps": "2203/6350"}
{"lm loss": 4.99614191, "grad_norm": 0.93656671, "learning_rate": 7.842e-05, "elapsed_time_per_iteration": 4.72275901, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 4s", "remaining_time": "5h 34m 59s", "loss_scale": 1.0, "consumed_samples": 564224, "global_step/max_steps": "2204/6350"}
{"lm loss": 5.02356148, "grad_norm": 0.85309935, "learning_rate": 7.84e-05, "elapsed_time_per_iteration": 4.75863624, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 9s", "remaining_time": "5h 34m 54s", "loss_scale": 1.0, "consumed_samples": 564480, "global_step/max_steps": "2205/6350"}
{"lm loss": 4.9811883, "grad_norm": 0.83924556, "learning_rate": 7.837e-05, "elapsed_time_per_iteration": 4.71326423, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 14s", "remaining_time": "5h 34m 49s", "loss_scale": 1.0, "consumed_samples": 564736, "global_step/max_steps": "2206/6350"}
{"lm loss": 5.00671768, "grad_norm": 0.900177, "learning_rate": 7.835e-05, "elapsed_time_per_iteration": 4.8003211, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 18s", "remaining_time": "5h 34m 44s", "loss_scale": 1.0, "consumed_samples": 564992, "global_step/max_steps": "2207/6350"}
{"lm loss": 4.96574831, "grad_norm": 1.21337104, "learning_rate": 7.833e-05, "elapsed_time_per_iteration": 4.72454238, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 23s", "remaining_time": "5h 34m 39s", "loss_scale": 1.0, "consumed_samples": 565248, "global_step/max_steps": "2208/6350"}
{"lm loss": 4.99944687, "grad_norm": 1.13637352, "learning_rate": 7.831e-05, "elapsed_time_per_iteration": 4.87918973, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 28s", "remaining_time": "5h 34m 34s", "loss_scale": 1.0, "consumed_samples": 565504, "global_step/max_steps": "2209/6350"}
{"lm loss": 5.00322056, "grad_norm": 0.97408515, "learning_rate": 7.829e-05, "elapsed_time_per_iteration": 5.33685637, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 33s", "remaining_time": "5h 34m 30s", "loss_scale": 1.0, "consumed_samples": 565760, "global_step/max_steps": "2210/6350"}
{"lm loss": 4.97624826, "grad_norm": 1.03814745, "learning_rate": 7.827e-05, "elapsed_time_per_iteration": 4.81587291, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 38s", "remaining_time": "5h 34m 25s", "loss_scale": 1.0, "consumed_samples": 566016, "global_step/max_steps": "2211/6350"}
{"lm loss": 5.01374531, "grad_norm": 0.98051012, "learning_rate": 7.825e-05, "elapsed_time_per_iteration": 4.76593876, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 43s", "remaining_time": "5h 34m 20s", "loss_scale": 1.0, "consumed_samples": 566272, "global_step/max_steps": "2212/6350"}
{"lm loss": 5.008286, "grad_norm": 0.92712402, "learning_rate": 7.823e-05, "elapsed_time_per_iteration": 5.82751179, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 49s", "remaining_time": "5h 34m 17s", "loss_scale": 1.0, "consumed_samples": 566528, "global_step/max_steps": "2213/6350"}
{"lm loss": 4.97643614, "grad_norm": 0.91532451, "learning_rate": 7.821e-05, "elapsed_time_per_iteration": 4.73128343, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 53s", "remaining_time": "5h 34m 12s", "loss_scale": 1.0, "consumed_samples": 566784, "global_step/max_steps": "2214/6350"}
{"lm loss": 5.01848125, "grad_norm": 0.95314395, "learning_rate": 7.819e-05, "elapsed_time_per_iteration": 5.02568412, "memory(GiB)": 28.03, "elapsed_time": "2h 58m 59s", "remaining_time": "5h 34m 7s", "loss_scale": 1.0, "consumed_samples": 567040, "global_step/max_steps": "2215/6350"}
{"lm loss": 5.01193285, "grad_norm": 1.07748115, "learning_rate": 7.816e-05, "elapsed_time_per_iteration": 5.08183408, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 4s", "remaining_time": "5h 34m 3s", "loss_scale": 1.0, "consumed_samples": 567296, "global_step/max_steps": "2216/6350"}
{"lm loss": 4.98774481, "grad_norm": 1.00842619, "learning_rate": 7.814e-05, "elapsed_time_per_iteration": 5.07809711, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 9s", "remaining_time": "5h 33m 58s", "loss_scale": 1.0, "consumed_samples": 567552, "global_step/max_steps": "2217/6350"}
{"lm loss": 5.00111485, "grad_norm": 0.98433572, "learning_rate": 7.812e-05, "elapsed_time_per_iteration": 5.01156116, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 14s", "remaining_time": "5h 33m 54s", "loss_scale": 1.0, "consumed_samples": 567808, "global_step/max_steps": "2218/6350"}
{"lm loss": 4.99360085, "grad_norm": 1.03033745, "learning_rate": 7.81e-05, "elapsed_time_per_iteration": 4.99205852, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 19s", "remaining_time": "5h 33m 49s", "loss_scale": 1.0, "consumed_samples": 568064, "global_step/max_steps": "2219/6350"}
{"lm loss": 4.97357082, "grad_norm": 1.01561105, "learning_rate": 7.808e-05, "elapsed_time_per_iteration": 4.78828597, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 23s", "remaining_time": "5h 33m 44s", "loss_scale": 1.0, "consumed_samples": 568320, "global_step/max_steps": "2220/6350"}
{"lm loss": 4.97995567, "grad_norm": 1.09657228, "learning_rate": 7.806e-05, "elapsed_time_per_iteration": 4.79067326, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 28s", "remaining_time": "5h 33m 39s", "loss_scale": 1.0, "consumed_samples": 568576, "global_step/max_steps": "2221/6350"}
{"lm loss": 4.98643351, "grad_norm": 1.03782845, "learning_rate": 7.804e-05, "elapsed_time_per_iteration": 4.74488521, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 33s", "remaining_time": "5h 33m 34s", "loss_scale": 1.0, "consumed_samples": 568832, "global_step/max_steps": "2222/6350"}
{"lm loss": 4.98848772, "grad_norm": 0.94071269, "learning_rate": 7.802e-05, "elapsed_time_per_iteration": 4.69132948, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 38s", "remaining_time": "5h 33m 29s", "loss_scale": 1.0, "consumed_samples": 569088, "global_step/max_steps": "2223/6350"}
{"lm loss": 5.00145531, "grad_norm": 0.72782004, "learning_rate": 7.8e-05, "elapsed_time_per_iteration": 4.8058691, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 43s", "remaining_time": "5h 33m 24s", "loss_scale": 1.0, "consumed_samples": 569344, "global_step/max_steps": "2224/6350"}
{"lm loss": 5.00312948, "grad_norm": 0.67971706, "learning_rate": 7.797e-05, "elapsed_time_per_iteration": 4.76730347, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 47s", "remaining_time": "5h 33m 19s", "loss_scale": 1.0, "consumed_samples": 569600, "global_step/max_steps": "2225/6350"}
{"lm loss": 5.00358248, "grad_norm": 0.75420928, "learning_rate": 7.795e-05, "elapsed_time_per_iteration": 5.35191202, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 53s", "remaining_time": "5h 33m 15s", "loss_scale": 1.0, "consumed_samples": 569856, "global_step/max_steps": "2226/6350"}
{"lm loss": 5.00180674, "grad_norm": 0.95622373, "learning_rate": 7.793e-05, "elapsed_time_per_iteration": 4.75082731, "memory(GiB)": 28.03, "elapsed_time": "2h 59m 57s", "remaining_time": "5h 33m 10s", "loss_scale": 1.0, "consumed_samples": 570112, "global_step/max_steps": "2227/6350"}
{"lm loss": 4.99700165, "grad_norm": 1.16671586, "learning_rate": 7.791e-05, "elapsed_time_per_iteration": 5.33125639, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 3s", "remaining_time": "5h 33m 6s", "loss_scale": 1.0, "consumed_samples": 570368, "global_step/max_steps": "2228/6350"}
{"lm loss": 4.99296522, "grad_norm": 0.85806268, "learning_rate": 7.789e-05, "elapsed_time_per_iteration": 4.91348362, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 8s", "remaining_time": "5h 33m 2s", "loss_scale": 1.0, "consumed_samples": 570624, "global_step/max_steps": "2229/6350"}
{"lm loss": 5.0096159, "grad_norm": 1.05282807, "learning_rate": 7.787e-05, "elapsed_time_per_iteration": 4.73442435, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 12s", "remaining_time": "5h 32m 57s", "loss_scale": 1.0, "consumed_samples": 570880, "global_step/max_steps": "2230/6350"}
{"lm loss": 4.9875946, "grad_norm": 1.10270548, "learning_rate": 7.785e-05, "elapsed_time_per_iteration": 4.85290837, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 17s", "remaining_time": "5h 32m 52s", "loss_scale": 1.0, "consumed_samples": 571136, "global_step/max_steps": "2231/6350"}
{"lm loss": 4.99399996, "grad_norm": 1.0359019, "learning_rate": 7.783e-05, "elapsed_time_per_iteration": 4.7616992, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 22s", "remaining_time": "5h 32m 47s", "loss_scale": 1.0, "consumed_samples": 571392, "global_step/max_steps": "2232/6350"}
{"lm loss": 5.01366663, "grad_norm": 1.08821595, "learning_rate": 7.78e-05, "elapsed_time_per_iteration": 5.33883524, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 27s", "remaining_time": "5h 32m 43s", "loss_scale": 1.0, "consumed_samples": 571648, "global_step/max_steps": "2233/6350"}
{"lm loss": 4.98845482, "grad_norm": 1.10758924, "learning_rate": 7.778e-05, "elapsed_time_per_iteration": 4.76245499, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 32s", "remaining_time": "5h 32m 38s", "loss_scale": 1.0, "consumed_samples": 571904, "global_step/max_steps": "2234/6350"}
{"lm loss": 5.0127387, "grad_norm": 0.86501664, "learning_rate": 7.776e-05, "elapsed_time_per_iteration": 4.75886774, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 37s", "remaining_time": "5h 32m 33s", "loss_scale": 1.0, "consumed_samples": 572160, "global_step/max_steps": "2235/6350"}
{"lm loss": 4.99777842, "grad_norm": 0.81096536, "learning_rate": 7.774e-05, "elapsed_time_per_iteration": 4.79400373, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 42s", "remaining_time": "5h 32m 28s", "loss_scale": 1.0, "consumed_samples": 572416, "global_step/max_steps": "2236/6350"}
{"lm loss": 5.00934362, "grad_norm": 0.81284338, "learning_rate": 7.772e-05, "elapsed_time_per_iteration": 4.8391633, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 46s", "remaining_time": "5h 32m 23s", "loss_scale": 1.0, "consumed_samples": 572672, "global_step/max_steps": "2237/6350"}
{"lm loss": 4.97535896, "grad_norm": 0.98805666, "learning_rate": 7.77e-05, "elapsed_time_per_iteration": 4.7773211, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 51s", "remaining_time": "5h 32m 18s", "loss_scale": 1.0, "consumed_samples": 572928, "global_step/max_steps": "2238/6350"}
{"lm loss": 4.99280357, "grad_norm": 1.41567409, "learning_rate": 7.768e-05, "elapsed_time_per_iteration": 4.73738551, "memory(GiB)": 28.03, "elapsed_time": "3h 0m 56s", "remaining_time": "5h 32m 13s", "loss_scale": 1.0, "consumed_samples": 573184, "global_step/max_steps": "2239/6350"}
{"lm loss": 5.0047369, "grad_norm": 0.78882664, "learning_rate": 7.766e-05, "elapsed_time_per_iteration": 4.82256866, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 1s", "remaining_time": "5h 32m 8s", "loss_scale": 1.0, "consumed_samples": 573440, "global_step/max_steps": "2240/6350"}
{"lm loss": 4.97874975, "grad_norm": 0.890535, "learning_rate": 7.763e-05, "elapsed_time_per_iteration": 4.87785244, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 6s", "remaining_time": "5h 32m 3s", "loss_scale": 1.0, "consumed_samples": 573696, "global_step/max_steps": "2241/6350"}
{"lm loss": 4.97262049, "grad_norm": 0.91852015, "learning_rate": 7.761e-05, "elapsed_time_per_iteration": 4.79370141, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 10s", "remaining_time": "5h 31m 58s", "loss_scale": 1.0, "consumed_samples": 573952, "global_step/max_steps": "2242/6350"}
{"lm loss": 4.97513771, "grad_norm": 0.88339639, "learning_rate": 7.759e-05, "elapsed_time_per_iteration": 5.73184204, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 16s", "remaining_time": "5h 31m 55s", "loss_scale": 1.0, "consumed_samples": 574208, "global_step/max_steps": "2243/6350"}
{"lm loss": 4.98677588, "grad_norm": 1.09930718, "learning_rate": 7.757e-05, "elapsed_time_per_iteration": 4.78380442, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 21s", "remaining_time": "5h 31m 50s", "loss_scale": 1.0, "consumed_samples": 574464, "global_step/max_steps": "2244/6350"}
{"lm loss": 4.99738598, "grad_norm": 0.99442387, "learning_rate": 7.755e-05, "elapsed_time_per_iteration": 4.732584, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 26s", "remaining_time": "5h 31m 45s", "loss_scale": 1.0, "consumed_samples": 574720, "global_step/max_steps": "2245/6350"}
{"lm loss": 4.98918104, "grad_norm": 1.07598674, "learning_rate": 7.753e-05, "elapsed_time_per_iteration": 4.80268955, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 31s", "remaining_time": "5h 31m 40s", "loss_scale": 1.0, "consumed_samples": 574976, "global_step/max_steps": "2246/6350"}
{"lm loss": 5.00111151, "grad_norm": 1.22264159, "learning_rate": 7.751e-05, "elapsed_time_per_iteration": 4.7161777, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 35s", "remaining_time": "5h 31m 35s", "loss_scale": 1.0, "consumed_samples": 575232, "global_step/max_steps": "2247/6350"}
{"lm loss": 4.99783325, "grad_norm": 1.08858156, "learning_rate": 7.749e-05, "elapsed_time_per_iteration": 5.56044078, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 41s", "remaining_time": "5h 31m 31s", "loss_scale": 1.0, "consumed_samples": 575488, "global_step/max_steps": "2248/6350"}
{"lm loss": 5.02438259, "grad_norm": 1.05285919, "learning_rate": 7.746e-05, "elapsed_time_per_iteration": 4.79784894, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 46s", "remaining_time": "5h 31m 27s", "loss_scale": 1.0, "consumed_samples": 575744, "global_step/max_steps": "2249/6350"}
{"lm loss": 5.00739336, "grad_norm": 0.97649622, "learning_rate": 7.744e-05, "elapsed_time_per_iteration": 4.75277042, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 50s", "remaining_time": "5h 31m 21s", "loss_scale": 1.0, "consumed_samples": 576000, "global_step/max_steps": "2250/6350"}
{"lm loss": 4.99900723, "grad_norm": 0.92921233, "learning_rate": 7.742e-05, "elapsed_time_per_iteration": 4.69482636, "memory(GiB)": 28.03, "elapsed_time": "3h 1m 55s", "remaining_time": "5h 31m 16s", "loss_scale": 1.0, "consumed_samples": 576256, "global_step/max_steps": "2251/6350"}
{"lm loss": 4.99995613, "grad_norm": 2.7492528, "learning_rate": 7.74e-05, "elapsed_time_per_iteration": 4.80707216, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 0s", "remaining_time": "5h 31m 11s", "loss_scale": 1.0, "consumed_samples": 576512, "global_step/max_steps": "2252/6350"}
{"lm loss": 5.01589727, "grad_norm": 1.28721249, "learning_rate": 7.738e-05, "elapsed_time_per_iteration": 4.73929286, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 5s", "remaining_time": "5h 31m 6s", "loss_scale": 1.0, "consumed_samples": 576768, "global_step/max_steps": "2253/6350"}
{"lm loss": 4.98875046, "grad_norm": 1.83867168, "learning_rate": 7.736e-05, "elapsed_time_per_iteration": 4.75687051, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 9s", "remaining_time": "5h 31m 1s", "loss_scale": 1.0, "consumed_samples": 577024, "global_step/max_steps": "2254/6350"}
{"lm loss": 4.98105526, "grad_norm": 1.30202913, "learning_rate": 7.734e-05, "elapsed_time_per_iteration": 4.75730276, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 14s", "remaining_time": "5h 30m 56s", "loss_scale": 1.0, "consumed_samples": 577280, "global_step/max_steps": "2255/6350"}
{"lm loss": 5.00015545, "grad_norm": 1.76899624, "learning_rate": 7.731e-05, "elapsed_time_per_iteration": 4.67497492, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 19s", "remaining_time": "5h 30m 51s", "loss_scale": 1.0, "consumed_samples": 577536, "global_step/max_steps": "2256/6350"}
{"lm loss": 5.00119209, "grad_norm": 1.40339541, "learning_rate": 7.729e-05, "elapsed_time_per_iteration": 4.76280403, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 24s", "remaining_time": "5h 30m 46s", "loss_scale": 1.0, "consumed_samples": 577792, "global_step/max_steps": "2257/6350"}
{"lm loss": 5.00063753, "grad_norm": 1.40038347, "learning_rate": 7.727e-05, "elapsed_time_per_iteration": 4.73408294, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 28s", "remaining_time": "5h 30m 41s", "loss_scale": 1.0, "consumed_samples": 578048, "global_step/max_steps": "2258/6350"}
{"lm loss": 4.9835825, "grad_norm": 1.38091457, "learning_rate": 7.725e-05, "elapsed_time_per_iteration": 4.71851087, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 33s", "remaining_time": "5h 30m 36s", "loss_scale": 1.0, "consumed_samples": 578304, "global_step/max_steps": "2259/6350"}
{"lm loss": 5.00485182, "grad_norm": 1.16849208, "learning_rate": 7.723e-05, "elapsed_time_per_iteration": 4.77324414, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 38s", "remaining_time": "5h 30m 31s", "loss_scale": 1.0, "consumed_samples": 578560, "global_step/max_steps": "2260/6350"}
{"lm loss": 5.00210285, "grad_norm": 1.10315931, "learning_rate": 7.721e-05, "elapsed_time_per_iteration": 4.73714828, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 43s", "remaining_time": "5h 30m 26s", "loss_scale": 1.0, "consumed_samples": 578816, "global_step/max_steps": "2261/6350"}
{"lm loss": 4.97279024, "grad_norm": 0.96958691, "learning_rate": 7.719e-05, "elapsed_time_per_iteration": 4.66114092, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 47s", "remaining_time": "5h 30m 21s", "loss_scale": 1.0, "consumed_samples": 579072, "global_step/max_steps": "2262/6350"}
{"lm loss": 5.00852442, "grad_norm": 1.31284451, "learning_rate": 7.716e-05, "elapsed_time_per_iteration": 5.40074873, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 53s", "remaining_time": "5h 30m 17s", "loss_scale": 1.0, "consumed_samples": 579328, "global_step/max_steps": "2263/6350"}
{"lm loss": 4.96935272, "grad_norm": 0.92174178, "learning_rate": 7.714e-05, "elapsed_time_per_iteration": 4.7583549, "memory(GiB)": 28.03, "elapsed_time": "3h 2m 57s", "remaining_time": "5h 30m 12s", "loss_scale": 1.0, "consumed_samples": 579584, "global_step/max_steps": "2264/6350"}
{"lm loss": 4.9829483, "grad_norm": 0.93426758, "learning_rate": 7.712e-05, "elapsed_time_per_iteration": 4.71839571, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 2s", "remaining_time": "5h 30m 7s", "loss_scale": 1.0, "consumed_samples": 579840, "global_step/max_steps": "2265/6350"}
{"lm loss": 4.9960885, "grad_norm": 0.81801081, "learning_rate": 7.71e-05, "elapsed_time_per_iteration": 4.74860334, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 7s", "remaining_time": "5h 30m 2s", "loss_scale": 1.0, "consumed_samples": 580096, "global_step/max_steps": "2266/6350"}
{"lm loss": 4.99805307, "grad_norm": 0.90103877, "learning_rate": 7.708e-05, "elapsed_time_per_iteration": 4.76960087, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 12s", "remaining_time": "5h 29m 57s", "loss_scale": 1.0, "consumed_samples": 580352, "global_step/max_steps": "2267/6350"}
{"lm loss": 5.01814032, "grad_norm": 1.04781497, "learning_rate": 7.706e-05, "elapsed_time_per_iteration": 5.5512743, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 17s", "remaining_time": "5h 29m 53s", "loss_scale": 1.0, "consumed_samples": 580608, "global_step/max_steps": "2268/6350"}
{"lm loss": 5.00031996, "grad_norm": 1.25429606, "learning_rate": 7.704e-05, "elapsed_time_per_iteration": 4.74863434, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 22s", "remaining_time": "5h 29m 48s", "loss_scale": 1.0, "consumed_samples": 580864, "global_step/max_steps": "2269/6350"}
{"lm loss": 5.00468254, "grad_norm": 1.12779045, "learning_rate": 7.701e-05, "elapsed_time_per_iteration": 4.70980787, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 27s", "remaining_time": "5h 29m 43s", "loss_scale": 1.0, "consumed_samples": 581120, "global_step/max_steps": "2270/6350"}
{"lm loss": 5.00469685, "grad_norm": 0.90137261, "learning_rate": 7.699e-05, "elapsed_time_per_iteration": 4.78928804, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 31s", "remaining_time": "5h 29m 38s", "loss_scale": 1.0, "consumed_samples": 581376, "global_step/max_steps": "2271/6350"}
{"lm loss": 5.00836945, "grad_norm": 0.8533228, "learning_rate": 7.697e-05, "elapsed_time_per_iteration": 4.81429458, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 36s", "remaining_time": "5h 29m 33s", "loss_scale": 1.0, "consumed_samples": 581632, "global_step/max_steps": "2272/6350"}
{"lm loss": 4.98164797, "grad_norm": 0.68170601, "learning_rate": 7.695e-05, "elapsed_time_per_iteration": 4.70913172, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 41s", "remaining_time": "5h 29m 28s", "loss_scale": 1.0, "consumed_samples": 581888, "global_step/max_steps": "2273/6350"}
{"lm loss": 4.99117184, "grad_norm": 0.71742547, "learning_rate": 7.693e-05, "elapsed_time_per_iteration": 5.52597332, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 46s", "remaining_time": "5h 29m 25s", "loss_scale": 1.0, "consumed_samples": 582144, "global_step/max_steps": "2274/6350"}
{"lm loss": 5.00426149, "grad_norm": 0.72146523, "learning_rate": 7.691e-05, "elapsed_time_per_iteration": 4.78434062, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 51s", "remaining_time": "5h 29m 20s", "loss_scale": 1.0, "consumed_samples": 582400, "global_step/max_steps": "2275/6350"}
{"lm loss": 4.98824453, "grad_norm": 0.63835502, "learning_rate": 7.689e-05, "elapsed_time_per_iteration": 4.77893758, "memory(GiB)": 28.03, "elapsed_time": "3h 3m 56s", "remaining_time": "5h 29m 15s", "loss_scale": 1.0, "consumed_samples": 582656, "global_step/max_steps": "2276/6350"}
{"lm loss": 4.98202085, "grad_norm": 0.70710367, "learning_rate": 7.686e-05, "elapsed_time_per_iteration": 4.76751971, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 1s", "remaining_time": "5h 29m 10s", "loss_scale": 1.0, "consumed_samples": 582912, "global_step/max_steps": "2277/6350"}
{"lm loss": 4.97731876, "grad_norm": 1.28846264, "learning_rate": 7.684e-05, "elapsed_time_per_iteration": 4.79714775, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 6s", "remaining_time": "5h 29m 5s", "loss_scale": 1.0, "consumed_samples": 583168, "global_step/max_steps": "2278/6350"}
{"lm loss": 4.99819565, "grad_norm": 0.77389318, "learning_rate": 7.682e-05, "elapsed_time_per_iteration": 4.74457669, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 10s", "remaining_time": "5h 29m 0s", "loss_scale": 1.0, "consumed_samples": 583424, "global_step/max_steps": "2279/6350"}
{"lm loss": 4.98810816, "grad_norm": 1.13117802, "learning_rate": 7.68e-05, "elapsed_time_per_iteration": 4.69742918, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 15s", "remaining_time": "5h 28m 55s", "loss_scale": 1.0, "consumed_samples": 583680, "global_step/max_steps": "2280/6350"}
{"lm loss": 4.99985075, "grad_norm": 0.89271629, "learning_rate": 7.678e-05, "elapsed_time_per_iteration": 5.38184071, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 20s", "remaining_time": "5h 28m 51s", "loss_scale": 1.0, "consumed_samples": 583936, "global_step/max_steps": "2281/6350"}
{"lm loss": 4.99198389, "grad_norm": 1.04211068, "learning_rate": 7.676e-05, "elapsed_time_per_iteration": 4.71652079, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 25s", "remaining_time": "5h 28m 46s", "loss_scale": 1.0, "consumed_samples": 584192, "global_step/max_steps": "2282/6350"}
{"lm loss": 4.9721489, "grad_norm": 1.52050614, "learning_rate": 7.673e-05, "elapsed_time_per_iteration": 4.74209619, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 30s", "remaining_time": "5h 28m 40s", "loss_scale": 1.0, "consumed_samples": 584448, "global_step/max_steps": "2283/6350"}
{"lm loss": 4.98660946, "grad_norm": 0.87712938, "learning_rate": 7.671e-05, "elapsed_time_per_iteration": 4.76741266, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 35s", "remaining_time": "5h 28m 35s", "loss_scale": 1.0, "consumed_samples": 584704, "global_step/max_steps": "2284/6350"}
{"lm loss": 4.99254417, "grad_norm": 0.91138154, "learning_rate": 7.669e-05, "elapsed_time_per_iteration": 4.69120598, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 39s", "remaining_time": "5h 28m 30s", "loss_scale": 1.0, "consumed_samples": 584960, "global_step/max_steps": "2285/6350"}
{"lm loss": 4.99023294, "grad_norm": 1.20266402, "learning_rate": 7.667e-05, "elapsed_time_per_iteration": 4.80499148, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 44s", "remaining_time": "5h 28m 25s", "loss_scale": 1.0, "consumed_samples": 585216, "global_step/max_steps": "2286/6350"}
{"lm loss": 4.96613216, "grad_norm": 1.33481109, "learning_rate": 7.665e-05, "elapsed_time_per_iteration": 4.76728916, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 49s", "remaining_time": "5h 28m 20s", "loss_scale": 1.0, "consumed_samples": 585472, "global_step/max_steps": "2287/6350"}
{"lm loss": 4.97965574, "grad_norm": 1.02718186, "learning_rate": 7.663e-05, "elapsed_time_per_iteration": 4.72754693, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 54s", "remaining_time": "5h 28m 15s", "loss_scale": 1.0, "consumed_samples": 585728, "global_step/max_steps": "2288/6350"}
{"lm loss": 4.95280647, "grad_norm": 1.12500942, "learning_rate": 7.661e-05, "elapsed_time_per_iteration": 4.97922683, "memory(GiB)": 28.03, "elapsed_time": "3h 4m 59s", "remaining_time": "5h 28m 11s", "loss_scale": 1.0, "consumed_samples": 585984, "global_step/max_steps": "2289/6350"}
{"lm loss": 4.99887848, "grad_norm": 1.14903486, "learning_rate": 7.658e-05, "elapsed_time_per_iteration": 4.81531477, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 3s", "remaining_time": "5h 28m 6s", "loss_scale": 1.0, "consumed_samples": 586240, "global_step/max_steps": "2290/6350"}
{"lm loss": 5.01926851, "grad_norm": 0.99543118, "learning_rate": 7.656e-05, "elapsed_time_per_iteration": 4.77182007, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 8s", "remaining_time": "5h 28m 1s", "loss_scale": 1.0, "consumed_samples": 586496, "global_step/max_steps": "2291/6350"}
{"lm loss": 4.97722149, "grad_norm": 0.90479571, "learning_rate": 7.654e-05, "elapsed_time_per_iteration": 4.79483008, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 13s", "remaining_time": "5h 27m 56s", "loss_scale": 1.0, "consumed_samples": 586752, "global_step/max_steps": "2292/6350"}
{"lm loss": 5.00294781, "grad_norm": 0.71365893, "learning_rate": 7.652e-05, "elapsed_time_per_iteration": 5.53900886, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 18s", "remaining_time": "5h 27m 52s", "loss_scale": 1.0, "consumed_samples": 587008, "global_step/max_steps": "2293/6350"}
{"lm loss": 4.97726345, "grad_norm": 0.80765599, "learning_rate": 7.65e-05, "elapsed_time_per_iteration": 4.7198112, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 23s", "remaining_time": "5h 27m 47s", "loss_scale": 1.0, "consumed_samples": 587264, "global_step/max_steps": "2294/6350"}
{"lm loss": 4.98812485, "grad_norm": 0.7239278, "learning_rate": 7.648e-05, "elapsed_time_per_iteration": 4.71289635, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 28s", "remaining_time": "5h 27m 42s", "loss_scale": 1.0, "consumed_samples": 587520, "global_step/max_steps": "2295/6350"}
{"lm loss": 4.97275591, "grad_norm": 0.88356805, "learning_rate": 7.645e-05, "elapsed_time_per_iteration": 4.74244547, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 33s", "remaining_time": "5h 27m 37s", "loss_scale": 1.0, "consumed_samples": 587776, "global_step/max_steps": "2296/6350"}
{"lm loss": 4.96888828, "grad_norm": 0.79407936, "learning_rate": 7.643e-05, "elapsed_time_per_iteration": 5.67551208, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 38s", "remaining_time": "5h 27m 34s", "loss_scale": 1.0, "consumed_samples": 588032, "global_step/max_steps": "2297/6350"}
{"lm loss": 4.97701359, "grad_norm": 0.96803427, "learning_rate": 7.641e-05, "elapsed_time_per_iteration": 4.70393968, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 43s", "remaining_time": "5h 27m 29s", "loss_scale": 1.0, "consumed_samples": 588288, "global_step/max_steps": "2298/6350"}
{"lm loss": 4.9799881, "grad_norm": 1.23466969, "learning_rate": 7.639e-05, "elapsed_time_per_iteration": 4.79209542, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 48s", "remaining_time": "5h 27m 24s", "loss_scale": 1.0, "consumed_samples": 588544, "global_step/max_steps": "2299/6350"}
{"lm loss": 4.99576378, "grad_norm": 1.08163202, "learning_rate": 7.637e-05, "elapsed_time_per_iteration": 4.72965527, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 53s", "remaining_time": "5h 27m 19s", "loss_scale": 1.0, "consumed_samples": 588800, "global_step/max_steps": "2300/6350"}
{"lm loss": 5.00444078, "grad_norm": 0.98480022, "learning_rate": 7.635e-05, "elapsed_time_per_iteration": 4.69289446, "memory(GiB)": 28.03, "elapsed_time": "3h 5m 57s", "remaining_time": "5h 27m 13s", "loss_scale": 1.0, "consumed_samples": 589056, "global_step/max_steps": "2301/6350"}
{"lm loss": 4.99452353, "grad_norm": 0.96622485, "learning_rate": 7.632e-05, "elapsed_time_per_iteration": 4.72365403, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 2s", "remaining_time": "5h 27m 8s", "loss_scale": 1.0, "consumed_samples": 589312, "global_step/max_steps": "2302/6350"}
{"lm loss": 4.98506069, "grad_norm": 1.26260173, "learning_rate": 7.63e-05, "elapsed_time_per_iteration": 4.84426832, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 7s", "remaining_time": "5h 27m 4s", "loss_scale": 1.0, "consumed_samples": 589568, "global_step/max_steps": "2303/6350"}
{"lm loss": 5.00515127, "grad_norm": 0.98980701, "learning_rate": 7.628e-05, "elapsed_time_per_iteration": 4.65857863, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 11s", "remaining_time": "5h 26m 58s", "loss_scale": 1.0, "consumed_samples": 589824, "global_step/max_steps": "2304/6350"}
{"lm loss": 5.0138216, "grad_norm": 1.08939385, "learning_rate": 7.626e-05, "elapsed_time_per_iteration": 4.74131846, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 16s", "remaining_time": "5h 26m 53s", "loss_scale": 1.0, "consumed_samples": 590080, "global_step/max_steps": "2305/6350"}
{"lm loss": 4.97189713, "grad_norm": 0.82229787, "learning_rate": 7.624e-05, "elapsed_time_per_iteration": 5.7256062, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 22s", "remaining_time": "5h 26m 50s", "loss_scale": 1.0, "consumed_samples": 590336, "global_step/max_steps": "2306/6350"}
{"lm loss": 4.99664211, "grad_norm": 0.90553951, "learning_rate": 7.622e-05, "elapsed_time_per_iteration": 4.77506423, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 27s", "remaining_time": "5h 26m 45s", "loss_scale": 1.0, "consumed_samples": 590592, "global_step/max_steps": "2307/6350"}
{"lm loss": 5.01542759, "grad_norm": 1.03556514, "learning_rate": 7.619e-05, "elapsed_time_per_iteration": 4.88093925, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 32s", "remaining_time": "5h 26m 40s", "loss_scale": 1.0, "consumed_samples": 590848, "global_step/max_steps": "2308/6350"}
{"lm loss": 4.99918699, "grad_norm": 0.94193131, "learning_rate": 7.617e-05, "elapsed_time_per_iteration": 4.89223957, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 36s", "remaining_time": "5h 26m 35s", "loss_scale": 1.0, "consumed_samples": 591104, "global_step/max_steps": "2309/6350"}
{"lm loss": 4.99611664, "grad_norm": 1.18587542, "learning_rate": 7.615e-05, "elapsed_time_per_iteration": 4.87307739, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 41s", "remaining_time": "5h 26m 31s", "loss_scale": 1.0, "consumed_samples": 591360, "global_step/max_steps": "2310/6350"}
{"lm loss": 4.99971437, "grad_norm": 1.08589458, "learning_rate": 7.613e-05, "elapsed_time_per_iteration": 5.67820907, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 47s", "remaining_time": "5h 26m 27s", "loss_scale": 1.0, "consumed_samples": 591616, "global_step/max_steps": "2311/6350"}
{"lm loss": 4.97125626, "grad_norm": 1.01919031, "learning_rate": 7.611e-05, "elapsed_time_per_iteration": 5.82090378, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 53s", "remaining_time": "5h 26m 24s", "loss_scale": 1.0, "consumed_samples": 591872, "global_step/max_steps": "2312/6350"}
{"lm loss": 4.99505329, "grad_norm": 0.99355924, "learning_rate": 7.608e-05, "elapsed_time_per_iteration": 4.79178476, "memory(GiB)": 28.03, "elapsed_time": "3h 6m 58s", "remaining_time": "5h 26m 19s", "loss_scale": 1.0, "consumed_samples": 592128, "global_step/max_steps": "2313/6350"}
{"lm loss": 4.98384762, "grad_norm": 0.81784034, "learning_rate": 7.606e-05, "elapsed_time_per_iteration": 4.82021117, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 2s", "remaining_time": "5h 26m 14s", "loss_scale": 1.0, "consumed_samples": 592384, "global_step/max_steps": "2314/6350"}
{"lm loss": 4.97938776, "grad_norm": 0.68053669, "learning_rate": 7.604e-05, "elapsed_time_per_iteration": 4.76515913, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 7s", "remaining_time": "5h 26m 9s", "loss_scale": 1.0, "consumed_samples": 592640, "global_step/max_steps": "2315/6350"}
{"lm loss": 4.97769117, "grad_norm": 0.78761178, "learning_rate": 7.602e-05, "elapsed_time_per_iteration": 4.77712917, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 12s", "remaining_time": "5h 26m 4s", "loss_scale": 1.0, "consumed_samples": 592896, "global_step/max_steps": "2316/6350"}
{"lm loss": 4.98058891, "grad_norm": 0.85996759, "learning_rate": 7.6e-05, "elapsed_time_per_iteration": 4.79127049, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 17s", "remaining_time": "5h 25m 59s", "loss_scale": 1.0, "consumed_samples": 593152, "global_step/max_steps": "2317/6350"}
{"lm loss": 5.00211, "grad_norm": 0.74541688, "learning_rate": 7.598e-05, "elapsed_time_per_iteration": 4.71194434, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 22s", "remaining_time": "5h 25m 54s", "loss_scale": 1.0, "consumed_samples": 593408, "global_step/max_steps": "2318/6350"}
{"lm loss": 4.95906305, "grad_norm": 1.12343764, "learning_rate": 7.595e-05, "elapsed_time_per_iteration": 4.80134344, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 26s", "remaining_time": "5h 25m 49s", "loss_scale": 1.0, "consumed_samples": 593664, "global_step/max_steps": "2319/6350"}
{"lm loss": 4.9917922, "grad_norm": 1.18865299, "learning_rate": 7.593e-05, "elapsed_time_per_iteration": 4.74121594, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 31s", "remaining_time": "5h 25m 44s", "loss_scale": 1.0, "consumed_samples": 593920, "global_step/max_steps": "2320/6350"}
{"lm loss": 5.00370836, "grad_norm": 0.95496732, "learning_rate": 7.591e-05, "elapsed_time_per_iteration": 4.7558651, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 36s", "remaining_time": "5h 25m 39s", "loss_scale": 1.0, "consumed_samples": 594176, "global_step/max_steps": "2321/6350"}
{"lm loss": 4.99325323, "grad_norm": 1.06419265, "learning_rate": 7.589e-05, "elapsed_time_per_iteration": 5.5248158, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 41s", "remaining_time": "5h 25m 36s", "loss_scale": 1.0, "consumed_samples": 594432, "global_step/max_steps": "2322/6350"}
{"lm loss": 4.99693394, "grad_norm": 1.37938309, "learning_rate": 7.587e-05, "elapsed_time_per_iteration": 4.81194782, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 46s", "remaining_time": "5h 25m 31s", "loss_scale": 1.0, "consumed_samples": 594688, "global_step/max_steps": "2323/6350"}
{"lm loss": 4.98715591, "grad_norm": 0.89883155, "learning_rate": 7.584e-05, "elapsed_time_per_iteration": 4.72367263, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 51s", "remaining_time": "5h 25m 26s", "loss_scale": 1.0, "consumed_samples": 594944, "global_step/max_steps": "2324/6350"}
{"lm loss": 4.97081137, "grad_norm": 0.92181236, "learning_rate": 7.582e-05, "elapsed_time_per_iteration": 4.72193384, "memory(GiB)": 28.03, "elapsed_time": "3h 7m 56s", "remaining_time": "5h 25m 20s", "loss_scale": 1.0, "consumed_samples": 595200, "global_step/max_steps": "2325/6350"}
{"lm loss": 4.98480988, "grad_norm": 0.75001532, "learning_rate": 7.58e-05, "elapsed_time_per_iteration": 4.72546172, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 0s", "remaining_time": "5h 25m 15s", "loss_scale": 1.0, "consumed_samples": 595456, "global_step/max_steps": "2326/6350"}
{"lm loss": 4.99527264, "grad_norm": 1.07580781, "learning_rate": 7.578e-05, "elapsed_time_per_iteration": 4.69841552, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 5s", "remaining_time": "5h 25m 10s", "loss_scale": 1.0, "consumed_samples": 595712, "global_step/max_steps": "2327/6350"}
{"lm loss": 4.9882679, "grad_norm": 0.93247837, "learning_rate": 7.576e-05, "elapsed_time_per_iteration": 4.69372392, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 10s", "remaining_time": "5h 25m 5s", "loss_scale": 1.0, "consumed_samples": 595968, "global_step/max_steps": "2328/6350"}
{"lm loss": 4.9786725, "grad_norm": 1.00014198, "learning_rate": 7.574e-05, "elapsed_time_per_iteration": 4.73454404, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 14s", "remaining_time": "5h 25m 0s", "loss_scale": 1.0, "consumed_samples": 596224, "global_step/max_steps": "2329/6350"}
{"lm loss": 5.00233746, "grad_norm": 1.03023672, "learning_rate": 7.571e-05, "elapsed_time_per_iteration": 4.77011967, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 19s", "remaining_time": "5h 24m 55s", "loss_scale": 1.0, "consumed_samples": 596480, "global_step/max_steps": "2330/6350"}
{"lm loss": 4.98885584, "grad_norm": 1.39885724, "learning_rate": 7.569e-05, "elapsed_time_per_iteration": 4.72908926, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 24s", "remaining_time": "5h 24m 50s", "loss_scale": 1.0, "consumed_samples": 596736, "global_step/max_steps": "2331/6350"}
{"lm loss": 4.98325253, "grad_norm": 0.94354606, "learning_rate": 7.567e-05, "elapsed_time_per_iteration": 4.68581247, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 29s", "remaining_time": "5h 24m 45s", "loss_scale": 1.0, "consumed_samples": 596992, "global_step/max_steps": "2332/6350"}
{"lm loss": 4.98239851, "grad_norm": 0.93405038, "learning_rate": 7.565e-05, "elapsed_time_per_iteration": 4.68914461, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 33s", "remaining_time": "5h 24m 40s", "loss_scale": 1.0, "consumed_samples": 597248, "global_step/max_steps": "2333/6350"}
{"lm loss": 4.97186708, "grad_norm": 0.75425035, "learning_rate": 7.563e-05, "elapsed_time_per_iteration": 5.33695006, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 39s", "remaining_time": "5h 24m 36s", "loss_scale": 1.0, "consumed_samples": 597504, "global_step/max_steps": "2334/6350"}
{"lm loss": 4.97311258, "grad_norm": 0.84743214, "learning_rate": 7.56e-05, "elapsed_time_per_iteration": 4.72391176, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 43s", "remaining_time": "5h 24m 31s", "loss_scale": 1.0, "consumed_samples": 597760, "global_step/max_steps": "2335/6350"}
{"lm loss": 4.97833538, "grad_norm": 1.20949197, "learning_rate": 7.558e-05, "elapsed_time_per_iteration": 5.61788177, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 49s", "remaining_time": "5h 24m 27s", "loss_scale": 1.0, "consumed_samples": 598016, "global_step/max_steps": "2336/6350"}
{"lm loss": 4.98761845, "grad_norm": 1.1158911, "learning_rate": 7.556e-05, "elapsed_time_per_iteration": 4.69064116, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 54s", "remaining_time": "5h 24m 22s", "loss_scale": 1.0, "consumed_samples": 598272, "global_step/max_steps": "2337/6350"}
{"lm loss": 4.99192953, "grad_norm": 0.81350499, "learning_rate": 7.554e-05, "elapsed_time_per_iteration": 4.69790483, "memory(GiB)": 28.03, "elapsed_time": "3h 8m 58s", "remaining_time": "5h 24m 17s", "loss_scale": 1.0, "consumed_samples": 598528, "global_step/max_steps": "2338/6350"}
{"lm loss": 4.9943614, "grad_norm": 0.86309105, "learning_rate": 7.552e-05, "elapsed_time_per_iteration": 4.70227838, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 3s", "remaining_time": "5h 24m 12s", "loss_scale": 1.0, "consumed_samples": 598784, "global_step/max_steps": "2339/6350"}
{"lm loss": 4.95891571, "grad_norm": 0.8435173, "learning_rate": 7.549e-05, "elapsed_time_per_iteration": 4.78272867, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 8s", "remaining_time": "5h 24m 7s", "loss_scale": 1.0, "consumed_samples": 599040, "global_step/max_steps": "2340/6350"}
{"lm loss": 4.98721981, "grad_norm": 0.80601376, "learning_rate": 7.547e-05, "elapsed_time_per_iteration": 4.69710279, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 13s", "remaining_time": "5h 24m 2s", "loss_scale": 1.0, "consumed_samples": 599296, "global_step/max_steps": "2341/6350"}
{"lm loss": 4.98507404, "grad_norm": 1.07118738, "learning_rate": 7.545e-05, "elapsed_time_per_iteration": 4.86359, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 17s", "remaining_time": "5h 23m 57s", "loss_scale": 1.0, "consumed_samples": 599552, "global_step/max_steps": "2342/6350"}
{"lm loss": 4.97543716, "grad_norm": 1.23282933, "learning_rate": 7.543e-05, "elapsed_time_per_iteration": 4.75462699, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 22s", "remaining_time": "5h 23m 52s", "loss_scale": 1.0, "consumed_samples": 599808, "global_step/max_steps": "2343/6350"}
{"lm loss": 4.96602869, "grad_norm": 0.83831596, "learning_rate": 7.541e-05, "elapsed_time_per_iteration": 4.69606757, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 27s", "remaining_time": "5h 23m 47s", "loss_scale": 1.0, "consumed_samples": 600064, "global_step/max_steps": "2344/6350"}
{"lm loss": 5.01210737, "grad_norm": 0.75032306, "learning_rate": 7.538e-05, "elapsed_time_per_iteration": 4.73020196, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 32s", "remaining_time": "5h 23m 42s", "loss_scale": 1.0, "consumed_samples": 600320, "global_step/max_steps": "2345/6350"}
{"lm loss": 4.9935236, "grad_norm": 0.99541962, "learning_rate": 7.536e-05, "elapsed_time_per_iteration": 4.69844222, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 36s", "remaining_time": "5h 23m 37s", "loss_scale": 1.0, "consumed_samples": 600576, "global_step/max_steps": "2346/6350"}
{"lm loss": 4.94597864, "grad_norm": 0.90155482, "learning_rate": 7.534e-05, "elapsed_time_per_iteration": 4.72819686, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 41s", "remaining_time": "5h 23m 32s", "loss_scale": 1.0, "consumed_samples": 600832, "global_step/max_steps": "2347/6350"}
{"lm loss": 5.0086937, "grad_norm": 0.87204379, "learning_rate": 7.532e-05, "elapsed_time_per_iteration": 4.74013686, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 46s", "remaining_time": "5h 23m 27s", "loss_scale": 1.0, "consumed_samples": 601088, "global_step/max_steps": "2348/6350"}
{"lm loss": 4.99808407, "grad_norm": 0.89709485, "learning_rate": 7.53e-05, "elapsed_time_per_iteration": 5.56834936, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 51s", "remaining_time": "5h 23m 23s", "loss_scale": 1.0, "consumed_samples": 601344, "global_step/max_steps": "2349/6350"}
{"lm loss": 4.98201847, "grad_norm": 1.05558145, "learning_rate": 7.527e-05, "elapsed_time_per_iteration": 4.72441173, "memory(GiB)": 28.03, "elapsed_time": "3h 9m 56s", "remaining_time": "5h 23m 18s", "loss_scale": 1.0, "consumed_samples": 601600, "global_step/max_steps": "2350/6350"}
{"lm loss": 4.97901726, "grad_norm": 0.91171199, "learning_rate": 7.525e-05, "elapsed_time_per_iteration": 4.72949409, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 1s", "remaining_time": "5h 23m 13s", "loss_scale": 1.0, "consumed_samples": 601856, "global_step/max_steps": "2351/6350"}
{"lm loss": 4.99149895, "grad_norm": 0.87639397, "learning_rate": 7.523e-05, "elapsed_time_per_iteration": 4.64331222, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 5s", "remaining_time": "5h 23m 8s", "loss_scale": 1.0, "consumed_samples": 602112, "global_step/max_steps": "2352/6350"}
{"lm loss": 4.96273375, "grad_norm": 1.60791314, "learning_rate": 7.521e-05, "elapsed_time_per_iteration": 4.74501991, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 10s", "remaining_time": "5h 23m 3s", "loss_scale": 1.0, "consumed_samples": 602368, "global_step/max_steps": "2353/6350"}
{"lm loss": 4.9787097, "grad_norm": 0.72866917, "learning_rate": 7.519e-05, "elapsed_time_per_iteration": 4.77330542, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 15s", "remaining_time": "5h 22m 58s", "loss_scale": 1.0, "consumed_samples": 602624, "global_step/max_steps": "2354/6350"}
{"lm loss": 4.97900629, "grad_norm": 1.42391241, "learning_rate": 7.516e-05, "elapsed_time_per_iteration": 4.76681137, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 20s", "remaining_time": "5h 22m 53s", "loss_scale": 1.0, "consumed_samples": 602880, "global_step/max_steps": "2355/6350"}
{"lm loss": 5.00347757, "grad_norm": 1.13014591, "learning_rate": 7.514e-05, "elapsed_time_per_iteration": 4.71465564, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 24s", "remaining_time": "5h 22m 48s", "loss_scale": 1.0, "consumed_samples": 603136, "global_step/max_steps": "2356/6350"}
{"lm loss": 4.9950633, "grad_norm": 0.92071807, "learning_rate": 7.512e-05, "elapsed_time_per_iteration": 5.78074622, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 30s", "remaining_time": "5h 22m 44s", "loss_scale": 1.0, "consumed_samples": 603392, "global_step/max_steps": "2357/6350"}
{"lm loss": 4.98760033, "grad_norm": 0.83359247, "learning_rate": 7.51e-05, "elapsed_time_per_iteration": 4.68327284, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 35s", "remaining_time": "5h 22m 39s", "loss_scale": 1.0, "consumed_samples": 603648, "global_step/max_steps": "2358/6350"}
{"lm loss": 4.98154593, "grad_norm": 0.68636423, "learning_rate": 7.508e-05, "elapsed_time_per_iteration": 4.7505703, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 40s", "remaining_time": "5h 22m 34s", "loss_scale": 1.0, "consumed_samples": 603904, "global_step/max_steps": "2359/6350"}
{"lm loss": 4.98468256, "grad_norm": 0.67341954, "learning_rate": 7.505e-05, "elapsed_time_per_iteration": 4.66164851, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 44s", "remaining_time": "5h 22m 29s", "loss_scale": 1.0, "consumed_samples": 604160, "global_step/max_steps": "2360/6350"}
{"lm loss": 4.9818821, "grad_norm": 0.98337322, "learning_rate": 7.503e-05, "elapsed_time_per_iteration": 4.78784275, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 49s", "remaining_time": "5h 22m 24s", "loss_scale": 1.0, "consumed_samples": 604416, "global_step/max_steps": "2361/6350"}
{"lm loss": 5.01249504, "grad_norm": 1.37690866, "learning_rate": 7.501e-05, "elapsed_time_per_iteration": 4.73233771, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 54s", "remaining_time": "5h 22m 19s", "loss_scale": 1.0, "consumed_samples": 604672, "global_step/max_steps": "2362/6350"}
{"lm loss": 4.9910388, "grad_norm": 0.93533695, "learning_rate": 7.499e-05, "elapsed_time_per_iteration": 4.6856966, "memory(GiB)": 28.03, "elapsed_time": "3h 10m 59s", "remaining_time": "5h 22m 14s", "loss_scale": 1.0, "consumed_samples": 604928, "global_step/max_steps": "2363/6350"}
{"lm loss": 4.99471045, "grad_norm": 1.01014256, "learning_rate": 7.497e-05, "elapsed_time_per_iteration": 4.74398661, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 3s", "remaining_time": "5h 22m 9s", "loss_scale": 1.0, "consumed_samples": 605184, "global_step/max_steps": "2364/6350"}
{"lm loss": 4.97152662, "grad_norm": 0.98303884, "learning_rate": 7.494e-05, "elapsed_time_per_iteration": 4.77149773, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 8s", "remaining_time": "5h 22m 4s", "loss_scale": 1.0, "consumed_samples": 605440, "global_step/max_steps": "2365/6350"}
{"lm loss": 4.96684837, "grad_norm": 0.74623388, "learning_rate": 7.492e-05, "elapsed_time_per_iteration": 4.78348637, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 13s", "remaining_time": "5h 21m 59s", "loss_scale": 1.0, "consumed_samples": 605696, "global_step/max_steps": "2366/6350"}
{"lm loss": 4.96933508, "grad_norm": 0.85413188, "learning_rate": 7.49e-05, "elapsed_time_per_iteration": 5.55913496, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 18s", "remaining_time": "5h 21m 55s", "loss_scale": 1.0, "consumed_samples": 605952, "global_step/max_steps": "2367/6350"}
{"lm loss": 5.0084343, "grad_norm": 1.07924688, "learning_rate": 7.488e-05, "elapsed_time_per_iteration": 4.73199821, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 23s", "remaining_time": "5h 21m 50s", "loss_scale": 1.0, "consumed_samples": 606208, "global_step/max_steps": "2368/6350"}
{"lm loss": 4.96230364, "grad_norm": 1.52693391, "learning_rate": 7.486e-05, "elapsed_time_per_iteration": 4.76329851, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 28s", "remaining_time": "5h 21m 45s", "loss_scale": 1.0, "consumed_samples": 606464, "global_step/max_steps": "2369/6350"}
{"lm loss": 4.96662903, "grad_norm": 0.75841761, "learning_rate": 7.483e-05, "elapsed_time_per_iteration": 4.78855848, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 33s", "remaining_time": "5h 21m 40s", "loss_scale": 1.0, "consumed_samples": 606720, "global_step/max_steps": "2370/6350"}
{"lm loss": 4.96708679, "grad_norm": 1.06420672, "learning_rate": 7.481e-05, "elapsed_time_per_iteration": 4.66255069, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 37s", "remaining_time": "5h 21m 35s", "loss_scale": 1.0, "consumed_samples": 606976, "global_step/max_steps": "2371/6350"}
{"lm loss": 4.99698305, "grad_norm": 1.76564276, "learning_rate": 7.479e-05, "elapsed_time_per_iteration": 4.67894697, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 42s", "remaining_time": "5h 21m 30s", "loss_scale": 1.0, "consumed_samples": 607232, "global_step/max_steps": "2372/6350"}
{"lm loss": 4.99126244, "grad_norm": 0.85805994, "learning_rate": 7.477e-05, "elapsed_time_per_iteration": 4.64114499, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 47s", "remaining_time": "5h 21m 25s", "loss_scale": 1.0, "consumed_samples": 607488, "global_step/max_steps": "2373/6350"}
{"lm loss": 4.99497414, "grad_norm": 1.9093039, "learning_rate": 7.474e-05, "elapsed_time_per_iteration": 4.79039216, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 51s", "remaining_time": "5h 21m 20s", "loss_scale": 1.0, "consumed_samples": 607744, "global_step/max_steps": "2374/6350"}
{"lm loss": 4.98607016, "grad_norm": 1.16757512, "learning_rate": 7.472e-05, "elapsed_time_per_iteration": 4.76059294, "memory(GiB)": 28.03, "elapsed_time": "3h 11m 56s", "remaining_time": "5h 21m 15s", "loss_scale": 1.0, "consumed_samples": 608000, "global_step/max_steps": "2375/6350"}
{"lm loss": 4.96816778, "grad_norm": 1.79677022, "learning_rate": 7.47e-05, "elapsed_time_per_iteration": 4.73095703, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 1s", "remaining_time": "5h 21m 10s", "loss_scale": 1.0, "consumed_samples": 608256, "global_step/max_steps": "2376/6350"}
{"lm loss": 5.00006771, "grad_norm": 1.56972754, "learning_rate": 7.468e-05, "elapsed_time_per_iteration": 4.75533342, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 6s", "remaining_time": "5h 21m 5s", "loss_scale": 1.0, "consumed_samples": 608512, "global_step/max_steps": "2377/6350"}
{"lm loss": 4.97027016, "grad_norm": 1.24951458, "learning_rate": 7.466e-05, "elapsed_time_per_iteration": 5.49551725, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 11s", "remaining_time": "5h 21m 1s", "loss_scale": 1.0, "consumed_samples": 608768, "global_step/max_steps": "2378/6350"}
{"lm loss": 4.99360418, "grad_norm": 1.3770802, "learning_rate": 7.463e-05, "elapsed_time_per_iteration": 5.54655266, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 17s", "remaining_time": "5h 20m 57s", "loss_scale": 1.0, "consumed_samples": 609024, "global_step/max_steps": "2379/6350"}
{"lm loss": 4.99003077, "grad_norm": 1.04739094, "learning_rate": 7.461e-05, "elapsed_time_per_iteration": 4.61632061, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 21s", "remaining_time": "5h 20m 52s", "loss_scale": 1.0, "consumed_samples": 609280, "global_step/max_steps": "2380/6350"}
{"lm loss": 4.99636936, "grad_norm": 1.01202929, "learning_rate": 7.459e-05, "elapsed_time_per_iteration": 4.69553638, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 26s", "remaining_time": "5h 20m 47s", "loss_scale": 1.0, "consumed_samples": 609536, "global_step/max_steps": "2381/6350"}
{"lm loss": 4.95763254, "grad_norm": 1.26429462, "learning_rate": 7.457e-05, "elapsed_time_per_iteration": 5.47306585, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 32s", "remaining_time": "5h 20m 43s", "loss_scale": 1.0, "consumed_samples": 609792, "global_step/max_steps": "2382/6350"}
{"lm loss": 4.97972298, "grad_norm": 0.80945879, "learning_rate": 7.454e-05, "elapsed_time_per_iteration": 5.65578461, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 37s", "remaining_time": "5h 20m 40s", "loss_scale": 1.0, "consumed_samples": 610048, "global_step/max_steps": "2383/6350"}
{"lm loss": 5.01373529, "grad_norm": 1.06391108, "learning_rate": 7.452e-05, "elapsed_time_per_iteration": 4.66264582, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 42s", "remaining_time": "5h 20m 35s", "loss_scale": 1.0, "consumed_samples": 610304, "global_step/max_steps": "2384/6350"}
{"lm loss": 4.99126005, "grad_norm": 1.03423333, "learning_rate": 7.45e-05, "elapsed_time_per_iteration": 4.74847293, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 47s", "remaining_time": "5h 20m 29s", "loss_scale": 1.0, "consumed_samples": 610560, "global_step/max_steps": "2385/6350"}
{"lm loss": 4.97400713, "grad_norm": 0.98986518, "learning_rate": 7.448e-05, "elapsed_time_per_iteration": 4.72252202, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 51s", "remaining_time": "5h 20m 24s", "loss_scale": 1.0, "consumed_samples": 610816, "global_step/max_steps": "2386/6350"}
{"lm loss": 4.96148491, "grad_norm": 0.88342845, "learning_rate": 7.446e-05, "elapsed_time_per_iteration": 4.67373991, "memory(GiB)": 28.03, "elapsed_time": "3h 12m 56s", "remaining_time": "5h 20m 19s", "loss_scale": 1.0, "consumed_samples": 611072, "global_step/max_steps": "2387/6350"}
{"lm loss": 4.96786976, "grad_norm": 1.18658829, "learning_rate": 7.443e-05, "elapsed_time_per_iteration": 4.71132302, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 1s", "remaining_time": "5h 20m 14s", "loss_scale": 1.0, "consumed_samples": 611328, "global_step/max_steps": "2388/6350"}
{"lm loss": 4.9726696, "grad_norm": 1.01816618, "learning_rate": 7.441e-05, "elapsed_time_per_iteration": 4.72562218, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 5s", "remaining_time": "5h 20m 9s", "loss_scale": 1.0, "consumed_samples": 611584, "global_step/max_steps": "2389/6350"}
{"lm loss": 4.98265886, "grad_norm": 1.24073815, "learning_rate": 7.439e-05, "elapsed_time_per_iteration": 5.18508267, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 11s", "remaining_time": "5h 20m 5s", "loss_scale": 1.0, "consumed_samples": 611840, "global_step/max_steps": "2390/6350"}
{"lm loss": 4.96707296, "grad_norm": 0.81739646, "learning_rate": 7.437e-05, "elapsed_time_per_iteration": 4.7185173, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 15s", "remaining_time": "5h 20m 0s", "loss_scale": 1.0, "consumed_samples": 612096, "global_step/max_steps": "2391/6350"}
{"lm loss": 4.97036839, "grad_norm": 0.71871579, "learning_rate": 7.434e-05, "elapsed_time_per_iteration": 4.65337086, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 20s", "remaining_time": "5h 19m 55s", "loss_scale": 1.0, "consumed_samples": 612352, "global_step/max_steps": "2392/6350"}
{"lm loss": 4.98366928, "grad_norm": 0.70745808, "learning_rate": 7.432e-05, "elapsed_time_per_iteration": 4.74825287, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 25s", "remaining_time": "5h 19m 50s", "loss_scale": 1.0, "consumed_samples": 612608, "global_step/max_steps": "2393/6350"}
{"lm loss": 4.95927334, "grad_norm": 0.86017329, "learning_rate": 7.43e-05, "elapsed_time_per_iteration": 4.99367142, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 30s", "remaining_time": "5h 19m 45s", "loss_scale": 1.0, "consumed_samples": 612864, "global_step/max_steps": "2394/6350"}
{"lm loss": 4.9551692, "grad_norm": 0.98288244, "learning_rate": 7.428e-05, "elapsed_time_per_iteration": 4.66461968, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 34s", "remaining_time": "5h 19m 40s", "loss_scale": 1.0, "consumed_samples": 613120, "global_step/max_steps": "2395/6350"}
{"lm loss": 4.97772503, "grad_norm": 1.47906828, "learning_rate": 7.426e-05, "elapsed_time_per_iteration": 4.6678493, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 39s", "remaining_time": "5h 19m 35s", "loss_scale": 1.0, "consumed_samples": 613376, "global_step/max_steps": "2396/6350"}
{"lm loss": 4.96969414, "grad_norm": 1.06953692, "learning_rate": 7.423e-05, "elapsed_time_per_iteration": 4.73839998, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 44s", "remaining_time": "5h 19m 30s", "loss_scale": 1.0, "consumed_samples": 613632, "global_step/max_steps": "2397/6350"}
{"lm loss": 4.95868731, "grad_norm": 0.82452142, "learning_rate": 7.421e-05, "elapsed_time_per_iteration": 4.65787053, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 48s", "remaining_time": "5h 19m 24s", "loss_scale": 1.0, "consumed_samples": 613888, "global_step/max_steps": "2398/6350"}
{"lm loss": 4.97663021, "grad_norm": 1.35610902, "learning_rate": 7.419e-05, "elapsed_time_per_iteration": 4.78152394, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 53s", "remaining_time": "5h 19m 20s", "loss_scale": 1.0, "consumed_samples": 614144, "global_step/max_steps": "2399/6350"}
{"lm loss": 4.99347687, "grad_norm": 1.09572327, "learning_rate": 7.417e-05, "elapsed_time_per_iteration": 4.75801539, "memory(GiB)": 28.03, "elapsed_time": "3h 13m 58s", "remaining_time": "5h 19m 15s", "loss_scale": 1.0, "consumed_samples": 614400, "global_step/max_steps": "2400/6350"}
{"lm loss": 4.99777317, "grad_norm": 1.09033203, "learning_rate": 7.414e-05, "elapsed_time_per_iteration": 4.7781527, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 3s", "remaining_time": "5h 19m 10s", "loss_scale": 1.0, "consumed_samples": 614656, "global_step/max_steps": "2401/6350"}
{"lm loss": 5.00234127, "grad_norm": 0.83473527, "learning_rate": 7.412e-05, "elapsed_time_per_iteration": 4.75199413, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 8s", "remaining_time": "5h 19m 5s", "loss_scale": 1.0, "consumed_samples": 614912, "global_step/max_steps": "2402/6350"}
{"lm loss": 4.97670698, "grad_norm": 0.82573485, "learning_rate": 7.41e-05, "elapsed_time_per_iteration": 4.74730659, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 12s", "remaining_time": "5h 19m 0s", "loss_scale": 1.0, "consumed_samples": 615168, "global_step/max_steps": "2403/6350"}
{"lm loss": 4.97944021, "grad_norm": 1.18179154, "learning_rate": 7.408e-05, "elapsed_time_per_iteration": 4.82581186, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 17s", "remaining_time": "5h 18m 55s", "loss_scale": 1.0, "consumed_samples": 615424, "global_step/max_steps": "2404/6350"}
{"lm loss": 4.98463917, "grad_norm": 1.01152086, "learning_rate": 7.405e-05, "elapsed_time_per_iteration": 5.34470129, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 22s", "remaining_time": "5h 18m 51s", "loss_scale": 1.0, "consumed_samples": 615680, "global_step/max_steps": "2405/6350"}
{"lm loss": 4.98722506, "grad_norm": 1.17609906, "learning_rate": 7.403e-05, "elapsed_time_per_iteration": 4.66862893, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 27s", "remaining_time": "5h 18m 45s", "loss_scale": 1.0, "consumed_samples": 615936, "global_step/max_steps": "2406/6350"}
{"lm loss": 4.98222589, "grad_norm": 0.83734387, "learning_rate": 7.401e-05, "elapsed_time_per_iteration": 4.77531099, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 32s", "remaining_time": "5h 18m 40s", "loss_scale": 1.0, "consumed_samples": 616192, "global_step/max_steps": "2407/6350"}
{"lm loss": 4.99762297, "grad_norm": 0.77797282, "learning_rate": 7.399e-05, "elapsed_time_per_iteration": 4.67780495, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 37s", "remaining_time": "5h 18m 35s", "loss_scale": 1.0, "consumed_samples": 616448, "global_step/max_steps": "2408/6350"}
{"lm loss": 4.97586536, "grad_norm": 0.71851695, "learning_rate": 7.396e-05, "elapsed_time_per_iteration": 4.70027184, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 41s", "remaining_time": "5h 18m 30s", "loss_scale": 1.0, "consumed_samples": 616704, "global_step/max_steps": "2409/6350"}
{"lm loss": 4.96745586, "grad_norm": 0.68607289, "learning_rate": 7.394e-05, "elapsed_time_per_iteration": 5.41638374, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 47s", "remaining_time": "5h 18m 26s", "loss_scale": 1.0, "consumed_samples": 616960, "global_step/max_steps": "2410/6350"}
{"lm loss": 4.98359346, "grad_norm": 0.78353751, "learning_rate": 7.392e-05, "elapsed_time_per_iteration": 4.73646402, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 51s", "remaining_time": "5h 18m 21s", "loss_scale": 1.0, "consumed_samples": 617216, "global_step/max_steps": "2411/6350"}
{"lm loss": 4.98271704, "grad_norm": 0.94184726, "learning_rate": 7.39e-05, "elapsed_time_per_iteration": 4.9624486, "memory(GiB)": 28.03, "elapsed_time": "3h 14m 56s", "remaining_time": "5h 18m 17s", "loss_scale": 1.0, "consumed_samples": 617472, "global_step/max_steps": "2412/6350"}
{"lm loss": 4.96556377, "grad_norm": 1.26765215, "learning_rate": 7.388e-05, "elapsed_time_per_iteration": 4.77689195, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 1s", "remaining_time": "5h 18m 12s", "loss_scale": 1.0, "consumed_samples": 617728, "global_step/max_steps": "2413/6350"}
{"lm loss": 4.98066902, "grad_norm": 0.96790111, "learning_rate": 7.385e-05, "elapsed_time_per_iteration": 4.69263721, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 6s", "remaining_time": "5h 18m 7s", "loss_scale": 1.0, "consumed_samples": 617984, "global_step/max_steps": "2414/6350"}
{"lm loss": 4.97083569, "grad_norm": 1.04717255, "learning_rate": 7.383e-05, "elapsed_time_per_iteration": 4.69778562, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 11s", "remaining_time": "5h 18m 1s", "loss_scale": 1.0, "consumed_samples": 618240, "global_step/max_steps": "2415/6350"}
{"lm loss": 4.99989891, "grad_norm": 0.937684, "learning_rate": 7.381e-05, "elapsed_time_per_iteration": 4.61706185, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 15s", "remaining_time": "5h 17m 56s", "loss_scale": 1.0, "consumed_samples": 618496, "global_step/max_steps": "2416/6350"}
{"lm loss": 4.99592781, "grad_norm": 0.79566622, "learning_rate": 7.379e-05, "elapsed_time_per_iteration": 4.64675403, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 20s", "remaining_time": "5h 17m 51s", "loss_scale": 1.0, "consumed_samples": 618752, "global_step/max_steps": "2417/6350"}
{"lm loss": 4.97487354, "grad_norm": 0.92517668, "learning_rate": 7.376e-05, "elapsed_time_per_iteration": 4.60304213, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 24s", "remaining_time": "5h 17m 46s", "loss_scale": 1.0, "consumed_samples": 619008, "global_step/max_steps": "2418/6350"}
{"lm loss": 4.96656466, "grad_norm": 1.00582349, "learning_rate": 7.374e-05, "elapsed_time_per_iteration": 4.68006396, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 29s", "remaining_time": "5h 17m 41s", "loss_scale": 1.0, "consumed_samples": 619264, "global_step/max_steps": "2419/6350"}
{"lm loss": 4.94333935, "grad_norm": 0.77834976, "learning_rate": 7.372e-05, "elapsed_time_per_iteration": 4.77697301, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 34s", "remaining_time": "5h 17m 36s", "loss_scale": 1.0, "consumed_samples": 619520, "global_step/max_steps": "2420/6350"}
{"lm loss": 4.9847517, "grad_norm": 0.74444461, "learning_rate": 7.37e-05, "elapsed_time_per_iteration": 4.85104966, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 39s", "remaining_time": "5h 17m 31s", "loss_scale": 1.0, "consumed_samples": 619776, "global_step/max_steps": "2421/6350"}
{"lm loss": 4.99559879, "grad_norm": 1.01857626, "learning_rate": 7.367e-05, "elapsed_time_per_iteration": 4.68570542, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 43s", "remaining_time": "5h 17m 26s", "loss_scale": 1.0, "consumed_samples": 620032, "global_step/max_steps": "2422/6350"}
{"lm loss": 4.96562099, "grad_norm": 1.30872953, "learning_rate": 7.365e-05, "elapsed_time_per_iteration": 4.66928792, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 48s", "remaining_time": "5h 17m 21s", "loss_scale": 1.0, "consumed_samples": 620288, "global_step/max_steps": "2423/6350"}
{"lm loss": 4.97442532, "grad_norm": 2.12659192, "learning_rate": 7.363e-05, "elapsed_time_per_iteration": 4.62204552, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 53s", "remaining_time": "5h 17m 15s", "loss_scale": 1.0, "consumed_samples": 620544, "global_step/max_steps": "2424/6350"}
{"lm loss": 4.98013306, "grad_norm": 1.23167002, "learning_rate": 7.361e-05, "elapsed_time_per_iteration": 4.66680431, "memory(GiB)": 28.03, "elapsed_time": "3h 15m 57s", "remaining_time": "5h 17m 10s", "loss_scale": 1.0, "consumed_samples": 620800, "global_step/max_steps": "2425/6350"}
{"lm loss": 4.97010231, "grad_norm": 1.91793454, "learning_rate": 7.358e-05, "elapsed_time_per_iteration": 4.63644481, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 2s", "remaining_time": "5h 17m 5s", "loss_scale": 1.0, "consumed_samples": 621056, "global_step/max_steps": "2426/6350"}
{"lm loss": 4.99493837, "grad_norm": 4.45846605, "learning_rate": 7.356e-05, "elapsed_time_per_iteration": 5.62148428, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 8s", "remaining_time": "5h 17m 1s", "loss_scale": 1.0, "consumed_samples": 621312, "global_step/max_steps": "2427/6350"}
{"lm loss": 4.97399569, "grad_norm": 1.18437934, "learning_rate": 7.354e-05, "elapsed_time_per_iteration": 4.69144011, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 12s", "remaining_time": "5h 16m 56s", "loss_scale": 1.0, "consumed_samples": 621568, "global_step/max_steps": "2428/6350"}
{"lm loss": 4.98978662, "grad_norm": 1.22312832, "learning_rate": 7.352e-05, "elapsed_time_per_iteration": 4.68273449, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 17s", "remaining_time": "5h 16m 51s", "loss_scale": 1.0, "consumed_samples": 621824, "global_step/max_steps": "2429/6350"}
{"lm loss": 4.9856019, "grad_norm": 1.27525985, "learning_rate": 7.349e-05, "elapsed_time_per_iteration": 4.68791938, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 22s", "remaining_time": "5h 16m 46s", "loss_scale": 1.0, "consumed_samples": 622080, "global_step/max_steps": "2430/6350"}
{"lm loss": 4.99171734, "grad_norm": 0.6876809, "learning_rate": 7.347e-05, "elapsed_time_per_iteration": 4.58904624, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 26s", "remaining_time": "5h 16m 41s", "loss_scale": 1.0, "consumed_samples": 622336, "global_step/max_steps": "2431/6350"}
{"lm loss": 4.96410275, "grad_norm": 1.13669682, "learning_rate": 7.345e-05, "elapsed_time_per_iteration": 4.71490097, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 31s", "remaining_time": "5h 16m 36s", "loss_scale": 1.0, "consumed_samples": 622592, "global_step/max_steps": "2432/6350"}
{"lm loss": 4.96568251, "grad_norm": 1.16008258, "learning_rate": 7.343e-05, "elapsed_time_per_iteration": 4.73623204, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 36s", "remaining_time": "5h 16m 31s", "loss_scale": 1.0, "consumed_samples": 622848, "global_step/max_steps": "2433/6350"}
{"lm loss": 4.96959257, "grad_norm": 1.04926372, "learning_rate": 7.34e-05, "elapsed_time_per_iteration": 4.76833653, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 40s", "remaining_time": "5h 16m 26s", "loss_scale": 1.0, "consumed_samples": 623104, "global_step/max_steps": "2434/6350"}
{"lm loss": 4.96080351, "grad_norm": 0.98738652, "learning_rate": 7.338e-05, "elapsed_time_per_iteration": 4.72327161, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 45s", "remaining_time": "5h 16m 21s", "loss_scale": 1.0, "consumed_samples": 623360, "global_step/max_steps": "2435/6350"}
{"lm loss": 4.98279572, "grad_norm": 1.03469455, "learning_rate": 7.336e-05, "elapsed_time_per_iteration": 5.48054171, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 51s", "remaining_time": "5h 16m 17s", "loss_scale": 1.0, "consumed_samples": 623616, "global_step/max_steps": "2436/6350"}
{"lm loss": 4.98044109, "grad_norm": 1.16754031, "learning_rate": 7.334e-05, "elapsed_time_per_iteration": 4.69951272, "memory(GiB)": 28.03, "elapsed_time": "3h 16m 55s", "remaining_time": "5h 16m 12s", "loss_scale": 1.0, "consumed_samples": 623872, "global_step/max_steps": "2437/6350"}
{"lm loss": 4.9717679, "grad_norm": 0.87661844, "learning_rate": 7.331e-05, "elapsed_time_per_iteration": 4.64959025, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 0s", "remaining_time": "5h 16m 7s", "loss_scale": 1.0, "consumed_samples": 624128, "global_step/max_steps": "2438/6350"}
{"lm loss": 4.97826624, "grad_norm": 0.77699924, "learning_rate": 7.329e-05, "elapsed_time_per_iteration": 4.78841066, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 5s", "remaining_time": "5h 16m 2s", "loss_scale": 1.0, "consumed_samples": 624384, "global_step/max_steps": "2439/6350"}
{"lm loss": 4.9789505, "grad_norm": 0.85848224, "learning_rate": 7.327e-05, "elapsed_time_per_iteration": 4.80507565, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 10s", "remaining_time": "5h 15m 57s", "loss_scale": 1.0, "consumed_samples": 624640, "global_step/max_steps": "2440/6350"}
{"lm loss": 4.98672199, "grad_norm": 1.06056249, "learning_rate": 7.325e-05, "elapsed_time_per_iteration": 4.69766426, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 14s", "remaining_time": "5h 15m 52s", "loss_scale": 1.0, "consumed_samples": 624896, "global_step/max_steps": "2441/6350"}
{"lm loss": 4.96671534, "grad_norm": 1.01014078, "learning_rate": 7.322e-05, "elapsed_time_per_iteration": 5.01415038, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 19s", "remaining_time": "5h 15m 47s", "loss_scale": 1.0, "consumed_samples": 625152, "global_step/max_steps": "2442/6350"}
{"lm loss": 4.98344231, "grad_norm": 1.08316827, "learning_rate": 7.32e-05, "elapsed_time_per_iteration": 4.73982024, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 24s", "remaining_time": "5h 15m 42s", "loss_scale": 1.0, "consumed_samples": 625408, "global_step/max_steps": "2443/6350"}
{"lm loss": 4.95563316, "grad_norm": 0.98649198, "learning_rate": 7.318e-05, "elapsed_time_per_iteration": 4.66275692, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 29s", "remaining_time": "5h 15m 37s", "loss_scale": 1.0, "consumed_samples": 625664, "global_step/max_steps": "2444/6350"}
{"lm loss": 4.98226213, "grad_norm": 0.97860503, "learning_rate": 7.315e-05, "elapsed_time_per_iteration": 4.81244826, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 34s", "remaining_time": "5h 15m 32s", "loss_scale": 1.0, "consumed_samples": 625920, "global_step/max_steps": "2445/6350"}
{"lm loss": 4.96713924, "grad_norm": 1.05372274, "learning_rate": 7.313e-05, "elapsed_time_per_iteration": 4.77710009, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 38s", "remaining_time": "5h 15m 27s", "loss_scale": 1.0, "consumed_samples": 626176, "global_step/max_steps": "2446/6350"}
{"lm loss": 4.97307825, "grad_norm": 1.09230673, "learning_rate": 7.311e-05, "elapsed_time_per_iteration": 4.72749424, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 43s", "remaining_time": "5h 15m 22s", "loss_scale": 1.0, "consumed_samples": 626432, "global_step/max_steps": "2447/6350"}
{"lm loss": 4.97864628, "grad_norm": 0.89123851, "learning_rate": 7.309e-05, "elapsed_time_per_iteration": 5.60759687, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 49s", "remaining_time": "5h 15m 18s", "loss_scale": 1.0, "consumed_samples": 626688, "global_step/max_steps": "2448/6350"}
{"lm loss": 4.97237539, "grad_norm": 0.78673339, "learning_rate": 7.306e-05, "elapsed_time_per_iteration": 4.68919492, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 53s", "remaining_time": "5h 15m 13s", "loss_scale": 1.0, "consumed_samples": 626944, "global_step/max_steps": "2449/6350"}
{"lm loss": 4.98716545, "grad_norm": 0.80706376, "learning_rate": 7.304e-05, "elapsed_time_per_iteration": 4.71914124, "memory(GiB)": 28.03, "elapsed_time": "3h 17m 58s", "remaining_time": "5h 15m 8s", "loss_scale": 1.0, "consumed_samples": 627200, "global_step/max_steps": "2450/6350"}
{"lm loss": 4.95598507, "grad_norm": 0.73948085, "learning_rate": 7.302e-05, "elapsed_time_per_iteration": 4.69125175, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 3s", "remaining_time": "5h 15m 3s", "loss_scale": 1.0, "consumed_samples": 627456, "global_step/max_steps": "2451/6350"}
{"lm loss": 4.95996714, "grad_norm": 0.78110349, "learning_rate": 7.3e-05, "elapsed_time_per_iteration": 4.73602986, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 8s", "remaining_time": "5h 14m 58s", "loss_scale": 1.0, "consumed_samples": 627712, "global_step/max_steps": "2452/6350"}
{"lm loss": 4.96581125, "grad_norm": 1.06221867, "learning_rate": 7.297e-05, "elapsed_time_per_iteration": 4.87488961, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 12s", "remaining_time": "5h 14m 53s", "loss_scale": 1.0, "consumed_samples": 627968, "global_step/max_steps": "2453/6350"}
{"lm loss": 4.98010778, "grad_norm": 1.12612033, "learning_rate": 7.295e-05, "elapsed_time_per_iteration": 4.89305758, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 17s", "remaining_time": "5h 14m 49s", "loss_scale": 1.0, "consumed_samples": 628224, "global_step/max_steps": "2454/6350"}
{"lm loss": 4.98654556, "grad_norm": 1.04136288, "learning_rate": 7.293e-05, "elapsed_time_per_iteration": 4.7161324, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 22s", "remaining_time": "5h 14m 44s", "loss_scale": 1.0, "consumed_samples": 628480, "global_step/max_steps": "2455/6350"}
{"lm loss": 4.96147776, "grad_norm": 0.94268101, "learning_rate": 7.291e-05, "elapsed_time_per_iteration": 4.66936564, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 27s", "remaining_time": "5h 14m 38s", "loss_scale": 1.0, "consumed_samples": 628736, "global_step/max_steps": "2456/6350"}
{"lm loss": 4.97334576, "grad_norm": 0.7926029, "learning_rate": 7.288e-05, "elapsed_time_per_iteration": 4.70348167, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 31s", "remaining_time": "5h 14m 33s", "loss_scale": 1.0, "consumed_samples": 628992, "global_step/max_steps": "2457/6350"}
{"lm loss": 4.9743886, "grad_norm": 0.82294273, "learning_rate": 7.286e-05, "elapsed_time_per_iteration": 4.7183001, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 36s", "remaining_time": "5h 14m 28s", "loss_scale": 1.0, "consumed_samples": 629248, "global_step/max_steps": "2458/6350"}
{"lm loss": 4.97449255, "grad_norm": 0.77314299, "learning_rate": 7.284e-05, "elapsed_time_per_iteration": 4.71155691, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 41s", "remaining_time": "5h 14m 23s", "loss_scale": 1.0, "consumed_samples": 629504, "global_step/max_steps": "2459/6350"}
{"lm loss": 4.98510981, "grad_norm": 1.03937161, "learning_rate": 7.282e-05, "elapsed_time_per_iteration": 4.80653191, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 46s", "remaining_time": "5h 14m 18s", "loss_scale": 1.0, "consumed_samples": 629760, "global_step/max_steps": "2460/6350"}
{"lm loss": 4.99042559, "grad_norm": 1.10298848, "learning_rate": 7.279e-05, "elapsed_time_per_iteration": 4.67919922, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 50s", "remaining_time": "5h 14m 13s", "loss_scale": 1.0, "consumed_samples": 630016, "global_step/max_steps": "2461/6350"}
{"lm loss": 4.98312902, "grad_norm": 0.84737164, "learning_rate": 7.277e-05, "elapsed_time_per_iteration": 4.69183469, "memory(GiB)": 28.03, "elapsed_time": "3h 18m 55s", "remaining_time": "5h 14m 8s", "loss_scale": 1.0, "consumed_samples": 630272, "global_step/max_steps": "2462/6350"}
{"lm loss": 4.98502493, "grad_norm": 0.76421744, "learning_rate": 7.275e-05, "elapsed_time_per_iteration": 4.66552448, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 0s", "remaining_time": "5h 14m 3s", "loss_scale": 1.0, "consumed_samples": 630528, "global_step/max_steps": "2463/6350"}
{"lm loss": 4.98900366, "grad_norm": 0.65168095, "learning_rate": 7.272e-05, "elapsed_time_per_iteration": 5.53767085, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 5s", "remaining_time": "5h 13m 59s", "loss_scale": 1.0, "consumed_samples": 630784, "global_step/max_steps": "2464/6350"}
{"lm loss": 4.96726274, "grad_norm": 0.59362441, "learning_rate": 7.27e-05, "elapsed_time_per_iteration": 4.73932147, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 10s", "remaining_time": "5h 13m 54s", "loss_scale": 1.0, "consumed_samples": 631040, "global_step/max_steps": "2465/6350"}
{"lm loss": 4.98268604, "grad_norm": 0.72161871, "learning_rate": 7.268e-05, "elapsed_time_per_iteration": 4.74154305, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 15s", "remaining_time": "5h 13m 49s", "loss_scale": 1.0, "consumed_samples": 631296, "global_step/max_steps": "2466/6350"}
{"lm loss": 5.0024724, "grad_norm": 0.72176296, "learning_rate": 7.266e-05, "elapsed_time_per_iteration": 4.66600776, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 19s", "remaining_time": "5h 13m 44s", "loss_scale": 1.0, "consumed_samples": 631552, "global_step/max_steps": "2467/6350"}
{"lm loss": 4.96634436, "grad_norm": 0.81755054, "learning_rate": 7.263e-05, "elapsed_time_per_iteration": 4.69581652, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 24s", "remaining_time": "5h 13m 39s", "loss_scale": 1.0, "consumed_samples": 631808, "global_step/max_steps": "2468/6350"}
{"lm loss": 4.9740653, "grad_norm": 0.88085425, "learning_rate": 7.261e-05, "elapsed_time_per_iteration": 4.61991453, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 29s", "remaining_time": "5h 13m 34s", "loss_scale": 1.0, "consumed_samples": 632064, "global_step/max_steps": "2469/6350"}
{"lm loss": 4.98579502, "grad_norm": 1.02643645, "learning_rate": 7.259e-05, "elapsed_time_per_iteration": 4.76059389, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 33s", "remaining_time": "5h 13m 29s", "loss_scale": 1.0, "consumed_samples": 632320, "global_step/max_steps": "2470/6350"}
{"lm loss": 4.95244741, "grad_norm": 1.06533945, "learning_rate": 7.257e-05, "elapsed_time_per_iteration": 4.71343327, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 38s", "remaining_time": "5h 13m 24s", "loss_scale": 1.0, "consumed_samples": 632576, "global_step/max_steps": "2471/6350"}
{"lm loss": 4.95497751, "grad_norm": 1.27006197, "learning_rate": 7.254e-05, "elapsed_time_per_iteration": 5.09902382, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 43s", "remaining_time": "5h 13m 19s", "loss_scale": 1.0, "consumed_samples": 632832, "global_step/max_steps": "2472/6350"}
{"lm loss": 4.98804569, "grad_norm": 1.00499523, "learning_rate": 7.252e-05, "elapsed_time_per_iteration": 5.24947739, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 48s", "remaining_time": "5h 13m 15s", "loss_scale": 1.0, "consumed_samples": 633088, "global_step/max_steps": "2473/6350"}
{"lm loss": 4.96158648, "grad_norm": 1.03311229, "learning_rate": 7.25e-05, "elapsed_time_per_iteration": 4.73510861, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 53s", "remaining_time": "5h 13m 10s", "loss_scale": 1.0, "consumed_samples": 633344, "global_step/max_steps": "2474/6350"}
{"lm loss": 4.97041368, "grad_norm": 0.9839229, "learning_rate": 7.247e-05, "elapsed_time_per_iteration": 4.65961766, "memory(GiB)": 28.03, "elapsed_time": "3h 19m 58s", "remaining_time": "5h 13m 5s", "loss_scale": 1.0, "consumed_samples": 633600, "global_step/max_steps": "2475/6350"}
{"lm loss": 4.9955039, "grad_norm": 0.76276243, "learning_rate": 7.245e-05, "elapsed_time_per_iteration": 4.65291953, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 3s", "remaining_time": "5h 13m 0s", "loss_scale": 1.0, "consumed_samples": 633856, "global_step/max_steps": "2476/6350"}
{"lm loss": 4.97466898, "grad_norm": 0.62124819, "learning_rate": 7.243e-05, "elapsed_time_per_iteration": 4.83738232, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 7s", "remaining_time": "5h 12m 55s", "loss_scale": 1.0, "consumed_samples": 634112, "global_step/max_steps": "2477/6350"}
{"lm loss": 4.99898815, "grad_norm": 0.72188711, "learning_rate": 7.241e-05, "elapsed_time_per_iteration": 4.68682003, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 12s", "remaining_time": "5h 12m 50s", "loss_scale": 1.0, "consumed_samples": 634368, "global_step/max_steps": "2478/6350"}
{"lm loss": 4.95921564, "grad_norm": 0.70644659, "learning_rate": 7.238e-05, "elapsed_time_per_iteration": 4.78356194, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 17s", "remaining_time": "5h 12m 45s", "loss_scale": 1.0, "consumed_samples": 634624, "global_step/max_steps": "2479/6350"}
{"lm loss": 4.97966576, "grad_norm": 0.65597421, "learning_rate": 7.236e-05, "elapsed_time_per_iteration": 4.66280127, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 21s", "remaining_time": "5h 12m 40s", "loss_scale": 1.0, "consumed_samples": 634880, "global_step/max_steps": "2480/6350"}
{"lm loss": 4.97093105, "grad_norm": 0.65156454, "learning_rate": 7.234e-05, "elapsed_time_per_iteration": 5.44253778, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 27s", "remaining_time": "5h 12m 36s", "loss_scale": 1.0, "consumed_samples": 635136, "global_step/max_steps": "2481/6350"}
{"lm loss": 4.98409605, "grad_norm": 0.87782145, "learning_rate": 7.231e-05, "elapsed_time_per_iteration": 5.44756436, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 32s", "remaining_time": "5h 12m 32s", "loss_scale": 1.0, "consumed_samples": 635392, "global_step/max_steps": "2482/6350"}
{"lm loss": 4.99352026, "grad_norm": 0.91309887, "learning_rate": 7.229e-05, "elapsed_time_per_iteration": 4.73236132, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 37s", "remaining_time": "5h 12m 27s", "loss_scale": 1.0, "consumed_samples": 635648, "global_step/max_steps": "2483/6350"}
{"lm loss": 4.98478985, "grad_norm": 1.11312222, "learning_rate": 7.227e-05, "elapsed_time_per_iteration": 4.721488, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 42s", "remaining_time": "5h 12m 22s", "loss_scale": 1.0, "consumed_samples": 635904, "global_step/max_steps": "2484/6350"}
{"lm loss": 4.97135639, "grad_norm": 1.19375539, "learning_rate": 7.225e-05, "elapsed_time_per_iteration": 4.79754424, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 47s", "remaining_time": "5h 12m 17s", "loss_scale": 1.0, "consumed_samples": 636160, "global_step/max_steps": "2485/6350"}
{"lm loss": 4.96380472, "grad_norm": 1.03093481, "learning_rate": 7.222e-05, "elapsed_time_per_iteration": 4.69549537, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 51s", "remaining_time": "5h 12m 12s", "loss_scale": 1.0, "consumed_samples": 636416, "global_step/max_steps": "2486/6350"}
{"lm loss": 4.96393824, "grad_norm": 1.04322219, "learning_rate": 7.22e-05, "elapsed_time_per_iteration": 5.50893188, "memory(GiB)": 28.03, "elapsed_time": "3h 20m 57s", "remaining_time": "5h 12m 8s", "loss_scale": 1.0, "consumed_samples": 636672, "global_step/max_steps": "2487/6350"}
{"lm loss": 4.96633148, "grad_norm": 0.97450507, "learning_rate": 7.218e-05, "elapsed_time_per_iteration": 4.78514886, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 2s", "remaining_time": "5h 12m 3s", "loss_scale": 1.0, "consumed_samples": 636928, "global_step/max_steps": "2488/6350"}
{"lm loss": 4.954144, "grad_norm": 0.8168928, "learning_rate": 7.215e-05, "elapsed_time_per_iteration": 4.69285321, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 6s", "remaining_time": "5h 11m 58s", "loss_scale": 1.0, "consumed_samples": 637184, "global_step/max_steps": "2489/6350"}
{"lm loss": 4.97367764, "grad_norm": 0.78261256, "learning_rate": 7.213e-05, "elapsed_time_per_iteration": 4.70123196, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 11s", "remaining_time": "5h 11m 53s", "loss_scale": 1.0, "consumed_samples": 637440, "global_step/max_steps": "2490/6350"}
{"lm loss": 4.96689034, "grad_norm": 1.08518589, "learning_rate": 7.211e-05, "elapsed_time_per_iteration": 4.70017648, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 16s", "remaining_time": "5h 11m 48s", "loss_scale": 1.0, "consumed_samples": 637696, "global_step/max_steps": "2491/6350"}
{"lm loss": 5.00089025, "grad_norm": 1.10805142, "learning_rate": 7.209e-05, "elapsed_time_per_iteration": 4.68705177, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 20s", "remaining_time": "5h 11m 43s", "loss_scale": 1.0, "consumed_samples": 637952, "global_step/max_steps": "2492/6350"}
{"lm loss": 4.97509766, "grad_norm": 0.94840491, "learning_rate": 7.206e-05, "elapsed_time_per_iteration": 5.31216645, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 26s", "remaining_time": "5h 11m 38s", "loss_scale": 1.0, "consumed_samples": 638208, "global_step/max_steps": "2493/6350"}
{"lm loss": 4.95788383, "grad_norm": 1.32810295, "learning_rate": 7.204e-05, "elapsed_time_per_iteration": 4.71296597, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 30s", "remaining_time": "5h 11m 33s", "loss_scale": 1.0, "consumed_samples": 638464, "global_step/max_steps": "2494/6350"}
{"lm loss": 4.95979118, "grad_norm": 0.72057831, "learning_rate": 7.202e-05, "elapsed_time_per_iteration": 4.74374104, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 35s", "remaining_time": "5h 11m 28s", "loss_scale": 1.0, "consumed_samples": 638720, "global_step/max_steps": "2495/6350"}
{"lm loss": 4.96956301, "grad_norm": 0.9894461, "learning_rate": 7.199e-05, "elapsed_time_per_iteration": 4.7918961, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 40s", "remaining_time": "5h 11m 23s", "loss_scale": 1.0, "consumed_samples": 638976, "global_step/max_steps": "2496/6350"}
{"lm loss": 4.99700832, "grad_norm": 0.98880714, "learning_rate": 7.197e-05, "elapsed_time_per_iteration": 4.77353358, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 45s", "remaining_time": "5h 11m 18s", "loss_scale": 1.0, "consumed_samples": 639232, "global_step/max_steps": "2497/6350"}
{"lm loss": 4.99148846, "grad_norm": 1.09468925, "learning_rate": 7.195e-05, "elapsed_time_per_iteration": 4.71550989, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 49s", "remaining_time": "5h 11m 13s", "loss_scale": 1.0, "consumed_samples": 639488, "global_step/max_steps": "2498/6350"}
{"lm loss": 4.98395061, "grad_norm": 1.04309022, "learning_rate": 7.193e-05, "elapsed_time_per_iteration": 4.76304674, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 54s", "remaining_time": "5h 11m 8s", "loss_scale": 1.0, "consumed_samples": 639744, "global_step/max_steps": "2499/6350"}
{"lm loss": 4.97483158, "grad_norm": 0.91081095, "learning_rate": 7.19e-05, "elapsed_time_per_iteration": 4.76022506, "memory(GiB)": 28.03, "elapsed_time": "3h 21m 59s", "remaining_time": "5h 11m 3s", "loss_scale": 1.0, "consumed_samples": 640000, "global_step/max_steps": "2500/6350"}
{"lm loss": 4.96612644, "grad_norm": 0.86293787, "learning_rate": 7.188e-05, "elapsed_time_per_iteration": 5.60334945, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 5s", "remaining_time": "5h 11m 0s", "loss_scale": 1.0, "consumed_samples": 640256, "global_step/max_steps": "2501/6350"}
{"lm loss": 4.96382332, "grad_norm": 0.82049304, "learning_rate": 7.186e-05, "elapsed_time_per_iteration": 4.69719315, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 9s", "remaining_time": "5h 10m 55s", "loss_scale": 1.0, "consumed_samples": 640512, "global_step/max_steps": "2502/6350"}
{"lm loss": 4.96994066, "grad_norm": 0.79899794, "learning_rate": 7.183e-05, "elapsed_time_per_iteration": 4.69535542, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 14s", "remaining_time": "5h 10m 50s", "loss_scale": 1.0, "consumed_samples": 640768, "global_step/max_steps": "2503/6350"}
{"lm loss": 4.97134972, "grad_norm": 0.6974659, "learning_rate": 7.181e-05, "elapsed_time_per_iteration": 4.75760722, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 19s", "remaining_time": "5h 10m 45s", "loss_scale": 1.0, "consumed_samples": 641024, "global_step/max_steps": "2504/6350"}
{"lm loss": 4.97311354, "grad_norm": 0.60726529, "learning_rate": 7.179e-05, "elapsed_time_per_iteration": 4.73131752, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 23s", "remaining_time": "5h 10m 40s", "loss_scale": 1.0, "consumed_samples": 641280, "global_step/max_steps": "2505/6350"}
{"lm loss": 4.98073673, "grad_norm": 0.74464345, "learning_rate": 7.177e-05, "elapsed_time_per_iteration": 4.68626165, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 28s", "remaining_time": "5h 10m 35s", "loss_scale": 1.0, "consumed_samples": 641536, "global_step/max_steps": "2506/6350"}
{"lm loss": 5.00271511, "grad_norm": 0.69273555, "learning_rate": 7.174e-05, "elapsed_time_per_iteration": 4.68092775, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 33s", "remaining_time": "5h 10m 29s", "loss_scale": 1.0, "consumed_samples": 641792, "global_step/max_steps": "2507/6350"}
{"lm loss": 4.97755861, "grad_norm": 0.68549621, "learning_rate": 7.172e-05, "elapsed_time_per_iteration": 4.74358964, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 38s", "remaining_time": "5h 10m 24s", "loss_scale": 1.0, "consumed_samples": 642048, "global_step/max_steps": "2508/6350"}
{"lm loss": 4.98293352, "grad_norm": 0.65268797, "learning_rate": 7.17e-05, "elapsed_time_per_iteration": 4.66369748, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 42s", "remaining_time": "5h 10m 19s", "loss_scale": 1.0, "consumed_samples": 642304, "global_step/max_steps": "2509/6350"}
{"lm loss": 4.95997715, "grad_norm": 0.76987827, "learning_rate": 7.167e-05, "elapsed_time_per_iteration": 4.71245933, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 47s", "remaining_time": "5h 10m 14s", "loss_scale": 1.0, "consumed_samples": 642560, "global_step/max_steps": "2510/6350"}
{"lm loss": 4.98177147, "grad_norm": 1.00781918, "learning_rate": 7.165e-05, "elapsed_time_per_iteration": 4.70042467, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 52s", "remaining_time": "5h 10m 9s", "loss_scale": 1.0, "consumed_samples": 642816, "global_step/max_steps": "2511/6350"}
{"lm loss": 4.99808025, "grad_norm": 1.71568882, "learning_rate": 7.163e-05, "elapsed_time_per_iteration": 4.83777404, "memory(GiB)": 28.03, "elapsed_time": "3h 22m 56s", "remaining_time": "5h 10m 4s", "loss_scale": 1.0, "consumed_samples": 643072, "global_step/max_steps": "2512/6350"}
{"lm loss": 4.96151924, "grad_norm": 0.7190941, "learning_rate": 7.16e-05, "elapsed_time_per_iteration": 4.77260971, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 1s", "remaining_time": "5h 9m 59s", "loss_scale": 1.0, "consumed_samples": 643328, "global_step/max_steps": "2513/6350"}
{"lm loss": 4.9838438, "grad_norm": 1.5067296, "learning_rate": 7.158e-05, "elapsed_time_per_iteration": 4.77709341, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 6s", "remaining_time": "5h 9m 54s", "loss_scale": 1.0, "consumed_samples": 643584, "global_step/max_steps": "2514/6350"}
{"lm loss": 4.95877409, "grad_norm": 0.96526587, "learning_rate": 7.156e-05, "elapsed_time_per_iteration": 4.73439598, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 11s", "remaining_time": "5h 9m 49s", "loss_scale": 1.0, "consumed_samples": 643840, "global_step/max_steps": "2515/6350"}
{"lm loss": 4.95670128, "grad_norm": 1.09299731, "learning_rate": 7.154e-05, "elapsed_time_per_iteration": 5.92393517, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 17s", "remaining_time": "5h 9m 46s", "loss_scale": 1.0, "consumed_samples": 644096, "global_step/max_steps": "2516/6350"}
{"lm loss": 4.95940304, "grad_norm": 1.05206478, "learning_rate": 7.151e-05, "elapsed_time_per_iteration": 4.85047841, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 22s", "remaining_time": "5h 9m 41s", "loss_scale": 1.0, "consumed_samples": 644352, "global_step/max_steps": "2517/6350"}
{"lm loss": 4.95448399, "grad_norm": 1.03701293, "learning_rate": 7.149e-05, "elapsed_time_per_iteration": 4.72086525, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 26s", "remaining_time": "5h 9m 36s", "loss_scale": 1.0, "consumed_samples": 644608, "global_step/max_steps": "2518/6350"}
{"lm loss": 4.96722174, "grad_norm": 1.12985039, "learning_rate": 7.147e-05, "elapsed_time_per_iteration": 4.80839705, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 31s", "remaining_time": "5h 9m 31s", "loss_scale": 1.0, "consumed_samples": 644864, "global_step/max_steps": "2519/6350"}
{"lm loss": 4.96316624, "grad_norm": 0.8522917, "learning_rate": 7.144e-05, "elapsed_time_per_iteration": 4.77560258, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 36s", "remaining_time": "5h 9m 26s", "loss_scale": 1.0, "consumed_samples": 645120, "global_step/max_steps": "2520/6350"}
{"lm loss": 4.97260141, "grad_norm": 0.77380162, "learning_rate": 7.142e-05, "elapsed_time_per_iteration": 4.87740469, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 41s", "remaining_time": "5h 9m 22s", "loss_scale": 1.0, "consumed_samples": 645376, "global_step/max_steps": "2521/6350"}
{"lm loss": 4.97941923, "grad_norm": 0.76597208, "learning_rate": 7.14e-05, "elapsed_time_per_iteration": 4.81287503, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 46s", "remaining_time": "5h 9m 17s", "loss_scale": 1.0, "consumed_samples": 645632, "global_step/max_steps": "2522/6350"}
{"lm loss": 4.9802537, "grad_norm": 0.83255446, "learning_rate": 7.137e-05, "elapsed_time_per_iteration": 4.78210807, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 50s", "remaining_time": "5h 9m 12s", "loss_scale": 1.0, "consumed_samples": 645888, "global_step/max_steps": "2523/6350"}
{"lm loss": 4.97040319, "grad_norm": 0.7221536, "learning_rate": 7.135e-05, "elapsed_time_per_iteration": 4.80717611, "memory(GiB)": 28.03, "elapsed_time": "3h 23m 55s", "remaining_time": "5h 9m 7s", "loss_scale": 1.0, "consumed_samples": 646144, "global_step/max_steps": "2524/6350"}
{"lm loss": 4.95953083, "grad_norm": 0.76997596, "learning_rate": 7.133e-05, "elapsed_time_per_iteration": 4.70721197, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 0s", "remaining_time": "5h 9m 2s", "loss_scale": 1.0, "consumed_samples": 646400, "global_step/max_steps": "2525/6350"}
{"lm loss": 4.97728014, "grad_norm": 0.66029924, "learning_rate": 7.131e-05, "elapsed_time_per_iteration": 4.78583288, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 5s", "remaining_time": "5h 8m 57s", "loss_scale": 1.0, "consumed_samples": 646656, "global_step/max_steps": "2526/6350"}
{"lm loss": 4.99329615, "grad_norm": 0.79985166, "learning_rate": 7.128e-05, "elapsed_time_per_iteration": 4.82513571, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 9s", "remaining_time": "5h 8m 52s", "loss_scale": 1.0, "consumed_samples": 646912, "global_step/max_steps": "2527/6350"}
{"lm loss": 4.98154545, "grad_norm": 0.93988818, "learning_rate": 7.126e-05, "elapsed_time_per_iteration": 5.5547173, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 15s", "remaining_time": "5h 8m 48s", "loss_scale": 1.0, "consumed_samples": 647168, "global_step/max_steps": "2528/6350"}
{"lm loss": 4.96402216, "grad_norm": 0.95660925, "learning_rate": 7.124e-05, "elapsed_time_per_iteration": 4.88857961, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 20s", "remaining_time": "5h 8m 43s", "loss_scale": 1.0, "consumed_samples": 647424, "global_step/max_steps": "2529/6350"}
{"lm loss": 4.95319176, "grad_norm": 1.14483154, "learning_rate": 7.121e-05, "elapsed_time_per_iteration": 5.65618682, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 26s", "remaining_time": "5h 8m 40s", "loss_scale": 1.0, "consumed_samples": 647680, "global_step/max_steps": "2530/6350"}
{"lm loss": 4.98671293, "grad_norm": 1.1233865, "learning_rate": 7.119e-05, "elapsed_time_per_iteration": 4.80485511, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 30s", "remaining_time": "5h 8m 35s", "loss_scale": 1.0, "consumed_samples": 647936, "global_step/max_steps": "2531/6350"}
{"lm loss": 4.98104143, "grad_norm": 0.93249118, "learning_rate": 7.117e-05, "elapsed_time_per_iteration": 4.75518703, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 35s", "remaining_time": "5h 8m 30s", "loss_scale": 1.0, "consumed_samples": 648192, "global_step/max_steps": "2532/6350"}
{"lm loss": 4.98494673, "grad_norm": 0.83633208, "learning_rate": 7.114e-05, "elapsed_time_per_iteration": 4.74505424, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 40s", "remaining_time": "5h 8m 25s", "loss_scale": 1.0, "consumed_samples": 648448, "global_step/max_steps": "2533/6350"}
{"lm loss": 4.97034359, "grad_norm": 0.84383839, "learning_rate": 7.112e-05, "elapsed_time_per_iteration": 4.75738358, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 45s", "remaining_time": "5h 8m 20s", "loss_scale": 1.0, "consumed_samples": 648704, "global_step/max_steps": "2534/6350"}
{"lm loss": 4.99684429, "grad_norm": 0.84276843, "learning_rate": 7.11e-05, "elapsed_time_per_iteration": 5.64178514, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 50s", "remaining_time": "5h 8m 16s", "loss_scale": 1.0, "consumed_samples": 648960, "global_step/max_steps": "2535/6350"}
{"lm loss": 4.94368649, "grad_norm": 0.80391598, "learning_rate": 7.107e-05, "elapsed_time_per_iteration": 4.73280406, "memory(GiB)": 28.03, "elapsed_time": "3h 24m 55s", "remaining_time": "5h 8m 11s", "loss_scale": 1.0, "consumed_samples": 649216, "global_step/max_steps": "2536/6350"}
{"lm loss": 4.97506428, "grad_norm": 0.98805267, "learning_rate": 7.105e-05, "elapsed_time_per_iteration": 4.76778316, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 0s", "remaining_time": "5h 8m 6s", "loss_scale": 1.0, "consumed_samples": 649472, "global_step/max_steps": "2537/6350"}
{"lm loss": 4.96895504, "grad_norm": 1.09497285, "learning_rate": 7.103e-05, "elapsed_time_per_iteration": 4.80852151, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 5s", "remaining_time": "5h 8m 1s", "loss_scale": 1.0, "consumed_samples": 649728, "global_step/max_steps": "2538/6350"}
{"lm loss": 4.96675873, "grad_norm": 1.03943157, "learning_rate": 7.101e-05, "elapsed_time_per_iteration": 4.80215478, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 9s", "remaining_time": "5h 7m 56s", "loss_scale": 1.0, "consumed_samples": 649984, "global_step/max_steps": "2539/6350"}
{"lm loss": 4.98299932, "grad_norm": 0.97976828, "learning_rate": 7.098e-05, "elapsed_time_per_iteration": 4.76861382, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 14s", "remaining_time": "5h 7m 51s", "loss_scale": 1.0, "consumed_samples": 650240, "global_step/max_steps": "2540/6350"}
{"lm loss": 4.94336414, "grad_norm": 0.87130553, "learning_rate": 7.096e-05, "elapsed_time_per_iteration": 4.76416993, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 19s", "remaining_time": "5h 7m 46s", "loss_scale": 1.0, "consumed_samples": 650496, "global_step/max_steps": "2541/6350"}
{"lm loss": 4.96430445, "grad_norm": 0.73508507, "learning_rate": 7.094e-05, "elapsed_time_per_iteration": 4.69350362, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 24s", "remaining_time": "5h 7m 41s", "loss_scale": 1.0, "consumed_samples": 650752, "global_step/max_steps": "2542/6350"}
{"lm loss": 4.95324945, "grad_norm": 0.69931054, "learning_rate": 7.091e-05, "elapsed_time_per_iteration": 4.74905944, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 28s", "remaining_time": "5h 7m 36s", "loss_scale": 1.0, "consumed_samples": 651008, "global_step/max_steps": "2543/6350"}
{"lm loss": 4.96172762, "grad_norm": 0.72991157, "learning_rate": 7.089e-05, "elapsed_time_per_iteration": 4.84041595, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 33s", "remaining_time": "5h 7m 32s", "loss_scale": 1.0, "consumed_samples": 651264, "global_step/max_steps": "2544/6350"}
{"lm loss": 4.98275185, "grad_norm": 0.93948227, "learning_rate": 7.087e-05, "elapsed_time_per_iteration": 5.63098741, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 39s", "remaining_time": "5h 7m 28s", "loss_scale": 1.0, "consumed_samples": 651520, "global_step/max_steps": "2545/6350"}
{"lm loss": 4.96513414, "grad_norm": 1.09099078, "learning_rate": 7.084e-05, "elapsed_time_per_iteration": 4.91236782, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 44s", "remaining_time": "5h 7m 23s", "loss_scale": 1.0, "consumed_samples": 651776, "global_step/max_steps": "2546/6350"}
{"lm loss": 4.96466303, "grad_norm": 0.93231249, "learning_rate": 7.082e-05, "elapsed_time_per_iteration": 4.71688414, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 48s", "remaining_time": "5h 7m 18s", "loss_scale": 1.0, "consumed_samples": 652032, "global_step/max_steps": "2547/6350"}
{"lm loss": 4.94179201, "grad_norm": 0.95452809, "learning_rate": 7.08e-05, "elapsed_time_per_iteration": 4.74417067, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 53s", "remaining_time": "5h 7m 13s", "loss_scale": 1.0, "consumed_samples": 652288, "global_step/max_steps": "2548/6350"}
{"lm loss": 4.98410559, "grad_norm": 0.93977606, "learning_rate": 7.077e-05, "elapsed_time_per_iteration": 5.37328339, "memory(GiB)": 28.03, "elapsed_time": "3h 25m 59s", "remaining_time": "5h 7m 9s", "loss_scale": 1.0, "consumed_samples": 652544, "global_step/max_steps": "2549/6350"}
{"lm loss": 4.95332146, "grad_norm": 1.13459098, "learning_rate": 7.075e-05, "elapsed_time_per_iteration": 5.36639643, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 4s", "remaining_time": "5h 7m 5s", "loss_scale": 1.0, "consumed_samples": 652800, "global_step/max_steps": "2550/6350"}
{"lm loss": 4.98883915, "grad_norm": 0.77716076, "learning_rate": 7.073e-05, "elapsed_time_per_iteration": 4.70856333, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 9s", "remaining_time": "5h 7m 0s", "loss_scale": 1.0, "consumed_samples": 653056, "global_step/max_steps": "2551/6350"}
{"lm loss": 4.97407722, "grad_norm": 0.72782779, "learning_rate": 7.07e-05, "elapsed_time_per_iteration": 4.67398572, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 13s", "remaining_time": "5h 6m 55s", "loss_scale": 1.0, "consumed_samples": 653312, "global_step/max_steps": "2552/6350"}
{"lm loss": 4.96514606, "grad_norm": 0.8153789, "learning_rate": 7.068e-05, "elapsed_time_per_iteration": 4.72715139, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 18s", "remaining_time": "5h 6m 50s", "loss_scale": 1.0, "consumed_samples": 653568, "global_step/max_steps": "2553/6350"}
{"lm loss": 4.98043251, "grad_norm": 0.90597337, "learning_rate": 7.066e-05, "elapsed_time_per_iteration": 4.73622704, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 23s", "remaining_time": "5h 6m 45s", "loss_scale": 1.0, "consumed_samples": 653824, "global_step/max_steps": "2554/6350"}
{"lm loss": 4.95916939, "grad_norm": 1.0743773, "learning_rate": 7.063e-05, "elapsed_time_per_iteration": 4.72194648, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 27s", "remaining_time": "5h 6m 40s", "loss_scale": 1.0, "consumed_samples": 654080, "global_step/max_steps": "2555/6350"}
{"lm loss": 4.9828949, "grad_norm": 1.12511492, "learning_rate": 7.061e-05, "elapsed_time_per_iteration": 4.69645095, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 32s", "remaining_time": "5h 6m 35s", "loss_scale": 1.0, "consumed_samples": 654336, "global_step/max_steps": "2556/6350"}
{"lm loss": 4.97982311, "grad_norm": 0.72179604, "learning_rate": 7.059e-05, "elapsed_time_per_iteration": 4.74266052, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 37s", "remaining_time": "5h 6m 30s", "loss_scale": 1.0, "consumed_samples": 654592, "global_step/max_steps": "2557/6350"}
{"lm loss": 4.96947813, "grad_norm": 0.81311095, "learning_rate": 7.057e-05, "elapsed_time_per_iteration": 4.73332071, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 42s", "remaining_time": "5h 6m 25s", "loss_scale": 1.0, "consumed_samples": 654848, "global_step/max_steps": "2558/6350"}
{"lm loss": 4.94418049, "grad_norm": 0.92468935, "learning_rate": 7.054e-05, "elapsed_time_per_iteration": 4.82775378, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 46s", "remaining_time": "5h 6m 20s", "loss_scale": 1.0, "consumed_samples": 655104, "global_step/max_steps": "2559/6350"}
{"lm loss": 4.96839237, "grad_norm": 1.10772014, "learning_rate": 7.052e-05, "elapsed_time_per_iteration": 4.7461369, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 51s", "remaining_time": "5h 6m 15s", "loss_scale": 1.0, "consumed_samples": 655360, "global_step/max_steps": "2560/6350"}
{"lm loss": 4.98148394, "grad_norm": 0.85418904, "learning_rate": 7.05e-05, "elapsed_time_per_iteration": 4.77822375, "memory(GiB)": 28.03, "elapsed_time": "3h 26m 56s", "remaining_time": "5h 6m 10s", "loss_scale": 1.0, "consumed_samples": 655616, "global_step/max_steps": "2561/6350"}
{"lm loss": 4.95987749, "grad_norm": 0.90249681, "learning_rate": 7.047e-05, "elapsed_time_per_iteration": 4.64294815, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 1s", "remaining_time": "5h 6m 5s", "loss_scale": 1.0, "consumed_samples": 655872, "global_step/max_steps": "2562/6350"}
{"lm loss": 4.94036484, "grad_norm": 1.08666456, "learning_rate": 7.045e-05, "elapsed_time_per_iteration": 4.7196207, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 5s", "remaining_time": "5h 6m 0s", "loss_scale": 1.0, "consumed_samples": 656128, "global_step/max_steps": "2563/6350"}
{"lm loss": 4.96653414, "grad_norm": 1.07865906, "learning_rate": 7.043e-05, "elapsed_time_per_iteration": 4.80815768, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 10s", "remaining_time": "5h 5m 55s", "loss_scale": 1.0, "consumed_samples": 656384, "global_step/max_steps": "2564/6350"}
{"lm loss": 4.95457125, "grad_norm": 1.0032568, "learning_rate": 7.04e-05, "elapsed_time_per_iteration": 4.73005748, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 15s", "remaining_time": "5h 5m 50s", "loss_scale": 1.0, "consumed_samples": 656640, "global_step/max_steps": "2565/6350"}
{"lm loss": 4.97244215, "grad_norm": 0.89600182, "learning_rate": 7.038e-05, "elapsed_time_per_iteration": 4.84460163, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 20s", "remaining_time": "5h 5m 45s", "loss_scale": 1.0, "consumed_samples": 656896, "global_step/max_steps": "2566/6350"}
{"lm loss": 4.97683239, "grad_norm": 0.75128382, "learning_rate": 7.036e-05, "elapsed_time_per_iteration": 4.78231907, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 25s", "remaining_time": "5h 5m 40s", "loss_scale": 1.0, "consumed_samples": 657152, "global_step/max_steps": "2567/6350"}
{"lm loss": 4.95719481, "grad_norm": 0.95935661, "learning_rate": 7.033e-05, "elapsed_time_per_iteration": 4.70237684, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 29s", "remaining_time": "5h 5m 35s", "loss_scale": 1.0, "consumed_samples": 657408, "global_step/max_steps": "2568/6350"}
{"lm loss": 4.96009588, "grad_norm": 1.16735041, "learning_rate": 7.031e-05, "elapsed_time_per_iteration": 4.74756074, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 34s", "remaining_time": "5h 5m 30s", "loss_scale": 1.0, "consumed_samples": 657664, "global_step/max_steps": "2569/6350"}
{"lm loss": 4.95163631, "grad_norm": 0.81845367, "learning_rate": 7.029e-05, "elapsed_time_per_iteration": 4.7463932, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 39s", "remaining_time": "5h 5m 25s", "loss_scale": 1.0, "consumed_samples": 657920, "global_step/max_steps": "2570/6350"}
{"lm loss": 4.97060919, "grad_norm": 0.78198808, "learning_rate": 7.026e-05, "elapsed_time_per_iteration": 4.75129008, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 43s", "remaining_time": "5h 5m 20s", "loss_scale": 1.0, "consumed_samples": 658176, "global_step/max_steps": "2571/6350"}
{"lm loss": 4.97854662, "grad_norm": 0.94172633, "learning_rate": 7.024e-05, "elapsed_time_per_iteration": 4.77374578, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 48s", "remaining_time": "5h 5m 15s", "loss_scale": 1.0, "consumed_samples": 658432, "global_step/max_steps": "2572/6350"}
{"lm loss": 4.98507214, "grad_norm": 0.90366113, "learning_rate": 7.022e-05, "elapsed_time_per_iteration": 4.86698008, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 53s", "remaining_time": "5h 5m 10s", "loss_scale": 1.0, "consumed_samples": 658688, "global_step/max_steps": "2573/6350"}
{"lm loss": 4.91308403, "grad_norm": 0.69840157, "learning_rate": 7.019e-05, "elapsed_time_per_iteration": 4.78959537, "memory(GiB)": 28.03, "elapsed_time": "3h 27m 58s", "remaining_time": "5h 5m 5s", "loss_scale": 1.0, "consumed_samples": 658944, "global_step/max_steps": "2574/6350"}
{"lm loss": 4.9757266, "grad_norm": 0.71061182, "learning_rate": 7.017e-05, "elapsed_time_per_iteration": 4.76641369, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 3s", "remaining_time": "5h 5m 0s", "loss_scale": 1.0, "consumed_samples": 659200, "global_step/max_steps": "2575/6350"}
{"lm loss": 4.94536543, "grad_norm": 0.87209928, "learning_rate": 7.015e-05, "elapsed_time_per_iteration": 4.72183108, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 7s", "remaining_time": "5h 4m 55s", "loss_scale": 1.0, "consumed_samples": 659456, "global_step/max_steps": "2576/6350"}
{"lm loss": 4.98314095, "grad_norm": 0.79509348, "learning_rate": 7.012e-05, "elapsed_time_per_iteration": 4.67383838, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 12s", "remaining_time": "5h 4m 50s", "loss_scale": 1.0, "consumed_samples": 659712, "global_step/max_steps": "2577/6350"}
{"lm loss": 4.95428753, "grad_norm": 0.93820703, "learning_rate": 7.01e-05, "elapsed_time_per_iteration": 4.73054552, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 17s", "remaining_time": "5h 4m 45s", "loss_scale": 1.0, "consumed_samples": 659968, "global_step/max_steps": "2578/6350"}
{"lm loss": 4.94995117, "grad_norm": 1.03580892, "learning_rate": 7.008e-05, "elapsed_time_per_iteration": 4.83440447, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 22s", "remaining_time": "5h 4m 40s", "loss_scale": 1.0, "consumed_samples": 660224, "global_step/max_steps": "2579/6350"}
{"lm loss": 4.94403219, "grad_norm": 0.95398271, "learning_rate": 7.005e-05, "elapsed_time_per_iteration": 4.71634245, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 26s", "remaining_time": "5h 4m 35s", "loss_scale": 1.0, "consumed_samples": 660480, "global_step/max_steps": "2580/6350"}
{"lm loss": 4.96595669, "grad_norm": 0.98559958, "learning_rate": 7.003e-05, "elapsed_time_per_iteration": 5.13908958, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 31s", "remaining_time": "5h 4m 31s", "loss_scale": 1.0, "consumed_samples": 660736, "global_step/max_steps": "2581/6350"}
{"lm loss": 4.95870829, "grad_norm": 1.21558404, "learning_rate": 7.001e-05, "elapsed_time_per_iteration": 4.80375004, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 36s", "remaining_time": "5h 4m 26s", "loss_scale": 1.0, "consumed_samples": 660992, "global_step/max_steps": "2582/6350"}
{"lm loss": 4.96986103, "grad_norm": 0.92900479, "learning_rate": 6.998e-05, "elapsed_time_per_iteration": 4.73033118, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 41s", "remaining_time": "5h 4m 21s", "loss_scale": 1.0, "consumed_samples": 661248, "global_step/max_steps": "2583/6350"}
{"lm loss": 4.97550535, "grad_norm": 0.90393597, "learning_rate": 6.996e-05, "elapsed_time_per_iteration": 4.7703743, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 46s", "remaining_time": "5h 4m 16s", "loss_scale": 1.0, "consumed_samples": 661504, "global_step/max_steps": "2584/6350"}
{"lm loss": 4.94775963, "grad_norm": 0.94319206, "learning_rate": 6.994e-05, "elapsed_time_per_iteration": 4.81288719, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 51s", "remaining_time": "5h 4m 11s", "loss_scale": 1.0, "consumed_samples": 661760, "global_step/max_steps": "2585/6350"}
{"lm loss": 4.98577023, "grad_norm": 0.83100903, "learning_rate": 6.991e-05, "elapsed_time_per_iteration": 4.85831976, "memory(GiB)": 28.03, "elapsed_time": "3h 28m 55s", "remaining_time": "5h 4m 6s", "loss_scale": 1.0, "consumed_samples": 662016, "global_step/max_steps": "2586/6350"}
{"lm loss": 4.96516705, "grad_norm": 1.21974254, "learning_rate": 6.989e-05, "elapsed_time_per_iteration": 4.76745987, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 0s", "remaining_time": "5h 4m 1s", "loss_scale": 1.0, "consumed_samples": 662272, "global_step/max_steps": "2587/6350"}
{"lm loss": 4.95492601, "grad_norm": 2.6014502, "learning_rate": 6.987e-05, "elapsed_time_per_iteration": 4.73901844, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 5s", "remaining_time": "5h 3m 56s", "loss_scale": 1.0, "consumed_samples": 662528, "global_step/max_steps": "2588/6350"}
{"lm loss": 4.977911, "grad_norm": 1.46334219, "learning_rate": 6.984e-05, "elapsed_time_per_iteration": 4.68367028, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 10s", "remaining_time": "5h 3m 51s", "loss_scale": 1.0, "consumed_samples": 662784, "global_step/max_steps": "2589/6350"}
{"lm loss": 4.98400736, "grad_norm": 1.18753874, "learning_rate": 6.982e-05, "elapsed_time_per_iteration": 4.7016058, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 14s", "remaining_time": "5h 3m 46s", "loss_scale": 1.0, "consumed_samples": 663040, "global_step/max_steps": "2590/6350"}
{"lm loss": 4.95690441, "grad_norm": 1.0570997, "learning_rate": 6.98e-05, "elapsed_time_per_iteration": 5.66090608, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 20s", "remaining_time": "5h 3m 42s", "loss_scale": 1.0, "consumed_samples": 663296, "global_step/max_steps": "2591/6350"}
{"lm loss": 4.96553183, "grad_norm": 1.0157553, "learning_rate": 6.977e-05, "elapsed_time_per_iteration": 4.75394893, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 25s", "remaining_time": "5h 3m 37s", "loss_scale": 1.0, "consumed_samples": 663552, "global_step/max_steps": "2592/6350"}
{"lm loss": 4.96961546, "grad_norm": 0.88809472, "learning_rate": 6.975e-05, "elapsed_time_per_iteration": 4.84672999, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 30s", "remaining_time": "5h 3m 32s", "loss_scale": 1.0, "consumed_samples": 663808, "global_step/max_steps": "2593/6350"}
{"lm loss": 4.95743465, "grad_norm": 1.35203731, "learning_rate": 6.973e-05, "elapsed_time_per_iteration": 5.39119458, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 35s", "remaining_time": "5h 3m 28s", "loss_scale": 1.0, "consumed_samples": 664064, "global_step/max_steps": "2594/6350"}
{"lm loss": 4.93588591, "grad_norm": 0.73335665, "learning_rate": 6.97e-05, "elapsed_time_per_iteration": 4.70459652, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 40s", "remaining_time": "5h 3m 23s", "loss_scale": 1.0, "consumed_samples": 664320, "global_step/max_steps": "2595/6350"}
{"lm loss": 4.97151566, "grad_norm": 0.89572614, "learning_rate": 6.968e-05, "elapsed_time_per_iteration": 4.71497202, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 44s", "remaining_time": "5h 3m 18s", "loss_scale": 1.0, "consumed_samples": 664576, "global_step/max_steps": "2596/6350"}
{"lm loss": 4.96878004, "grad_norm": 1.22068238, "learning_rate": 6.966e-05, "elapsed_time_per_iteration": 4.77720499, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 49s", "remaining_time": "5h 3m 13s", "loss_scale": 1.0, "consumed_samples": 664832, "global_step/max_steps": "2597/6350"}
{"lm loss": 4.97211981, "grad_norm": 1.34232879, "learning_rate": 6.963e-05, "elapsed_time_per_iteration": 4.76476026, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 54s", "remaining_time": "5h 3m 8s", "loss_scale": 1.0, "consumed_samples": 665088, "global_step/max_steps": "2598/6350"}
{"lm loss": 4.97127724, "grad_norm": 0.72914732, "learning_rate": 6.961e-05, "elapsed_time_per_iteration": 4.76214433, "memory(GiB)": 28.03, "elapsed_time": "3h 29m 59s", "remaining_time": "5h 3m 3s", "loss_scale": 1.0, "consumed_samples": 665344, "global_step/max_steps": "2599/6350"}
{"lm loss": 4.99247932, "grad_norm": 1.38093662, "learning_rate": 6.959e-05, "elapsed_time_per_iteration": 4.7421937, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 3s", "remaining_time": "5h 2m 58s", "loss_scale": 1.0, "consumed_samples": 665600, "global_step/max_steps": "2600/6350"}
{"lm loss": 4.95579386, "grad_norm": 1.25343263, "learning_rate": 6.956e-05, "elapsed_time_per_iteration": 5.67024994, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 9s", "remaining_time": "5h 2m 55s", "loss_scale": 1.0, "consumed_samples": 665856, "global_step/max_steps": "2601/6350"}
{"lm loss": 4.97539663, "grad_norm": 0.67082983, "learning_rate": 6.954e-05, "elapsed_time_per_iteration": 4.72199655, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 14s", "remaining_time": "5h 2m 50s", "loss_scale": 1.0, "consumed_samples": 666112, "global_step/max_steps": "2602/6350"}
{"lm loss": 4.97066069, "grad_norm": 1.06619847, "learning_rate": 6.951e-05, "elapsed_time_per_iteration": 4.77915287, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 19s", "remaining_time": "5h 2m 45s", "loss_scale": 1.0, "consumed_samples": 666368, "global_step/max_steps": "2603/6350"}
{"lm loss": 4.97146797, "grad_norm": 1.48275924, "learning_rate": 6.949e-05, "elapsed_time_per_iteration": 5.10075164, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 24s", "remaining_time": "5h 2m 40s", "loss_scale": 1.0, "consumed_samples": 666624, "global_step/max_steps": "2604/6350"}
{"lm loss": 4.95896101, "grad_norm": 0.69713366, "learning_rate": 6.947e-05, "elapsed_time_per_iteration": 4.75830054, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 29s", "remaining_time": "5h 2m 35s", "loss_scale": 1.0, "consumed_samples": 666880, "global_step/max_steps": "2605/6350"}
{"lm loss": 4.95933151, "grad_norm": 1.23341286, "learning_rate": 6.944e-05, "elapsed_time_per_iteration": 4.79954171, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 33s", "remaining_time": "5h 2m 30s", "loss_scale": 1.0, "consumed_samples": 667136, "global_step/max_steps": "2606/6350"}
{"lm loss": 4.9432168, "grad_norm": 1.27596831, "learning_rate": 6.942e-05, "elapsed_time_per_iteration": 4.81006312, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 38s", "remaining_time": "5h 2m 25s", "loss_scale": 1.0, "consumed_samples": 667392, "global_step/max_steps": "2607/6350"}
{"lm loss": 4.96953869, "grad_norm": 0.83176982, "learning_rate": 6.94e-05, "elapsed_time_per_iteration": 4.70891237, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 43s", "remaining_time": "5h 2m 20s", "loss_scale": 1.0, "consumed_samples": 667648, "global_step/max_steps": "2608/6350"}
{"lm loss": 4.95263433, "grad_norm": 0.9249121, "learning_rate": 6.937e-05, "elapsed_time_per_iteration": 4.82584262, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 48s", "remaining_time": "5h 2m 15s", "loss_scale": 1.0, "consumed_samples": 667904, "global_step/max_steps": "2609/6350"}
{"lm loss": 4.96550179, "grad_norm": 1.35877562, "learning_rate": 6.935e-05, "elapsed_time_per_iteration": 4.74898839, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 52s", "remaining_time": "5h 2m 10s", "loss_scale": 1.0, "consumed_samples": 668160, "global_step/max_steps": "2610/6350"}
{"lm loss": 4.97699261, "grad_norm": 0.91874385, "learning_rate": 6.933e-05, "elapsed_time_per_iteration": 4.73516369, "memory(GiB)": 28.03, "elapsed_time": "3h 30m 57s", "remaining_time": "5h 2m 5s", "loss_scale": 1.0, "consumed_samples": 668416, "global_step/max_steps": "2611/6350"}
{"lm loss": 4.95115805, "grad_norm": 1.17551148, "learning_rate": 6.93e-05, "elapsed_time_per_iteration": 4.74793482, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 2s", "remaining_time": "5h 2m 0s", "loss_scale": 1.0, "consumed_samples": 668672, "global_step/max_steps": "2612/6350"}
{"lm loss": 4.98757172, "grad_norm": 0.98974967, "learning_rate": 6.928e-05, "elapsed_time_per_iteration": 4.76504827, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 7s", "remaining_time": "5h 1m 56s", "loss_scale": 1.0, "consumed_samples": 668928, "global_step/max_steps": "2613/6350"}
{"lm loss": 4.97190762, "grad_norm": 1.02144516, "learning_rate": 6.926e-05, "elapsed_time_per_iteration": 4.7081778, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 11s", "remaining_time": "5h 1m 50s", "loss_scale": 1.0, "consumed_samples": 669184, "global_step/max_steps": "2614/6350"}
{"lm loss": 4.95438862, "grad_norm": 1.21339905, "learning_rate": 6.923e-05, "elapsed_time_per_iteration": 4.99451327, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 16s", "remaining_time": "5h 1m 46s", "loss_scale": 1.0, "consumed_samples": 669440, "global_step/max_steps": "2615/6350"}
{"lm loss": 4.97796822, "grad_norm": 0.88237423, "learning_rate": 6.921e-05, "elapsed_time_per_iteration": 4.76503229, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 21s", "remaining_time": "5h 1m 41s", "loss_scale": 1.0, "consumed_samples": 669696, "global_step/max_steps": "2616/6350"}
{"lm loss": 4.94228363, "grad_norm": 0.84531838, "learning_rate": 6.919e-05, "elapsed_time_per_iteration": 4.7028904, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 26s", "remaining_time": "5h 1m 36s", "loss_scale": 1.0, "consumed_samples": 669952, "global_step/max_steps": "2617/6350"}
{"lm loss": 4.97252274, "grad_norm": 0.66605091, "learning_rate": 6.916e-05, "elapsed_time_per_iteration": 4.77867794, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 31s", "remaining_time": "5h 1m 31s", "loss_scale": 1.0, "consumed_samples": 670208, "global_step/max_steps": "2618/6350"}
{"lm loss": 4.97777987, "grad_norm": 0.72097927, "learning_rate": 6.914e-05, "elapsed_time_per_iteration": 4.7367909, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 35s", "remaining_time": "5h 1m 26s", "loss_scale": 1.0, "consumed_samples": 670464, "global_step/max_steps": "2619/6350"}
{"lm loss": 4.97371864, "grad_norm": 0.74305379, "learning_rate": 6.912e-05, "elapsed_time_per_iteration": 4.73266411, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 40s", "remaining_time": "5h 1m 21s", "loss_scale": 1.0, "consumed_samples": 670720, "global_step/max_steps": "2620/6350"}
{"lm loss": 4.94660425, "grad_norm": 0.84031475, "learning_rate": 6.909e-05, "elapsed_time_per_iteration": 4.75967932, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 45s", "remaining_time": "5h 1m 16s", "loss_scale": 1.0, "consumed_samples": 670976, "global_step/max_steps": "2621/6350"}
{"lm loss": 4.96195889, "grad_norm": 1.20491171, "learning_rate": 6.907e-05, "elapsed_time_per_iteration": 4.74383211, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 50s", "remaining_time": "5h 1m 11s", "loss_scale": 1.0, "consumed_samples": 671232, "global_step/max_steps": "2622/6350"}
{"lm loss": 4.97908068, "grad_norm": 1.10331631, "learning_rate": 6.904e-05, "elapsed_time_per_iteration": 4.67076707, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 54s", "remaining_time": "5h 1m 6s", "loss_scale": 1.0, "consumed_samples": 671488, "global_step/max_steps": "2623/6350"}
{"lm loss": 4.96095657, "grad_norm": 0.7717495, "learning_rate": 6.902e-05, "elapsed_time_per_iteration": 4.72266674, "memory(GiB)": 28.03, "elapsed_time": "3h 31m 59s", "remaining_time": "5h 1m 1s", "loss_scale": 1.0, "consumed_samples": 671744, "global_step/max_steps": "2624/6350"}
{"lm loss": 4.95766449, "grad_norm": 0.65493548, "learning_rate": 6.9e-05, "elapsed_time_per_iteration": 4.74619627, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 4s", "remaining_time": "5h 0m 56s", "loss_scale": 1.0, "consumed_samples": 672000, "global_step/max_steps": "2625/6350"}
{"lm loss": 4.95573616, "grad_norm": 0.81957251, "learning_rate": 6.897e-05, "elapsed_time_per_iteration": 4.69490457, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 8s", "remaining_time": "5h 0m 51s", "loss_scale": 1.0, "consumed_samples": 672256, "global_step/max_steps": "2626/6350"}
{"lm loss": 4.96625423, "grad_norm": 1.00347602, "learning_rate": 6.895e-05, "elapsed_time_per_iteration": 4.81596208, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 13s", "remaining_time": "5h 0m 46s", "loss_scale": 1.0, "consumed_samples": 672512, "global_step/max_steps": "2627/6350"}
{"lm loss": 4.9561162, "grad_norm": 1.00104237, "learning_rate": 6.893e-05, "elapsed_time_per_iteration": 4.72831345, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 18s", "remaining_time": "5h 0m 41s", "loss_scale": 1.0, "consumed_samples": 672768, "global_step/max_steps": "2628/6350"}
{"lm loss": 4.9506917, "grad_norm": 1.06049585, "learning_rate": 6.89e-05, "elapsed_time_per_iteration": 4.74182057, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 23s", "remaining_time": "5h 0m 36s", "loss_scale": 1.0, "consumed_samples": 673024, "global_step/max_steps": "2629/6350"}
{"lm loss": 4.97222614, "grad_norm": 0.98139483, "learning_rate": 6.888e-05, "elapsed_time_per_iteration": 4.7247982, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 27s", "remaining_time": "5h 0m 31s", "loss_scale": 1.0, "consumed_samples": 673280, "global_step/max_steps": "2630/6350"}
{"lm loss": 4.96165514, "grad_norm": 1.12104785, "learning_rate": 6.886e-05, "elapsed_time_per_iteration": 4.71452665, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 32s", "remaining_time": "5h 0m 26s", "loss_scale": 1.0, "consumed_samples": 673536, "global_step/max_steps": "2631/6350"}
{"lm loss": 4.95807219, "grad_norm": 0.91500103, "learning_rate": 6.883e-05, "elapsed_time_per_iteration": 4.73400021, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 37s", "remaining_time": "5h 0m 21s", "loss_scale": 1.0, "consumed_samples": 673792, "global_step/max_steps": "2632/6350"}
{"lm loss": 4.98547363, "grad_norm": 0.78118533, "learning_rate": 6.881e-05, "elapsed_time_per_iteration": 4.71894073, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 42s", "remaining_time": "5h 0m 16s", "loss_scale": 1.0, "consumed_samples": 674048, "global_step/max_steps": "2633/6350"}
{"lm loss": 4.97405195, "grad_norm": 0.78585827, "learning_rate": 6.879e-05, "elapsed_time_per_iteration": 4.6986146, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 46s", "remaining_time": "5h 0m 11s", "loss_scale": 1.0, "consumed_samples": 674304, "global_step/max_steps": "2634/6350"}
{"lm loss": 4.97683382, "grad_norm": 0.90494478, "learning_rate": 6.876e-05, "elapsed_time_per_iteration": 5.37382317, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 52s", "remaining_time": "5h 0m 7s", "loss_scale": 1.0, "consumed_samples": 674560, "global_step/max_steps": "2635/6350"}
{"lm loss": 4.97583008, "grad_norm": 0.95895308, "learning_rate": 6.874e-05, "elapsed_time_per_iteration": 4.72451639, "memory(GiB)": 28.03, "elapsed_time": "3h 32m 56s", "remaining_time": "5h 0m 2s", "loss_scale": 1.0, "consumed_samples": 674816, "global_step/max_steps": "2636/6350"}
{"lm loss": 4.95289946, "grad_norm": 1.04054892, "learning_rate": 6.871e-05, "elapsed_time_per_iteration": 4.83360696, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 1s", "remaining_time": "4h 59m 57s", "loss_scale": 1.0, "consumed_samples": 675072, "global_step/max_steps": "2637/6350"}
{"lm loss": 4.95192289, "grad_norm": 0.84998423, "learning_rate": 6.869e-05, "elapsed_time_per_iteration": 4.76115751, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 6s", "remaining_time": "4h 59m 52s", "loss_scale": 1.0, "consumed_samples": 675328, "global_step/max_steps": "2638/6350"}
{"lm loss": 4.96304417, "grad_norm": 0.82028455, "learning_rate": 6.867e-05, "elapsed_time_per_iteration": 4.85141468, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 11s", "remaining_time": "4h 59m 47s", "loss_scale": 1.0, "consumed_samples": 675584, "global_step/max_steps": "2639/6350"}
{"lm loss": 4.97209597, "grad_norm": 0.98118895, "learning_rate": 6.864e-05, "elapsed_time_per_iteration": 4.78021407, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 16s", "remaining_time": "4h 59m 42s", "loss_scale": 1.0, "consumed_samples": 675840, "global_step/max_steps": "2640/6350"}
{"lm loss": 4.97101879, "grad_norm": 1.15365446, "learning_rate": 6.862e-05, "elapsed_time_per_iteration": 4.70956087, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 20s", "remaining_time": "4h 59m 37s", "loss_scale": 1.0, "consumed_samples": 676096, "global_step/max_steps": "2641/6350"}
{"lm loss": 4.97514915, "grad_norm": 0.8921026, "learning_rate": 6.86e-05, "elapsed_time_per_iteration": 4.78127956, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 25s", "remaining_time": "4h 59m 32s", "loss_scale": 1.0, "consumed_samples": 676352, "global_step/max_steps": "2642/6350"}
{"lm loss": 4.92960453, "grad_norm": 0.81702924, "learning_rate": 6.857e-05, "elapsed_time_per_iteration": 4.75071645, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 30s", "remaining_time": "4h 59m 27s", "loss_scale": 1.0, "consumed_samples": 676608, "global_step/max_steps": "2643/6350"}
{"lm loss": 4.94194508, "grad_norm": 0.99452031, "learning_rate": 6.855e-05, "elapsed_time_per_iteration": 4.74261165, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 35s", "remaining_time": "4h 59m 22s", "loss_scale": 1.0, "consumed_samples": 676864, "global_step/max_steps": "2644/6350"}
{"lm loss": 4.95316076, "grad_norm": 0.90089285, "learning_rate": 6.853e-05, "elapsed_time_per_iteration": 4.74384689, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 39s", "remaining_time": "4h 59m 17s", "loss_scale": 1.0, "consumed_samples": 677120, "global_step/max_steps": "2645/6350"}
{"lm loss": 4.95962811, "grad_norm": 0.77462375, "learning_rate": 6.85e-05, "elapsed_time_per_iteration": 5.72931528, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 45s", "remaining_time": "4h 59m 13s", "loss_scale": 1.0, "consumed_samples": 677376, "global_step/max_steps": "2646/6350"}
{"lm loss": 4.97081327, "grad_norm": 0.8867541, "learning_rate": 6.848e-05, "elapsed_time_per_iteration": 5.63409805, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 51s", "remaining_time": "4h 59m 10s", "loss_scale": 1.0, "consumed_samples": 677632, "global_step/max_steps": "2647/6350"}
{"lm loss": 4.97365713, "grad_norm": 1.05578089, "learning_rate": 6.845e-05, "elapsed_time_per_iteration": 5.55106139, "memory(GiB)": 28.03, "elapsed_time": "3h 33m 56s", "remaining_time": "4h 59m 6s", "loss_scale": 1.0, "consumed_samples": 677888, "global_step/max_steps": "2648/6350"}
{"lm loss": 4.94915009, "grad_norm": 1.04327011, "learning_rate": 6.843e-05, "elapsed_time_per_iteration": 5.05464482, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 1s", "remaining_time": "4h 59m 1s", "loss_scale": 1.0, "consumed_samples": 678144, "global_step/max_steps": "2649/6350"}
{"lm loss": 4.95353365, "grad_norm": 0.80031061, "learning_rate": 6.841e-05, "elapsed_time_per_iteration": 4.7624507, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 6s", "remaining_time": "4h 58m 56s", "loss_scale": 1.0, "consumed_samples": 678400, "global_step/max_steps": "2650/6350"}
{"lm loss": 4.96327591, "grad_norm": 0.83378553, "learning_rate": 6.838e-05, "elapsed_time_per_iteration": 4.80803728, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 11s", "remaining_time": "4h 58m 51s", "loss_scale": 1.0, "consumed_samples": 678656, "global_step/max_steps": "2651/6350"}
{"lm loss": 4.94076061, "grad_norm": 0.81526744, "learning_rate": 6.836e-05, "elapsed_time_per_iteration": 4.85872149, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 16s", "remaining_time": "4h 58m 46s", "loss_scale": 1.0, "consumed_samples": 678912, "global_step/max_steps": "2652/6350"}
{"lm loss": 4.97840548, "grad_norm": 0.8151421, "learning_rate": 6.834e-05, "elapsed_time_per_iteration": 4.76729488, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 21s", "remaining_time": "4h 58m 42s", "loss_scale": 1.0, "consumed_samples": 679168, "global_step/max_steps": "2653/6350"}
{"lm loss": 4.95332813, "grad_norm": 0.87801921, "learning_rate": 6.831e-05, "elapsed_time_per_iteration": 4.77753949, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 25s", "remaining_time": "4h 58m 37s", "loss_scale": 1.0, "consumed_samples": 679424, "global_step/max_steps": "2654/6350"}
{"lm loss": 4.97647429, "grad_norm": 0.93276948, "learning_rate": 6.829e-05, "elapsed_time_per_iteration": 4.70870376, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 30s", "remaining_time": "4h 58m 32s", "loss_scale": 1.0, "consumed_samples": 679680, "global_step/max_steps": "2655/6350"}
{"lm loss": 4.98435831, "grad_norm": 0.88069439, "learning_rate": 6.827e-05, "elapsed_time_per_iteration": 4.76199627, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 35s", "remaining_time": "4h 58m 27s", "loss_scale": 1.0, "consumed_samples": 679936, "global_step/max_steps": "2656/6350"}
{"lm loss": 4.93636799, "grad_norm": 1.05514061, "learning_rate": 6.824e-05, "elapsed_time_per_iteration": 4.77876401, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 40s", "remaining_time": "4h 58m 22s", "loss_scale": 1.0, "consumed_samples": 680192, "global_step/max_steps": "2657/6350"}
{"lm loss": 4.94968462, "grad_norm": 1.15017045, "learning_rate": 6.822e-05, "elapsed_time_per_iteration": 4.74997354, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 44s", "remaining_time": "4h 58m 17s", "loss_scale": 1.0, "consumed_samples": 680448, "global_step/max_steps": "2658/6350"}
{"lm loss": 4.94584751, "grad_norm": 0.89401305, "learning_rate": 6.819e-05, "elapsed_time_per_iteration": 4.80593872, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 49s", "remaining_time": "4h 58m 12s", "loss_scale": 1.0, "consumed_samples": 680704, "global_step/max_steps": "2659/6350"}
{"lm loss": 4.97385073, "grad_norm": 0.73975068, "learning_rate": 6.817e-05, "elapsed_time_per_iteration": 4.78764534, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 54s", "remaining_time": "4h 58m 7s", "loss_scale": 1.0, "consumed_samples": 680960, "global_step/max_steps": "2660/6350"}
{"lm loss": 4.97432661, "grad_norm": 0.9637183, "learning_rate": 6.815e-05, "elapsed_time_per_iteration": 4.75892091, "memory(GiB)": 28.03, "elapsed_time": "3h 34m 59s", "remaining_time": "4h 58m 2s", "loss_scale": 1.0, "consumed_samples": 681216, "global_step/max_steps": "2661/6350"}
{"lm loss": 4.97076845, "grad_norm": 1.43991578, "learning_rate": 6.812e-05, "elapsed_time_per_iteration": 4.83035183, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 3s", "remaining_time": "4h 57m 57s", "loss_scale": 1.0, "consumed_samples": 681472, "global_step/max_steps": "2662/6350"}
{"lm loss": 4.96532774, "grad_norm": 0.60773355, "learning_rate": 6.81e-05, "elapsed_time_per_iteration": 5.63631225, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 9s", "remaining_time": "4h 57m 53s", "loss_scale": 1.0, "consumed_samples": 681728, "global_step/max_steps": "2663/6350"}
{"lm loss": 4.97562313, "grad_norm": 1.32278967, "learning_rate": 6.808e-05, "elapsed_time_per_iteration": 4.84590459, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 14s", "remaining_time": "4h 57m 48s", "loss_scale": 1.0, "consumed_samples": 681984, "global_step/max_steps": "2664/6350"}
{"lm loss": 4.96949673, "grad_norm": 1.1519016, "learning_rate": 6.805e-05, "elapsed_time_per_iteration": 4.78421521, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 19s", "remaining_time": "4h 57m 43s", "loss_scale": 1.0, "consumed_samples": 682240, "global_step/max_steps": "2665/6350"}
{"lm loss": 4.97318697, "grad_norm": 0.71695894, "learning_rate": 6.803e-05, "elapsed_time_per_iteration": 4.79037571, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 24s", "remaining_time": "4h 57m 39s", "loss_scale": 1.0, "consumed_samples": 682496, "global_step/max_steps": "2666/6350"}
{"lm loss": 4.956213, "grad_norm": 0.86892128, "learning_rate": 6.8e-05, "elapsed_time_per_iteration": 4.78475118, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 28s", "remaining_time": "4h 57m 34s", "loss_scale": 1.0, "consumed_samples": 682752, "global_step/max_steps": "2667/6350"}
{"lm loss": 4.96507835, "grad_norm": 0.89891994, "learning_rate": 6.798e-05, "elapsed_time_per_iteration": 4.77771521, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 33s", "remaining_time": "4h 57m 29s", "loss_scale": 1.0, "consumed_samples": 683008, "global_step/max_steps": "2668/6350"}
{"lm loss": 4.96638346, "grad_norm": 0.79120791, "learning_rate": 6.796e-05, "elapsed_time_per_iteration": 4.77880001, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 38s", "remaining_time": "4h 57m 24s", "loss_scale": 1.0, "consumed_samples": 683264, "global_step/max_steps": "2669/6350"}
{"lm loss": 4.94649363, "grad_norm": 0.76526409, "learning_rate": 6.793e-05, "elapsed_time_per_iteration": 5.53739238, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 43s", "remaining_time": "4h 57m 20s", "loss_scale": 1.0, "consumed_samples": 683520, "global_step/max_steps": "2670/6350"}
{"lm loss": 4.96228361, "grad_norm": 0.8124786, "learning_rate": 6.791e-05, "elapsed_time_per_iteration": 4.70623374, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 48s", "remaining_time": "4h 57m 15s", "loss_scale": 1.0, "consumed_samples": 683776, "global_step/max_steps": "2671/6350"}
{"lm loss": 4.96816063, "grad_norm": 0.81276023, "learning_rate": 6.789e-05, "elapsed_time_per_iteration": 4.799191, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 53s", "remaining_time": "4h 57m 10s", "loss_scale": 1.0, "consumed_samples": 684032, "global_step/max_steps": "2672/6350"}
{"lm loss": 4.94388294, "grad_norm": 0.93914461, "learning_rate": 6.786e-05, "elapsed_time_per_iteration": 4.82882023, "memory(GiB)": 28.03, "elapsed_time": "3h 35m 58s", "remaining_time": "4h 57m 5s", "loss_scale": 1.0, "consumed_samples": 684288, "global_step/max_steps": "2673/6350"}
{"lm loss": 4.9640522, "grad_norm": 1.23976684, "learning_rate": 6.784e-05, "elapsed_time_per_iteration": 4.74966574, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 2s", "remaining_time": "4h 57m 0s", "loss_scale": 1.0, "consumed_samples": 684544, "global_step/max_steps": "2674/6350"}
{"lm loss": 4.95242214, "grad_norm": 0.78572208, "learning_rate": 6.781e-05, "elapsed_time_per_iteration": 4.71518874, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 7s", "remaining_time": "4h 56m 55s", "loss_scale": 1.0, "consumed_samples": 684800, "global_step/max_steps": "2675/6350"}
{"lm loss": 4.93851519, "grad_norm": 0.69296765, "learning_rate": 6.779e-05, "elapsed_time_per_iteration": 4.74708986, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 12s", "remaining_time": "4h 56m 50s", "loss_scale": 1.0, "consumed_samples": 685056, "global_step/max_steps": "2676/6350"}
{"lm loss": 4.95200157, "grad_norm": 0.80491197, "learning_rate": 6.777e-05, "elapsed_time_per_iteration": 4.67370915, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 17s", "remaining_time": "4h 56m 45s", "loss_scale": 1.0, "consumed_samples": 685312, "global_step/max_steps": "2677/6350"}
{"lm loss": 4.96057987, "grad_norm": 0.6718508, "learning_rate": 6.774e-05, "elapsed_time_per_iteration": 4.78655243, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 21s", "remaining_time": "4h 56m 40s", "loss_scale": 1.0, "consumed_samples": 685568, "global_step/max_steps": "2678/6350"}
{"lm loss": 4.95162296, "grad_norm": 0.73089892, "learning_rate": 6.772e-05, "elapsed_time_per_iteration": 4.73301244, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 26s", "remaining_time": "4h 56m 35s", "loss_scale": 1.0, "consumed_samples": 685824, "global_step/max_steps": "2679/6350"}
{"lm loss": 4.93560171, "grad_norm": 0.90775484, "learning_rate": 6.77e-05, "elapsed_time_per_iteration": 4.75193834, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 31s", "remaining_time": "4h 56m 30s", "loss_scale": 1.0, "consumed_samples": 686080, "global_step/max_steps": "2680/6350"}
{"lm loss": 4.96217632, "grad_norm": 1.15379155, "learning_rate": 6.767e-05, "elapsed_time_per_iteration": 4.72968459, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 36s", "remaining_time": "4h 56m 25s", "loss_scale": 1.0, "consumed_samples": 686336, "global_step/max_steps": "2681/6350"}
{"lm loss": 4.94295406, "grad_norm": 1.26718795, "learning_rate": 6.765e-05, "elapsed_time_per_iteration": 4.74550319, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 40s", "remaining_time": "4h 56m 20s", "loss_scale": 1.0, "consumed_samples": 686592, "global_step/max_steps": "2682/6350"}
{"lm loss": 4.96476889, "grad_norm": 0.8994984, "learning_rate": 6.762e-05, "elapsed_time_per_iteration": 4.76234198, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 45s", "remaining_time": "4h 56m 15s", "loss_scale": 1.0, "consumed_samples": 686848, "global_step/max_steps": "2683/6350"}
{"lm loss": 4.9353056, "grad_norm": 0.898902, "learning_rate": 6.76e-05, "elapsed_time_per_iteration": 4.70605206, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 50s", "remaining_time": "4h 56m 10s", "loss_scale": 1.0, "consumed_samples": 687104, "global_step/max_steps": "2684/6350"}
{"lm loss": 4.96409273, "grad_norm": 1.52312779, "learning_rate": 6.758e-05, "elapsed_time_per_iteration": 4.70157552, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 55s", "remaining_time": "4h 56m 5s", "loss_scale": 1.0, "consumed_samples": 687360, "global_step/max_steps": "2685/6350"}
{"lm loss": 4.92962408, "grad_norm": 0.79463774, "learning_rate": 6.755e-05, "elapsed_time_per_iteration": 4.70990753, "memory(GiB)": 28.03, "elapsed_time": "3h 36m 59s", "remaining_time": "4h 56m 0s", "loss_scale": 1.0, "consumed_samples": 687616, "global_step/max_steps": "2686/6350"}
{"lm loss": 4.97867918, "grad_norm": 0.99859494, "learning_rate": 6.753e-05, "elapsed_time_per_iteration": 4.72212505, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 4s", "remaining_time": "4h 55m 55s", "loss_scale": 1.0, "consumed_samples": 687872, "global_step/max_steps": "2687/6350"}
{"lm loss": 4.956985, "grad_norm": 1.21728384, "learning_rate": 6.75e-05, "elapsed_time_per_iteration": 4.72552657, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 9s", "remaining_time": "4h 55m 50s", "loss_scale": 1.0, "consumed_samples": 688128, "global_step/max_steps": "2688/6350"}
{"lm loss": 4.93539524, "grad_norm": 0.83909953, "learning_rate": 6.748e-05, "elapsed_time_per_iteration": 4.81375408, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 14s", "remaining_time": "4h 55m 45s", "loss_scale": 1.0, "consumed_samples": 688384, "global_step/max_steps": "2689/6350"}
{"lm loss": 4.97062206, "grad_norm": 0.93388462, "learning_rate": 6.746e-05, "elapsed_time_per_iteration": 4.71924281, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 18s", "remaining_time": "4h 55m 40s", "loss_scale": 1.0, "consumed_samples": 688640, "global_step/max_steps": "2690/6350"}
{"lm loss": 4.96655083, "grad_norm": 0.83290792, "learning_rate": 6.743e-05, "elapsed_time_per_iteration": 4.70943069, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 23s", "remaining_time": "4h 55m 35s", "loss_scale": 1.0, "consumed_samples": 688896, "global_step/max_steps": "2691/6350"}
{"lm loss": 4.94149733, "grad_norm": 0.72398889, "learning_rate": 6.741e-05, "elapsed_time_per_iteration": 4.70619321, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 28s", "remaining_time": "4h 55m 30s", "loss_scale": 1.0, "consumed_samples": 689152, "global_step/max_steps": "2692/6350"}
{"lm loss": 4.99470854, "grad_norm": 0.74768239, "learning_rate": 6.739e-05, "elapsed_time_per_iteration": 5.4619875, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 33s", "remaining_time": "4h 55m 26s", "loss_scale": 1.0, "consumed_samples": 689408, "global_step/max_steps": "2693/6350"}
{"lm loss": 4.96785498, "grad_norm": 0.64700693, "learning_rate": 6.736e-05, "elapsed_time_per_iteration": 4.80723214, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 38s", "remaining_time": "4h 55m 21s", "loss_scale": 1.0, "consumed_samples": 689664, "global_step/max_steps": "2694/6350"}
{"lm loss": 4.96143293, "grad_norm": 0.77608091, "learning_rate": 6.734e-05, "elapsed_time_per_iteration": 4.79249692, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 43s", "remaining_time": "4h 55m 16s", "loss_scale": 1.0, "consumed_samples": 689920, "global_step/max_steps": "2695/6350"}
{"lm loss": 4.98365402, "grad_norm": 0.72902089, "learning_rate": 6.731e-05, "elapsed_time_per_iteration": 5.48502302, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 48s", "remaining_time": "4h 55m 12s", "loss_scale": 1.0, "consumed_samples": 690176, "global_step/max_steps": "2696/6350"}
{"lm loss": 4.97550583, "grad_norm": 0.82758844, "learning_rate": 6.729e-05, "elapsed_time_per_iteration": 4.71673512, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 53s", "remaining_time": "4h 55m 7s", "loss_scale": 1.0, "consumed_samples": 690432, "global_step/max_steps": "2697/6350"}
{"lm loss": 4.96786404, "grad_norm": 1.01881897, "learning_rate": 6.727e-05, "elapsed_time_per_iteration": 4.78842044, "memory(GiB)": 28.03, "elapsed_time": "3h 37m 58s", "remaining_time": "4h 55m 2s", "loss_scale": 1.0, "consumed_samples": 690688, "global_step/max_steps": "2698/6350"}
{"lm loss": 4.95369434, "grad_norm": 1.38420951, "learning_rate": 6.724e-05, "elapsed_time_per_iteration": 4.72550988, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 2s", "remaining_time": "4h 54m 57s", "loss_scale": 1.0, "consumed_samples": 690944, "global_step/max_steps": "2699/6350"}
{"lm loss": 4.9558897, "grad_norm": 0.83005786, "learning_rate": 6.722e-05, "elapsed_time_per_iteration": 4.70459771, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 7s", "remaining_time": "4h 54m 52s", "loss_scale": 1.0, "consumed_samples": 691200, "global_step/max_steps": "2700/6350"}
{"lm loss": 4.95163584, "grad_norm": 0.64504278, "learning_rate": 6.719e-05, "elapsed_time_per_iteration": 4.72252989, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 12s", "remaining_time": "4h 54m 47s", "loss_scale": 1.0, "consumed_samples": 691456, "global_step/max_steps": "2701/6350"}
{"lm loss": 4.91799545, "grad_norm": 0.79145116, "learning_rate": 6.717e-05, "elapsed_time_per_iteration": 4.72212267, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 17s", "remaining_time": "4h 54m 42s", "loss_scale": 1.0, "consumed_samples": 691712, "global_step/max_steps": "2702/6350"}
{"lm loss": 4.93887138, "grad_norm": 1.02409446, "learning_rate": 6.715e-05, "elapsed_time_per_iteration": 5.34564805, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 22s", "remaining_time": "4h 54m 38s", "loss_scale": 1.0, "consumed_samples": 691968, "global_step/max_steps": "2703/6350"}
{"lm loss": 4.93026638, "grad_norm": 1.02523947, "learning_rate": 6.712e-05, "elapsed_time_per_iteration": 4.70018578, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 27s", "remaining_time": "4h 54m 33s", "loss_scale": 1.0, "consumed_samples": 692224, "global_step/max_steps": "2704/6350"}
{"lm loss": 4.94288349, "grad_norm": 1.07640553, "learning_rate": 6.71e-05, "elapsed_time_per_iteration": 4.84345055, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 31s", "remaining_time": "4h 54m 28s", "loss_scale": 1.0, "consumed_samples": 692480, "global_step/max_steps": "2705/6350"}
{"lm loss": 4.95305252, "grad_norm": 0.97692049, "learning_rate": 6.707e-05, "elapsed_time_per_iteration": 4.81082821, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 36s", "remaining_time": "4h 54m 23s", "loss_scale": 1.0, "consumed_samples": 692736, "global_step/max_steps": "2706/6350"}
{"lm loss": 4.96026707, "grad_norm": 0.64168102, "learning_rate": 6.705e-05, "elapsed_time_per_iteration": 4.74037623, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 41s", "remaining_time": "4h 54m 18s", "loss_scale": 1.0, "consumed_samples": 692992, "global_step/max_steps": "2707/6350"}
{"lm loss": 4.93466377, "grad_norm": 0.60313457, "learning_rate": 6.703e-05, "elapsed_time_per_iteration": 4.76434708, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 46s", "remaining_time": "4h 54m 13s", "loss_scale": 1.0, "consumed_samples": 693248, "global_step/max_steps": "2708/6350"}
{"lm loss": 4.94893837, "grad_norm": 0.64629477, "learning_rate": 6.7e-05, "elapsed_time_per_iteration": 4.69872332, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 50s", "remaining_time": "4h 54m 8s", "loss_scale": 1.0, "consumed_samples": 693504, "global_step/max_steps": "2709/6350"}
{"lm loss": 4.96186543, "grad_norm": 0.72193813, "learning_rate": 6.698e-05, "elapsed_time_per_iteration": 4.71075201, "memory(GiB)": 28.03, "elapsed_time": "3h 38m 55s", "remaining_time": "4h 54m 3s", "loss_scale": 1.0, "consumed_samples": 693760, "global_step/max_steps": "2710/6350"}
{"lm loss": 4.95455885, "grad_norm": 0.72499138, "learning_rate": 6.695e-05, "elapsed_time_per_iteration": 4.71853185, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 0s", "remaining_time": "4h 53m 58s", "loss_scale": 1.0, "consumed_samples": 694016, "global_step/max_steps": "2711/6350"}
{"lm loss": 4.95473146, "grad_norm": 0.64468873, "learning_rate": 6.693e-05, "elapsed_time_per_iteration": 4.73631597, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 5s", "remaining_time": "4h 53m 53s", "loss_scale": 1.0, "consumed_samples": 694272, "global_step/max_steps": "2712/6350"}
{"lm loss": 4.94785738, "grad_norm": 0.94591135, "learning_rate": 6.691e-05, "elapsed_time_per_iteration": 4.70351601, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 9s", "remaining_time": "4h 53m 48s", "loss_scale": 1.0, "consumed_samples": 694528, "global_step/max_steps": "2713/6350"}
{"lm loss": 4.9659667, "grad_norm": 0.72529268, "learning_rate": 6.688e-05, "elapsed_time_per_iteration": 4.75475669, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 14s", "remaining_time": "4h 53m 43s", "loss_scale": 1.0, "consumed_samples": 694784, "global_step/max_steps": "2714/6350"}
{"lm loss": 4.96433449, "grad_norm": 0.88836449, "learning_rate": 6.686e-05, "elapsed_time_per_iteration": 4.73799419, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 19s", "remaining_time": "4h 53m 38s", "loss_scale": 1.0, "consumed_samples": 695040, "global_step/max_steps": "2715/6350"}
{"lm loss": 4.984128, "grad_norm": 0.86375433, "learning_rate": 6.684e-05, "elapsed_time_per_iteration": 4.69456768, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 24s", "remaining_time": "4h 53m 33s", "loss_scale": 1.0, "consumed_samples": 695296, "global_step/max_steps": "2716/6350"}
{"lm loss": 4.96606302, "grad_norm": 0.96918821, "learning_rate": 6.681e-05, "elapsed_time_per_iteration": 4.7225132, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 28s", "remaining_time": "4h 53m 28s", "loss_scale": 1.0, "consumed_samples": 695552, "global_step/max_steps": "2717/6350"}
{"lm loss": 4.96597862, "grad_norm": 1.19183528, "learning_rate": 6.679e-05, "elapsed_time_per_iteration": 5.51898122, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 34s", "remaining_time": "4h 53m 24s", "loss_scale": 1.0, "consumed_samples": 695808, "global_step/max_steps": "2718/6350"}
{"lm loss": 4.93919563, "grad_norm": 0.95713049, "learning_rate": 6.676e-05, "elapsed_time_per_iteration": 4.71287918, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 38s", "remaining_time": "4h 53m 19s", "loss_scale": 1.0, "consumed_samples": 696064, "global_step/max_steps": "2719/6350"}
{"lm loss": 4.9602704, "grad_norm": 0.75835901, "learning_rate": 6.674e-05, "elapsed_time_per_iteration": 4.71452045, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 43s", "remaining_time": "4h 53m 14s", "loss_scale": 1.0, "consumed_samples": 696320, "global_step/max_steps": "2720/6350"}
{"lm loss": 4.93545389, "grad_norm": 0.63730866, "learning_rate": 6.672e-05, "elapsed_time_per_iteration": 4.70043993, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 48s", "remaining_time": "4h 53m 9s", "loss_scale": 1.0, "consumed_samples": 696576, "global_step/max_steps": "2721/6350"}
{"lm loss": 4.94413805, "grad_norm": 0.59475553, "learning_rate": 6.669e-05, "elapsed_time_per_iteration": 5.5426898, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 53s", "remaining_time": "4h 53m 5s", "loss_scale": 1.0, "consumed_samples": 696832, "global_step/max_steps": "2722/6350"}
{"lm loss": 4.95271492, "grad_norm": 0.60703605, "learning_rate": 6.667e-05, "elapsed_time_per_iteration": 4.70957518, "memory(GiB)": 28.03, "elapsed_time": "3h 39m 58s", "remaining_time": "4h 53m 0s", "loss_scale": 1.0, "consumed_samples": 697088, "global_step/max_steps": "2723/6350"}
{"lm loss": 4.94751406, "grad_norm": 0.83144969, "learning_rate": 6.664e-05, "elapsed_time_per_iteration": 4.97696185, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 3s", "remaining_time": "4h 52m 55s", "loss_scale": 1.0, "consumed_samples": 697344, "global_step/max_steps": "2724/6350"}
{"lm loss": 4.9414525, "grad_norm": 1.02245009, "learning_rate": 6.662e-05, "elapsed_time_per_iteration": 4.80289936, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 8s", "remaining_time": "4h 52m 50s", "loss_scale": 1.0, "consumed_samples": 697600, "global_step/max_steps": "2725/6350"}
{"lm loss": 4.95897818, "grad_norm": 1.10367155, "learning_rate": 6.66e-05, "elapsed_time_per_iteration": 4.77266455, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 13s", "remaining_time": "4h 52m 45s", "loss_scale": 1.0, "consumed_samples": 697856, "global_step/max_steps": "2726/6350"}
{"lm loss": 4.96184349, "grad_norm": 1.01517165, "learning_rate": 6.657e-05, "elapsed_time_per_iteration": 4.71614289, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 17s", "remaining_time": "4h 52m 40s", "loss_scale": 1.0, "consumed_samples": 698112, "global_step/max_steps": "2727/6350"}
{"lm loss": 4.96737814, "grad_norm": 0.92877942, "learning_rate": 6.655e-05, "elapsed_time_per_iteration": 4.72173738, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 22s", "remaining_time": "4h 52m 35s", "loss_scale": 1.0, "consumed_samples": 698368, "global_step/max_steps": "2728/6350"}
{"lm loss": 4.9614625, "grad_norm": 0.78535134, "learning_rate": 6.652e-05, "elapsed_time_per_iteration": 4.70608974, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 27s", "remaining_time": "4h 52m 30s", "loss_scale": 1.0, "consumed_samples": 698624, "global_step/max_steps": "2729/6350"}
{"lm loss": 4.95304871, "grad_norm": 0.7119292, "learning_rate": 6.65e-05, "elapsed_time_per_iteration": 4.78654695, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 32s", "remaining_time": "4h 52m 25s", "loss_scale": 1.0, "consumed_samples": 698880, "global_step/max_steps": "2730/6350"}
{"lm loss": 4.95012617, "grad_norm": 1.15898252, "learning_rate": 6.648e-05, "elapsed_time_per_iteration": 5.21901917, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 37s", "remaining_time": "4h 52m 21s", "loss_scale": 1.0, "consumed_samples": 699136, "global_step/max_steps": "2731/6350"}
{"lm loss": 4.97706413, "grad_norm": 0.60927892, "learning_rate": 6.645e-05, "elapsed_time_per_iteration": 4.71005297, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 42s", "remaining_time": "4h 52m 16s", "loss_scale": 1.0, "consumed_samples": 699392, "global_step/max_steps": "2732/6350"}
{"lm loss": 4.95392275, "grad_norm": 0.68468469, "learning_rate": 6.643e-05, "elapsed_time_per_iteration": 4.7032795, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 46s", "remaining_time": "4h 52m 11s", "loss_scale": 1.0, "consumed_samples": 699648, "global_step/max_steps": "2733/6350"}
{"lm loss": 4.9656415, "grad_norm": 0.62737334, "learning_rate": 6.64e-05, "elapsed_time_per_iteration": 4.6717875, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 51s", "remaining_time": "4h 52m 6s", "loss_scale": 1.0, "consumed_samples": 699904, "global_step/max_steps": "2734/6350"}
{"lm loss": 4.93476534, "grad_norm": 0.88857192, "learning_rate": 6.638e-05, "elapsed_time_per_iteration": 4.70258164, "memory(GiB)": 28.03, "elapsed_time": "3h 40m 56s", "remaining_time": "4h 52m 1s", "loss_scale": 1.0, "consumed_samples": 700160, "global_step/max_steps": "2735/6350"}
{"lm loss": 4.97740746, "grad_norm": 0.67098731, "learning_rate": 6.636e-05, "elapsed_time_per_iteration": 4.70343423, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 0s", "remaining_time": "4h 51m 56s", "loss_scale": 1.0, "consumed_samples": 700416, "global_step/max_steps": "2736/6350"}
{"lm loss": 4.93262482, "grad_norm": 0.74282724, "learning_rate": 6.633e-05, "elapsed_time_per_iteration": 4.70625687, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 5s", "remaining_time": "4h 51m 51s", "loss_scale": 1.0, "consumed_samples": 700672, "global_step/max_steps": "2737/6350"}
{"lm loss": 4.96802425, "grad_norm": 0.80872554, "learning_rate": 6.631e-05, "elapsed_time_per_iteration": 4.73981786, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 10s", "remaining_time": "4h 51m 46s", "loss_scale": 1.0, "consumed_samples": 700928, "global_step/max_steps": "2738/6350"}
{"lm loss": 4.94197416, "grad_norm": 0.98155683, "learning_rate": 6.628e-05, "elapsed_time_per_iteration": 4.72726178, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 15s", "remaining_time": "4h 51m 41s", "loss_scale": 1.0, "consumed_samples": 701184, "global_step/max_steps": "2739/6350"}
{"lm loss": 4.97327328, "grad_norm": 1.38884258, "learning_rate": 6.626e-05, "elapsed_time_per_iteration": 4.76461887, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 19s", "remaining_time": "4h 51m 36s", "loss_scale": 1.0, "consumed_samples": 701440, "global_step/max_steps": "2740/6350"}
{"lm loss": 4.96305847, "grad_norm": 0.77245694, "learning_rate": 6.623e-05, "elapsed_time_per_iteration": 4.71489954, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 24s", "remaining_time": "4h 51m 31s", "loss_scale": 1.0, "consumed_samples": 701696, "global_step/max_steps": "2741/6350"}
{"lm loss": 4.95543909, "grad_norm": 0.80255508, "learning_rate": 6.621e-05, "elapsed_time_per_iteration": 4.77481437, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 29s", "remaining_time": "4h 51m 26s", "loss_scale": 1.0, "consumed_samples": 701952, "global_step/max_steps": "2742/6350"}
{"lm loss": 4.9372468, "grad_norm": 1.20092034, "learning_rate": 6.619e-05, "elapsed_time_per_iteration": 4.78518033, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 34s", "remaining_time": "4h 51m 21s", "loss_scale": 1.0, "consumed_samples": 702208, "global_step/max_steps": "2743/6350"}
{"lm loss": 4.95229435, "grad_norm": 1.08072317, "learning_rate": 6.616e-05, "elapsed_time_per_iteration": 4.722574, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 38s", "remaining_time": "4h 51m 16s", "loss_scale": 1.0, "consumed_samples": 702464, "global_step/max_steps": "2744/6350"}
{"lm loss": 4.96660137, "grad_norm": 0.99708086, "learning_rate": 6.614e-05, "elapsed_time_per_iteration": 4.77442145, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 43s", "remaining_time": "4h 51m 11s", "loss_scale": 1.0, "consumed_samples": 702720, "global_step/max_steps": "2745/6350"}
{"lm loss": 4.94918633, "grad_norm": 0.9211331, "learning_rate": 6.611e-05, "elapsed_time_per_iteration": 4.75279474, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 48s", "remaining_time": "4h 51m 6s", "loss_scale": 1.0, "consumed_samples": 702976, "global_step/max_steps": "2746/6350"}
{"lm loss": 4.94272089, "grad_norm": 0.78226906, "learning_rate": 6.609e-05, "elapsed_time_per_iteration": 4.74119544, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 53s", "remaining_time": "4h 51m 1s", "loss_scale": 1.0, "consumed_samples": 703232, "global_step/max_steps": "2747/6350"}
{"lm loss": 4.94887686, "grad_norm": 0.69564903, "learning_rate": 6.607e-05, "elapsed_time_per_iteration": 4.67209673, "memory(GiB)": 28.03, "elapsed_time": "3h 41m 57s", "remaining_time": "4h 50m 56s", "loss_scale": 1.0, "consumed_samples": 703488, "global_step/max_steps": "2748/6350"}
{"lm loss": 4.93786097, "grad_norm": 0.76962107, "learning_rate": 6.604e-05, "elapsed_time_per_iteration": 5.61458945, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 3s", "remaining_time": "4h 50m 52s", "loss_scale": 1.0, "consumed_samples": 703744, "global_step/max_steps": "2749/6350"}
{"lm loss": 4.96039057, "grad_norm": 0.7179724, "learning_rate": 6.602e-05, "elapsed_time_per_iteration": 4.8099792, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 8s", "remaining_time": "4h 50m 47s", "loss_scale": 1.0, "consumed_samples": 704000, "global_step/max_steps": "2750/6350"}
{"lm loss": 4.96714211, "grad_norm": 0.75116187, "learning_rate": 6.599e-05, "elapsed_time_per_iteration": 4.74179935, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 12s", "remaining_time": "4h 50m 42s", "loss_scale": 1.0, "consumed_samples": 704256, "global_step/max_steps": "2751/6350"}
{"lm loss": 4.99202776, "grad_norm": 0.86737913, "learning_rate": 6.597e-05, "elapsed_time_per_iteration": 4.66768169, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 17s", "remaining_time": "4h 50m 37s", "loss_scale": 1.0, "consumed_samples": 704512, "global_step/max_steps": "2752/6350"}
{"lm loss": 4.9633317, "grad_norm": 0.92704213, "learning_rate": 6.595e-05, "elapsed_time_per_iteration": 4.7644031, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 22s", "remaining_time": "4h 50m 32s", "loss_scale": 1.0, "consumed_samples": 704768, "global_step/max_steps": "2753/6350"}
{"lm loss": 4.94251442, "grad_norm": 1.09527504, "learning_rate": 6.592e-05, "elapsed_time_per_iteration": 4.75341749, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 27s", "remaining_time": "4h 50m 27s", "loss_scale": 1.0, "consumed_samples": 705024, "global_step/max_steps": "2754/6350"}
{"lm loss": 4.92934895, "grad_norm": 1.19416165, "learning_rate": 6.59e-05, "elapsed_time_per_iteration": 5.64824033, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 32s", "remaining_time": "4h 50m 23s", "loss_scale": 1.0, "consumed_samples": 705280, "global_step/max_steps": "2755/6350"}
{"lm loss": 4.96308088, "grad_norm": 0.90849853, "learning_rate": 6.587e-05, "elapsed_time_per_iteration": 4.80328536, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 37s", "remaining_time": "4h 50m 19s", "loss_scale": 1.0, "consumed_samples": 705536, "global_step/max_steps": "2756/6350"}
{"lm loss": 4.956532, "grad_norm": 0.74896902, "learning_rate": 6.585e-05, "elapsed_time_per_iteration": 4.69942713, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 42s", "remaining_time": "4h 50m 14s", "loss_scale": 1.0, "consumed_samples": 705792, "global_step/max_steps": "2757/6350"}
{"lm loss": 4.9704113, "grad_norm": 0.68975347, "learning_rate": 6.583e-05, "elapsed_time_per_iteration": 5.57419705, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 47s", "remaining_time": "4h 50m 10s", "loss_scale": 1.0, "consumed_samples": 706048, "global_step/max_steps": "2758/6350"}
{"lm loss": 4.94887495, "grad_norm": 0.62247431, "learning_rate": 6.58e-05, "elapsed_time_per_iteration": 4.74634671, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 52s", "remaining_time": "4h 50m 5s", "loss_scale": 1.0, "consumed_samples": 706304, "global_step/max_steps": "2759/6350"}
{"lm loss": 4.94332123, "grad_norm": 0.8268277, "learning_rate": 6.578e-05, "elapsed_time_per_iteration": 4.70689607, "memory(GiB)": 28.03, "elapsed_time": "3h 42m 57s", "remaining_time": "4h 50m 0s", "loss_scale": 1.0, "consumed_samples": 706560, "global_step/max_steps": "2760/6350"}
{"lm loss": 4.9640708, "grad_norm": 0.83887011, "learning_rate": 6.575e-05, "elapsed_time_per_iteration": 4.73770332, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 1s", "remaining_time": "4h 49m 55s", "loss_scale": 1.0, "consumed_samples": 706816, "global_step/max_steps": "2761/6350"}
{"lm loss": 4.95574522, "grad_norm": 0.75404102, "learning_rate": 6.573e-05, "elapsed_time_per_iteration": 4.7119441, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 6s", "remaining_time": "4h 49m 50s", "loss_scale": 1.0, "consumed_samples": 707072, "global_step/max_steps": "2762/6350"}
{"lm loss": 4.95601273, "grad_norm": 0.85242659, "learning_rate": 6.57e-05, "elapsed_time_per_iteration": 5.41603899, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 12s", "remaining_time": "4h 49m 46s", "loss_scale": 1.0, "consumed_samples": 707328, "global_step/max_steps": "2763/6350"}
{"lm loss": 4.9624157, "grad_norm": 0.90125287, "learning_rate": 6.568e-05, "elapsed_time_per_iteration": 4.80292392, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 16s", "remaining_time": "4h 49m 41s", "loss_scale": 1.0, "consumed_samples": 707584, "global_step/max_steps": "2764/6350"}
{"lm loss": 4.95017672, "grad_norm": 0.72898829, "learning_rate": 6.566e-05, "elapsed_time_per_iteration": 4.76816106, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 21s", "remaining_time": "4h 49m 36s", "loss_scale": 1.0, "consumed_samples": 707840, "global_step/max_steps": "2765/6350"}
{"lm loss": 4.93982649, "grad_norm": 0.71407562, "learning_rate": 6.563e-05, "elapsed_time_per_iteration": 4.6914053, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 26s", "remaining_time": "4h 49m 31s", "loss_scale": 1.0, "consumed_samples": 708096, "global_step/max_steps": "2766/6350"}
{"lm loss": 4.96520424, "grad_norm": 0.85887796, "learning_rate": 6.561e-05, "elapsed_time_per_iteration": 4.77583838, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 31s", "remaining_time": "4h 49m 26s", "loss_scale": 1.0, "consumed_samples": 708352, "global_step/max_steps": "2767/6350"}
{"lm loss": 4.92646933, "grad_norm": 1.08911157, "learning_rate": 6.558e-05, "elapsed_time_per_iteration": 4.76655793, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 35s", "remaining_time": "4h 49m 21s", "loss_scale": 1.0, "consumed_samples": 708608, "global_step/max_steps": "2768/6350"}
{"lm loss": 4.97767782, "grad_norm": 1.3368032, "learning_rate": 6.556e-05, "elapsed_time_per_iteration": 4.79695153, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 40s", "remaining_time": "4h 49m 16s", "loss_scale": 1.0, "consumed_samples": 708864, "global_step/max_steps": "2769/6350"}
{"lm loss": 4.96000671, "grad_norm": 0.98322928, "learning_rate": 6.554e-05, "elapsed_time_per_iteration": 4.78842139, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 45s", "remaining_time": "4h 49m 11s", "loss_scale": 1.0, "consumed_samples": 709120, "global_step/max_steps": "2770/6350"}
{"lm loss": 4.9403677, "grad_norm": 0.80284613, "learning_rate": 6.551e-05, "elapsed_time_per_iteration": 4.73606634, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 50s", "remaining_time": "4h 49m 6s", "loss_scale": 1.0, "consumed_samples": 709376, "global_step/max_steps": "2771/6350"}
{"lm loss": 4.92828274, "grad_norm": 1.34433389, "learning_rate": 6.549e-05, "elapsed_time_per_iteration": 4.77322698, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 55s", "remaining_time": "4h 49m 1s", "loss_scale": 1.0, "consumed_samples": 709632, "global_step/max_steps": "2772/6350"}
{"lm loss": 4.94162321, "grad_norm": 1.11442828, "learning_rate": 6.546e-05, "elapsed_time_per_iteration": 4.73995543, "memory(GiB)": 28.03, "elapsed_time": "3h 43m 59s", "remaining_time": "4h 48m 56s", "loss_scale": 1.0, "consumed_samples": 709888, "global_step/max_steps": "2773/6350"}
{"lm loss": 4.92571545, "grad_norm": 0.75875485, "learning_rate": 6.544e-05, "elapsed_time_per_iteration": 5.33773947, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 5s", "remaining_time": "4h 48m 52s", "loss_scale": 1.0, "consumed_samples": 710144, "global_step/max_steps": "2774/6350"}
{"lm loss": 4.93762159, "grad_norm": 0.88340074, "learning_rate": 6.541e-05, "elapsed_time_per_iteration": 4.73331118, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 9s", "remaining_time": "4h 48m 47s", "loss_scale": 1.0, "consumed_samples": 710400, "global_step/max_steps": "2775/6350"}
{"lm loss": 4.97201109, "grad_norm": 1.50314879, "learning_rate": 6.539e-05, "elapsed_time_per_iteration": 4.72508097, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 14s", "remaining_time": "4h 48m 42s", "loss_scale": 1.0, "consumed_samples": 710656, "global_step/max_steps": "2776/6350"}
{"lm loss": 4.94727516, "grad_norm": 0.79502779, "learning_rate": 6.537e-05, "elapsed_time_per_iteration": 4.69783545, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 19s", "remaining_time": "4h 48m 37s", "loss_scale": 1.0, "consumed_samples": 710912, "global_step/max_steps": "2777/6350"}
{"lm loss": 4.94822311, "grad_norm": 0.80077577, "learning_rate": 6.534e-05, "elapsed_time_per_iteration": 5.23497844, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 24s", "remaining_time": "4h 48m 32s", "loss_scale": 1.0, "consumed_samples": 711168, "global_step/max_steps": "2778/6350"}
{"lm loss": 4.94971228, "grad_norm": 1.00004411, "learning_rate": 6.532e-05, "elapsed_time_per_iteration": 4.77595067, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 29s", "remaining_time": "4h 48m 27s", "loss_scale": 1.0, "consumed_samples": 711424, "global_step/max_steps": "2779/6350"}
{"lm loss": 4.96839333, "grad_norm": 1.33528256, "learning_rate": 6.529e-05, "elapsed_time_per_iteration": 4.72368908, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 33s", "remaining_time": "4h 48m 22s", "loss_scale": 1.0, "consumed_samples": 711680, "global_step/max_steps": "2780/6350"}
{"lm loss": 4.97179365, "grad_norm": 0.70102155, "learning_rate": 6.527e-05, "elapsed_time_per_iteration": 4.7056067, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 38s", "remaining_time": "4h 48m 17s", "loss_scale": 1.0, "consumed_samples": 711936, "global_step/max_steps": "2781/6350"}
{"lm loss": 4.9405551, "grad_norm": 1.21785986, "learning_rate": 6.524e-05, "elapsed_time_per_iteration": 4.6989522, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 43s", "remaining_time": "4h 48m 12s", "loss_scale": 1.0, "consumed_samples": 712192, "global_step/max_steps": "2782/6350"}
{"lm loss": 4.98392344, "grad_norm": 1.18823516, "learning_rate": 6.522e-05, "elapsed_time_per_iteration": 4.7460494, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 48s", "remaining_time": "4h 48m 7s", "loss_scale": 1.0, "consumed_samples": 712448, "global_step/max_steps": "2783/6350"}
{"lm loss": 4.94577742, "grad_norm": 0.85729706, "learning_rate": 6.52e-05, "elapsed_time_per_iteration": 4.77085423, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 52s", "remaining_time": "4h 48m 2s", "loss_scale": 1.0, "consumed_samples": 712704, "global_step/max_steps": "2784/6350"}
{"lm loss": 4.94592381, "grad_norm": 0.97832674, "learning_rate": 6.517e-05, "elapsed_time_per_iteration": 4.77150106, "memory(GiB)": 28.03, "elapsed_time": "3h 44m 57s", "remaining_time": "4h 47m 57s", "loss_scale": 1.0, "consumed_samples": 712960, "global_step/max_steps": "2785/6350"}
{"lm loss": 4.95961142, "grad_norm": 1.39744902, "learning_rate": 6.515e-05, "elapsed_time_per_iteration": 4.69055462, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 2s", "remaining_time": "4h 47m 52s", "loss_scale": 1.0, "consumed_samples": 713216, "global_step/max_steps": "2786/6350"}
{"lm loss": 4.98061657, "grad_norm": 0.75284761, "learning_rate": 6.512e-05, "elapsed_time_per_iteration": 4.72728705, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 7s", "remaining_time": "4h 47m 47s", "loss_scale": 1.0, "consumed_samples": 713472, "global_step/max_steps": "2787/6350"}
{"lm loss": 4.95078087, "grad_norm": 1.45155036, "learning_rate": 6.51e-05, "elapsed_time_per_iteration": 4.7407279, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 11s", "remaining_time": "4h 47m 42s", "loss_scale": 1.0, "consumed_samples": 713728, "global_step/max_steps": "2788/6350"}
{"lm loss": 4.94421291, "grad_norm": 0.88952488, "learning_rate": 6.508e-05, "elapsed_time_per_iteration": 4.78103185, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 16s", "remaining_time": "4h 47m 38s", "loss_scale": 1.0, "consumed_samples": 713984, "global_step/max_steps": "2789/6350"}
{"lm loss": 4.94877386, "grad_norm": 1.00981522, "learning_rate": 6.505e-05, "elapsed_time_per_iteration": 4.79566813, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 21s", "remaining_time": "4h 47m 33s", "loss_scale": 1.0, "consumed_samples": 714240, "global_step/max_steps": "2790/6350"}
{"lm loss": 4.96648884, "grad_norm": 0.94622099, "learning_rate": 6.503e-05, "elapsed_time_per_iteration": 4.74834299, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 26s", "remaining_time": "4h 47m 28s", "loss_scale": 1.0, "consumed_samples": 714496, "global_step/max_steps": "2791/6350"}
{"lm loss": 4.93131304, "grad_norm": 0.94061238, "learning_rate": 6.5e-05, "elapsed_time_per_iteration": 4.76299691, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 30s", "remaining_time": "4h 47m 23s", "loss_scale": 1.0, "consumed_samples": 714752, "global_step/max_steps": "2792/6350"}
{"lm loss": 4.96366024, "grad_norm": 0.90977609, "learning_rate": 6.498e-05, "elapsed_time_per_iteration": 4.87053466, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 35s", "remaining_time": "4h 47m 18s", "loss_scale": 1.0, "consumed_samples": 715008, "global_step/max_steps": "2793/6350"}
{"lm loss": 4.95241737, "grad_norm": 0.83575499, "learning_rate": 6.495e-05, "elapsed_time_per_iteration": 5.46267033, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 41s", "remaining_time": "4h 47m 14s", "loss_scale": 1.0, "consumed_samples": 715264, "global_step/max_steps": "2794/6350"}
{"lm loss": 4.94115973, "grad_norm": 0.80563515, "learning_rate": 6.493e-05, "elapsed_time_per_iteration": 5.48255014, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 46s", "remaining_time": "4h 47m 10s", "loss_scale": 1.0, "consumed_samples": 715520, "global_step/max_steps": "2795/6350"}
{"lm loss": 4.94292879, "grad_norm": 0.7338587, "learning_rate": 6.491e-05, "elapsed_time_per_iteration": 4.74514389, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 51s", "remaining_time": "4h 47m 5s", "loss_scale": 1.0, "consumed_samples": 715776, "global_step/max_steps": "2796/6350"}
{"lm loss": 4.94621563, "grad_norm": 0.73649919, "learning_rate": 6.488e-05, "elapsed_time_per_iteration": 4.75658274, "memory(GiB)": 28.03, "elapsed_time": "3h 45m 56s", "remaining_time": "4h 47m 0s", "loss_scale": 1.0, "consumed_samples": 716032, "global_step/max_steps": "2797/6350"}
{"lm loss": 4.93875122, "grad_norm": 0.79805756, "learning_rate": 6.486e-05, "elapsed_time_per_iteration": 4.73686004, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 0s", "remaining_time": "4h 46m 55s", "loss_scale": 1.0, "consumed_samples": 716288, "global_step/max_steps": "2798/6350"}
{"lm loss": 4.95532322, "grad_norm": 0.76206613, "learning_rate": 6.483e-05, "elapsed_time_per_iteration": 4.77888465, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 5s", "remaining_time": "4h 46m 50s", "loss_scale": 1.0, "consumed_samples": 716544, "global_step/max_steps": "2799/6350"}
{"lm loss": 4.95713711, "grad_norm": 0.93212658, "learning_rate": 6.481e-05, "elapsed_time_per_iteration": 4.7649231, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 10s", "remaining_time": "4h 46m 45s", "loss_scale": 1.0, "consumed_samples": 716800, "global_step/max_steps": "2800/6350"}
{"lm loss": 4.95670319, "grad_norm": 0.88824403, "learning_rate": 6.478e-05, "elapsed_time_per_iteration": 4.69468141, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 15s", "remaining_time": "4h 46m 40s", "loss_scale": 1.0, "consumed_samples": 717056, "global_step/max_steps": "2801/6350"}
{"lm loss": 4.95172071, "grad_norm": 0.82197332, "learning_rate": 6.476e-05, "elapsed_time_per_iteration": 4.73541927, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 19s", "remaining_time": "4h 46m 35s", "loss_scale": 1.0, "consumed_samples": 717312, "global_step/max_steps": "2802/6350"}
{"lm loss": 4.98612309, "grad_norm": 1.12359154, "learning_rate": 6.474e-05, "elapsed_time_per_iteration": 5.62189221, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 25s", "remaining_time": "4h 46m 31s", "loss_scale": 1.0, "consumed_samples": 717568, "global_step/max_steps": "2803/6350"}
{"lm loss": 4.92276382, "grad_norm": 0.78960294, "learning_rate": 6.471e-05, "elapsed_time_per_iteration": 4.77721763, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 30s", "remaining_time": "4h 46m 26s", "loss_scale": 1.0, "consumed_samples": 717824, "global_step/max_steps": "2804/6350"}
{"lm loss": 4.9355855, "grad_norm": 0.76167816, "learning_rate": 6.469e-05, "elapsed_time_per_iteration": 4.82128143, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 35s", "remaining_time": "4h 46m 21s", "loss_scale": 1.0, "consumed_samples": 718080, "global_step/max_steps": "2805/6350"}
{"lm loss": 4.94195461, "grad_norm": 0.75902164, "learning_rate": 6.466e-05, "elapsed_time_per_iteration": 4.79554987, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 39s", "remaining_time": "4h 46m 16s", "loss_scale": 1.0, "consumed_samples": 718336, "global_step/max_steps": "2806/6350"}
{"lm loss": 4.96636391, "grad_norm": 0.70476615, "learning_rate": 6.464e-05, "elapsed_time_per_iteration": 5.73248076, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 45s", "remaining_time": "4h 46m 13s", "loss_scale": 1.0, "consumed_samples": 718592, "global_step/max_steps": "2807/6350"}
{"lm loss": 4.93567944, "grad_norm": 0.66367513, "learning_rate": 6.461e-05, "elapsed_time_per_iteration": 4.80217052, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 50s", "remaining_time": "4h 46m 8s", "loss_scale": 1.0, "consumed_samples": 718848, "global_step/max_steps": "2808/6350"}
{"lm loss": 4.9545269, "grad_norm": 0.70295221, "learning_rate": 6.459e-05, "elapsed_time_per_iteration": 4.8192997, "memory(GiB)": 28.03, "elapsed_time": "3h 46m 55s", "remaining_time": "4h 46m 3s", "loss_scale": 1.0, "consumed_samples": 719104, "global_step/max_steps": "2809/6350"}
{"lm loss": 4.97430086, "grad_norm": 0.68061936, "learning_rate": 6.457e-05, "elapsed_time_per_iteration": 4.80338264, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 0s", "remaining_time": "4h 45m 58s", "loss_scale": 1.0, "consumed_samples": 719360, "global_step/max_steps": "2810/6350"}
{"lm loss": 4.95584536, "grad_norm": 0.58823019, "learning_rate": 6.454e-05, "elapsed_time_per_iteration": 4.81993198, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 4s", "remaining_time": "4h 45m 53s", "loss_scale": 1.0, "consumed_samples": 719616, "global_step/max_steps": "2811/6350"}
{"lm loss": 4.92327881, "grad_norm": 0.59048301, "learning_rate": 6.452e-05, "elapsed_time_per_iteration": 4.84819555, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 9s", "remaining_time": "4h 45m 48s", "loss_scale": 1.0, "consumed_samples": 719872, "global_step/max_steps": "2812/6350"}
{"lm loss": 4.93809462, "grad_norm": 0.79140818, "learning_rate": 6.449e-05, "elapsed_time_per_iteration": 4.81384468, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 14s", "remaining_time": "4h 45m 43s", "loss_scale": 1.0, "consumed_samples": 720128, "global_step/max_steps": "2813/6350"}
{"lm loss": 4.96514797, "grad_norm": 0.9297933, "learning_rate": 6.447e-05, "elapsed_time_per_iteration": 4.78092551, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 19s", "remaining_time": "4h 45m 38s", "loss_scale": 1.0, "consumed_samples": 720384, "global_step/max_steps": "2814/6350"}
{"lm loss": 4.97252989, "grad_norm": 1.15981114, "learning_rate": 6.444e-05, "elapsed_time_per_iteration": 4.83117914, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 24s", "remaining_time": "4h 45m 34s", "loss_scale": 1.0, "consumed_samples": 720640, "global_step/max_steps": "2815/6350"}
{"lm loss": 4.95223427, "grad_norm": 0.80791759, "learning_rate": 6.442e-05, "elapsed_time_per_iteration": 4.82589197, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 29s", "remaining_time": "4h 45m 29s", "loss_scale": 1.0, "consumed_samples": 720896, "global_step/max_steps": "2816/6350"}
{"lm loss": 4.94653034, "grad_norm": 0.73648208, "learning_rate": 6.439e-05, "elapsed_time_per_iteration": 4.80045342, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 33s", "remaining_time": "4h 45m 24s", "loss_scale": 1.0, "consumed_samples": 721152, "global_step/max_steps": "2817/6350"}
{"lm loss": 4.95698309, "grad_norm": 0.7119996, "learning_rate": 6.437e-05, "elapsed_time_per_iteration": 4.74475002, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 38s", "remaining_time": "4h 45m 19s", "loss_scale": 1.0, "consumed_samples": 721408, "global_step/max_steps": "2818/6350"}
{"lm loss": 4.9559927, "grad_norm": 0.80491465, "learning_rate": 6.435e-05, "elapsed_time_per_iteration": 4.83163977, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 43s", "remaining_time": "4h 45m 14s", "loss_scale": 1.0, "consumed_samples": 721664, "global_step/max_steps": "2819/6350"}
{"lm loss": 4.9419322, "grad_norm": 1.23366463, "learning_rate": 6.432e-05, "elapsed_time_per_iteration": 4.7595911, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 48s", "remaining_time": "4h 45m 9s", "loss_scale": 1.0, "consumed_samples": 721920, "global_step/max_steps": "2820/6350"}
{"lm loss": 4.93254709, "grad_norm": 0.62732369, "learning_rate": 6.43e-05, "elapsed_time_per_iteration": 4.7178607, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 52s", "remaining_time": "4h 45m 4s", "loss_scale": 1.0, "consumed_samples": 722176, "global_step/max_steps": "2821/6350"}
{"lm loss": 4.96705198, "grad_norm": 0.55228573, "learning_rate": 6.427e-05, "elapsed_time_per_iteration": 4.81749988, "memory(GiB)": 28.03, "elapsed_time": "3h 47m 57s", "remaining_time": "4h 44m 59s", "loss_scale": 1.0, "consumed_samples": 722432, "global_step/max_steps": "2822/6350"}
{"lm loss": 4.95148563, "grad_norm": 0.72630984, "learning_rate": 6.425e-05, "elapsed_time_per_iteration": 4.78507471, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 2s", "remaining_time": "4h 44m 54s", "loss_scale": 1.0, "consumed_samples": 722688, "global_step/max_steps": "2823/6350"}
{"lm loss": 4.9288168, "grad_norm": 0.99515802, "learning_rate": 6.422e-05, "elapsed_time_per_iteration": 4.78817105, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 7s", "remaining_time": "4h 44m 49s", "loss_scale": 1.0, "consumed_samples": 722944, "global_step/max_steps": "2824/6350"}
{"lm loss": 4.92667675, "grad_norm": 1.24852133, "learning_rate": 6.42e-05, "elapsed_time_per_iteration": 5.76286674, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 13s", "remaining_time": "4h 44m 46s", "loss_scale": 1.0, "consumed_samples": 723200, "global_step/max_steps": "2825/6350"}
{"lm loss": 4.95609474, "grad_norm": 0.80595958, "learning_rate": 6.418e-05, "elapsed_time_per_iteration": 4.73897481, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 17s", "remaining_time": "4h 44m 41s", "loss_scale": 1.0, "consumed_samples": 723456, "global_step/max_steps": "2826/6350"}
{"lm loss": 4.94167185, "grad_norm": 1.01688766, "learning_rate": 6.415e-05, "elapsed_time_per_iteration": 4.78368139, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 22s", "remaining_time": "4h 44m 36s", "loss_scale": 1.0, "consumed_samples": 723712, "global_step/max_steps": "2827/6350"}
{"lm loss": 4.9579916, "grad_norm": 0.70588189, "learning_rate": 6.413e-05, "elapsed_time_per_iteration": 4.73621583, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 27s", "remaining_time": "4h 44m 31s", "loss_scale": 1.0, "consumed_samples": 723968, "global_step/max_steps": "2828/6350"}
{"lm loss": 4.93589067, "grad_norm": 0.8738485, "learning_rate": 6.41e-05, "elapsed_time_per_iteration": 4.74490476, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 32s", "remaining_time": "4h 44m 26s", "loss_scale": 1.0, "consumed_samples": 724224, "global_step/max_steps": "2829/6350"}
{"lm loss": 4.94404888, "grad_norm": 1.03904784, "learning_rate": 6.408e-05, "elapsed_time_per_iteration": 4.72801304, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 36s", "remaining_time": "4h 44m 21s", "loss_scale": 1.0, "consumed_samples": 724480, "global_step/max_steps": "2830/6350"}
{"lm loss": 4.96243382, "grad_norm": 0.98408669, "learning_rate": 6.405e-05, "elapsed_time_per_iteration": 5.03658652, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 41s", "remaining_time": "4h 44m 16s", "loss_scale": 1.0, "consumed_samples": 724736, "global_step/max_steps": "2831/6350"}
{"lm loss": 4.95229006, "grad_norm": 0.87914485, "learning_rate": 6.403e-05, "elapsed_time_per_iteration": 5.55954695, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 47s", "remaining_time": "4h 44m 12s", "loss_scale": 1.0, "consumed_samples": 724992, "global_step/max_steps": "2832/6350"}
{"lm loss": 4.93392372, "grad_norm": 0.88058621, "learning_rate": 6.4e-05, "elapsed_time_per_iteration": 4.76594853, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 52s", "remaining_time": "4h 44m 7s", "loss_scale": 1.0, "consumed_samples": 725248, "global_step/max_steps": "2833/6350"}
{"lm loss": 4.9422369, "grad_norm": 0.72139627, "learning_rate": 6.398e-05, "elapsed_time_per_iteration": 4.75780129, "memory(GiB)": 28.03, "elapsed_time": "3h 48m 56s", "remaining_time": "4h 44m 2s", "loss_scale": 1.0, "consumed_samples": 725504, "global_step/max_steps": "2834/6350"}
{"lm loss": 4.92671347, "grad_norm": 0.73341334, "learning_rate": 6.396e-05, "elapsed_time_per_iteration": 4.74568486, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 1s", "remaining_time": "4h 43m 57s", "loss_scale": 1.0, "consumed_samples": 725760, "global_step/max_steps": "2835/6350"}
{"lm loss": 4.95371723, "grad_norm": 0.71679014, "learning_rate": 6.393e-05, "elapsed_time_per_iteration": 4.68462276, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 6s", "remaining_time": "4h 43m 52s", "loss_scale": 1.0, "consumed_samples": 726016, "global_step/max_steps": "2836/6350"}
{"lm loss": 4.9476757, "grad_norm": 0.60065037, "learning_rate": 6.391e-05, "elapsed_time_per_iteration": 4.83082104, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 11s", "remaining_time": "4h 43m 47s", "loss_scale": 1.0, "consumed_samples": 726272, "global_step/max_steps": "2837/6350"}
{"lm loss": 4.93299675, "grad_norm": 0.62515223, "learning_rate": 6.388e-05, "elapsed_time_per_iteration": 4.67360735, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 15s", "remaining_time": "4h 43m 42s", "loss_scale": 1.0, "consumed_samples": 726528, "global_step/max_steps": "2838/6350"}
{"lm loss": 4.95044851, "grad_norm": 0.64630115, "learning_rate": 6.386e-05, "elapsed_time_per_iteration": 5.60152817, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 21s", "remaining_time": "4h 43m 38s", "loss_scale": 1.0, "consumed_samples": 726784, "global_step/max_steps": "2839/6350"}
{"lm loss": 4.95551634, "grad_norm": 0.82724875, "learning_rate": 6.383e-05, "elapsed_time_per_iteration": 4.69378805, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 26s", "remaining_time": "4h 43m 33s", "loss_scale": 1.0, "consumed_samples": 727040, "global_step/max_steps": "2840/6350"}
{"lm loss": 4.94156265, "grad_norm": 0.78389543, "learning_rate": 6.381e-05, "elapsed_time_per_iteration": 4.69737172, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 30s", "remaining_time": "4h 43m 28s", "loss_scale": 1.0, "consumed_samples": 727296, "global_step/max_steps": "2841/6350"}
{"lm loss": 4.95521736, "grad_norm": 0.80056804, "learning_rate": 6.379e-05, "elapsed_time_per_iteration": 4.69030643, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 35s", "remaining_time": "4h 43m 23s", "loss_scale": 1.0, "consumed_samples": 727552, "global_step/max_steps": "2842/6350"}
{"lm loss": 4.94390726, "grad_norm": 0.61065358, "learning_rate": 6.376e-05, "elapsed_time_per_iteration": 4.7358377, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 40s", "remaining_time": "4h 43m 18s", "loss_scale": 1.0, "consumed_samples": 727808, "global_step/max_steps": "2843/6350"}
{"lm loss": 4.94732094, "grad_norm": 0.75388372, "learning_rate": 6.374e-05, "elapsed_time_per_iteration": 4.74937105, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 45s", "remaining_time": "4h 43m 13s", "loss_scale": 1.0, "consumed_samples": 728064, "global_step/max_steps": "2844/6350"}
{"lm loss": 4.97849655, "grad_norm": 1.12032926, "learning_rate": 6.371e-05, "elapsed_time_per_iteration": 4.75945592, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 49s", "remaining_time": "4h 43m 8s", "loss_scale": 1.0, "consumed_samples": 728320, "global_step/max_steps": "2845/6350"}
{"lm loss": 4.94161272, "grad_norm": 1.12762761, "learning_rate": 6.369e-05, "elapsed_time_per_iteration": 4.73292089, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 54s", "remaining_time": "4h 43m 3s", "loss_scale": 1.0, "consumed_samples": 728576, "global_step/max_steps": "2846/6350"}
{"lm loss": 4.95310545, "grad_norm": 0.93866926, "learning_rate": 6.366e-05, "elapsed_time_per_iteration": 4.76901507, "memory(GiB)": 28.03, "elapsed_time": "3h 49m 59s", "remaining_time": "4h 42m 58s", "loss_scale": 1.0, "consumed_samples": 728832, "global_step/max_steps": "2847/6350"}
{"lm loss": 4.94422102, "grad_norm": 0.74886906, "learning_rate": 6.364e-05, "elapsed_time_per_iteration": 4.75645351, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 4s", "remaining_time": "4h 42m 53s", "loss_scale": 1.0, "consumed_samples": 729088, "global_step/max_steps": "2848/6350"}
{"lm loss": 4.94197941, "grad_norm": 0.6131767, "learning_rate": 6.361e-05, "elapsed_time_per_iteration": 4.69688773, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 8s", "remaining_time": "4h 42m 48s", "loss_scale": 1.0, "consumed_samples": 729344, "global_step/max_steps": "2849/6350"}
{"lm loss": 4.95683861, "grad_norm": 0.76609743, "learning_rate": 6.359e-05, "elapsed_time_per_iteration": 5.62547922, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 14s", "remaining_time": "4h 42m 44s", "loss_scale": 1.0, "consumed_samples": 729600, "global_step/max_steps": "2850/6350"}
{"lm loss": 4.93349028, "grad_norm": 0.69604164, "learning_rate": 6.357e-05, "elapsed_time_per_iteration": 4.72446203, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 19s", "remaining_time": "4h 42m 39s", "loss_scale": 1.0, "consumed_samples": 729856, "global_step/max_steps": "2851/6350"}
{"lm loss": 4.94862413, "grad_norm": 0.62836945, "learning_rate": 6.354e-05, "elapsed_time_per_iteration": 4.71311927, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 23s", "remaining_time": "4h 42m 34s", "loss_scale": 1.0, "consumed_samples": 730112, "global_step/max_steps": "2852/6350"}
{"lm loss": 4.93085241, "grad_norm": 0.73630637, "learning_rate": 6.352e-05, "elapsed_time_per_iteration": 5.56036401, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 29s", "remaining_time": "4h 42m 31s", "loss_scale": 1.0, "consumed_samples": 730368, "global_step/max_steps": "2853/6350"}
{"lm loss": 4.95384789, "grad_norm": 0.80803686, "learning_rate": 6.349e-05, "elapsed_time_per_iteration": 4.86526442, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 34s", "remaining_time": "4h 42m 26s", "loss_scale": 1.0, "consumed_samples": 730624, "global_step/max_steps": "2854/6350"}
{"lm loss": 4.94042015, "grad_norm": 0.94101405, "learning_rate": 6.347e-05, "elapsed_time_per_iteration": 4.72035217, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 38s", "remaining_time": "4h 42m 21s", "loss_scale": 1.0, "consumed_samples": 730880, "global_step/max_steps": "2855/6350"}
{"lm loss": 4.96937561, "grad_norm": 0.99868822, "learning_rate": 6.344e-05, "elapsed_time_per_iteration": 4.73898339, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 43s", "remaining_time": "4h 42m 16s", "loss_scale": 1.0, "consumed_samples": 731136, "global_step/max_steps": "2856/6350"}
{"lm loss": 4.94300556, "grad_norm": 1.28510273, "learning_rate": 6.342e-05, "elapsed_time_per_iteration": 4.75811863, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 48s", "remaining_time": "4h 42m 11s", "loss_scale": 1.0, "consumed_samples": 731392, "global_step/max_steps": "2857/6350"}
{"lm loss": 4.96006918, "grad_norm": 0.73546851, "learning_rate": 6.339e-05, "elapsed_time_per_iteration": 4.70697594, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 53s", "remaining_time": "4h 42m 6s", "loss_scale": 1.0, "consumed_samples": 731648, "global_step/max_steps": "2858/6350"}
{"lm loss": 4.93355083, "grad_norm": 0.78353971, "learning_rate": 6.337e-05, "elapsed_time_per_iteration": 4.83020616, "memory(GiB)": 28.03, "elapsed_time": "3h 50m 57s", "remaining_time": "4h 42m 1s", "loss_scale": 1.0, "consumed_samples": 731904, "global_step/max_steps": "2859/6350"}
{"lm loss": 4.94330597, "grad_norm": 0.75972199, "learning_rate": 6.334e-05, "elapsed_time_per_iteration": 4.70743203, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 2s", "remaining_time": "4h 41m 56s", "loss_scale": 1.0, "consumed_samples": 732160, "global_step/max_steps": "2860/6350"}
{"lm loss": 4.95029402, "grad_norm": 0.82177311, "learning_rate": 6.332e-05, "elapsed_time_per_iteration": 4.77576542, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 7s", "remaining_time": "4h 41m 51s", "loss_scale": 1.0, "consumed_samples": 732416, "global_step/max_steps": "2861/6350"}
{"lm loss": 4.92575645, "grad_norm": 0.84497452, "learning_rate": 6.33e-05, "elapsed_time_per_iteration": 5.74778152, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 13s", "remaining_time": "4h 41m 47s", "loss_scale": 1.0, "consumed_samples": 732672, "global_step/max_steps": "2862/6350"}
{"lm loss": 4.9598217, "grad_norm": 1.04146266, "learning_rate": 6.327e-05, "elapsed_time_per_iteration": 4.76290035, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 17s", "remaining_time": "4h 41m 42s", "loss_scale": 1.0, "consumed_samples": 732928, "global_step/max_steps": "2863/6350"}
{"lm loss": 4.93640375, "grad_norm": 1.02641273, "learning_rate": 6.325e-05, "elapsed_time_per_iteration": 4.80520558, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 22s", "remaining_time": "4h 41m 37s", "loss_scale": 1.0, "consumed_samples": 733184, "global_step/max_steps": "2864/6350"}
{"lm loss": 4.975142, "grad_norm": 0.8374905, "learning_rate": 6.322e-05, "elapsed_time_per_iteration": 4.80263138, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 27s", "remaining_time": "4h 41m 32s", "loss_scale": 1.0, "consumed_samples": 733440, "global_step/max_steps": "2865/6350"}
{"lm loss": 4.9437089, "grad_norm": 0.77114093, "learning_rate": 6.32e-05, "elapsed_time_per_iteration": 4.7615037, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 32s", "remaining_time": "4h 41m 27s", "loss_scale": 1.0, "consumed_samples": 733696, "global_step/max_steps": "2866/6350"}
{"lm loss": 4.96080542, "grad_norm": 0.7004559, "learning_rate": 6.317e-05, "elapsed_time_per_iteration": 4.87011266, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 37s", "remaining_time": "4h 41m 23s", "loss_scale": 1.0, "consumed_samples": 733952, "global_step/max_steps": "2867/6350"}
{"lm loss": 4.92635012, "grad_norm": 0.629462, "learning_rate": 6.315e-05, "elapsed_time_per_iteration": 4.69104838, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 41s", "remaining_time": "4h 41m 18s", "loss_scale": 1.0, "consumed_samples": 734208, "global_step/max_steps": "2868/6350"}
{"lm loss": 4.97361517, "grad_norm": 0.66685545, "learning_rate": 6.312e-05, "elapsed_time_per_iteration": 4.7493856, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 46s", "remaining_time": "4h 41m 13s", "loss_scale": 1.0, "consumed_samples": 734464, "global_step/max_steps": "2869/6350"}
{"lm loss": 4.94030952, "grad_norm": 0.58770561, "learning_rate": 6.31e-05, "elapsed_time_per_iteration": 4.79415727, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 51s", "remaining_time": "4h 41m 8s", "loss_scale": 1.0, "consumed_samples": 734720, "global_step/max_steps": "2870/6350"}
{"lm loss": 4.93512392, "grad_norm": 0.72541577, "learning_rate": 6.308e-05, "elapsed_time_per_iteration": 4.72297311, "memory(GiB)": 28.03, "elapsed_time": "3h 51m 56s", "remaining_time": "4h 41m 3s", "loss_scale": 1.0, "consumed_samples": 734976, "global_step/max_steps": "2871/6350"}
{"lm loss": 4.95560455, "grad_norm": 0.86164004, "learning_rate": 6.305e-05, "elapsed_time_per_iteration": 4.79534483, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 0s", "remaining_time": "4h 40m 58s", "loss_scale": 1.0, "consumed_samples": 735232, "global_step/max_steps": "2872/6350"}
{"lm loss": 4.95157719, "grad_norm": 0.81775761, "learning_rate": 6.303e-05, "elapsed_time_per_iteration": 4.74514318, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 5s", "remaining_time": "4h 40m 53s", "loss_scale": 1.0, "consumed_samples": 735488, "global_step/max_steps": "2873/6350"}
{"lm loss": 4.94222069, "grad_norm": 0.91286969, "learning_rate": 6.3e-05, "elapsed_time_per_iteration": 4.73965764, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 10s", "remaining_time": "4h 40m 48s", "loss_scale": 1.0, "consumed_samples": 735744, "global_step/max_steps": "2874/6350"}
{"lm loss": 4.94516134, "grad_norm": 1.69235384, "learning_rate": 6.298e-05, "elapsed_time_per_iteration": 4.69862247, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 15s", "remaining_time": "4h 40m 43s", "loss_scale": 1.0, "consumed_samples": 736000, "global_step/max_steps": "2875/6350"}
{"lm loss": 4.93896627, "grad_norm": 0.75254333, "learning_rate": 6.295e-05, "elapsed_time_per_iteration": 4.73437929, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 19s", "remaining_time": "4h 40m 38s", "loss_scale": 1.0, "consumed_samples": 736256, "global_step/max_steps": "2876/6350"}
{"lm loss": 4.93525982, "grad_norm": 1.44051051, "learning_rate": 6.293e-05, "elapsed_time_per_iteration": 5.31164694, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 25s", "remaining_time": "4h 40m 34s", "loss_scale": 1.0, "consumed_samples": 736512, "global_step/max_steps": "2877/6350"}
{"lm loss": 4.94882011, "grad_norm": 0.9851191, "learning_rate": 6.29e-05, "elapsed_time_per_iteration": 4.69164228, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 29s", "remaining_time": "4h 40m 29s", "loss_scale": 1.0, "consumed_samples": 736768, "global_step/max_steps": "2878/6350"}
{"lm loss": 4.93680334, "grad_norm": 0.76558006, "learning_rate": 6.288e-05, "elapsed_time_per_iteration": 4.68680716, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 34s", "remaining_time": "4h 40m 23s", "loss_scale": 1.0, "consumed_samples": 737024, "global_step/max_steps": "2879/6350"}
{"lm loss": 4.93485498, "grad_norm": 0.96766222, "learning_rate": 6.285e-05, "elapsed_time_per_iteration": 4.75999427, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 39s", "remaining_time": "4h 40m 19s", "loss_scale": 1.0, "consumed_samples": 737280, "global_step/max_steps": "2880/6350"}
{"lm loss": 4.95815563, "grad_norm": 1.36724865, "learning_rate": 6.283e-05, "elapsed_time_per_iteration": 4.80352044, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 44s", "remaining_time": "4h 40m 14s", "loss_scale": 1.0, "consumed_samples": 737536, "global_step/max_steps": "2881/6350"}
{"lm loss": 4.94159985, "grad_norm": 0.78485984, "learning_rate": 6.281e-05, "elapsed_time_per_iteration": 5.45095897, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 49s", "remaining_time": "4h 40m 10s", "loss_scale": 1.0, "consumed_samples": 737792, "global_step/max_steps": "2882/6350"}
{"lm loss": 4.91853809, "grad_norm": 0.82187325, "learning_rate": 6.278e-05, "elapsed_time_per_iteration": 4.79825497, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 54s", "remaining_time": "4h 40m 5s", "loss_scale": 1.0, "consumed_samples": 738048, "global_step/max_steps": "2883/6350"}
{"lm loss": 4.91207027, "grad_norm": 1.31488216, "learning_rate": 6.276e-05, "elapsed_time_per_iteration": 4.82242513, "memory(GiB)": 28.03, "elapsed_time": "3h 52m 59s", "remaining_time": "4h 40m 0s", "loss_scale": 1.0, "consumed_samples": 738304, "global_step/max_steps": "2884/6350"}
{"lm loss": 4.92560244, "grad_norm": 0.76014662, "learning_rate": 6.273e-05, "elapsed_time_per_iteration": 4.83428717, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 4s", "remaining_time": "4h 39m 55s", "loss_scale": 1.0, "consumed_samples": 738560, "global_step/max_steps": "2885/6350"}
{"lm loss": 4.94519472, "grad_norm": 1.5426482, "learning_rate": 6.271e-05, "elapsed_time_per_iteration": 4.63979053, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 8s", "remaining_time": "4h 39m 50s", "loss_scale": 1.0, "consumed_samples": 738816, "global_step/max_steps": "2886/6350"}
{"lm loss": 4.96811962, "grad_norm": 0.78758991, "learning_rate": 6.268e-05, "elapsed_time_per_iteration": 4.81409478, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 13s", "remaining_time": "4h 39m 45s", "loss_scale": 1.0, "consumed_samples": 739072, "global_step/max_steps": "2887/6350"}
{"lm loss": 4.94517517, "grad_norm": 0.87781417, "learning_rate": 6.266e-05, "elapsed_time_per_iteration": 4.7086637, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 18s", "remaining_time": "4h 39m 40s", "loss_scale": 1.0, "consumed_samples": 739328, "global_step/max_steps": "2888/6350"}
{"lm loss": 4.96015596, "grad_norm": 1.0337739, "learning_rate": 6.263e-05, "elapsed_time_per_iteration": 4.68781066, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 22s", "remaining_time": "4h 39m 35s", "loss_scale": 1.0, "consumed_samples": 739584, "global_step/max_steps": "2889/6350"}
{"lm loss": 4.93683481, "grad_norm": 1.00535631, "learning_rate": 6.261e-05, "elapsed_time_per_iteration": 4.70551324, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 27s", "remaining_time": "4h 39m 30s", "loss_scale": 1.0, "consumed_samples": 739840, "global_step/max_steps": "2890/6350"}
{"lm loss": 4.93112707, "grad_norm": 0.86590511, "learning_rate": 6.258e-05, "elapsed_time_per_iteration": 4.73293352, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 32s", "remaining_time": "4h 39m 25s", "loss_scale": 1.0, "consumed_samples": 740096, "global_step/max_steps": "2891/6350"}
{"lm loss": 4.93905163, "grad_norm": 0.76240134, "learning_rate": 6.256e-05, "elapsed_time_per_iteration": 4.74960089, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 37s", "remaining_time": "4h 39m 20s", "loss_scale": 1.0, "consumed_samples": 740352, "global_step/max_steps": "2892/6350"}
{"lm loss": 4.94191599, "grad_norm": 0.69641179, "learning_rate": 6.253e-05, "elapsed_time_per_iteration": 4.7448175, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 41s", "remaining_time": "4h 39m 15s", "loss_scale": 1.0, "consumed_samples": 740608, "global_step/max_steps": "2893/6350"}
{"lm loss": 4.94917393, "grad_norm": 0.71336871, "learning_rate": 6.251e-05, "elapsed_time_per_iteration": 4.6751442, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 46s", "remaining_time": "4h 39m 10s", "loss_scale": 1.0, "consumed_samples": 740864, "global_step/max_steps": "2894/6350"}
{"lm loss": 4.93795872, "grad_norm": 0.67965031, "learning_rate": 6.249e-05, "elapsed_time_per_iteration": 4.78301811, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 51s", "remaining_time": "4h 39m 5s", "loss_scale": 1.0, "consumed_samples": 741120, "global_step/max_steps": "2895/6350"}
{"lm loss": 4.94662523, "grad_norm": 0.67436504, "learning_rate": 6.246e-05, "elapsed_time_per_iteration": 5.55980492, "memory(GiB)": 28.03, "elapsed_time": "3h 53m 56s", "remaining_time": "4h 39m 1s", "loss_scale": 1.0, "consumed_samples": 741376, "global_step/max_steps": "2896/6350"}
{"lm loss": 4.93168879, "grad_norm": 0.65091121, "learning_rate": 6.244e-05, "elapsed_time_per_iteration": 5.52656984, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 2s", "remaining_time": "4h 38m 57s", "loss_scale": 1.0, "consumed_samples": 741632, "global_step/max_steps": "2897/6350"}
{"lm loss": 4.94163179, "grad_norm": 0.67469901, "learning_rate": 6.241e-05, "elapsed_time_per_iteration": 4.73206806, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 7s", "remaining_time": "4h 38m 52s", "loss_scale": 1.0, "consumed_samples": 741888, "global_step/max_steps": "2898/6350"}
{"lm loss": 4.93101406, "grad_norm": 0.61282504, "learning_rate": 6.239e-05, "elapsed_time_per_iteration": 4.73229265, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 11s", "remaining_time": "4h 38m 47s", "loss_scale": 1.0, "consumed_samples": 742144, "global_step/max_steps": "2899/6350"}
{"lm loss": 4.92846107, "grad_norm": 0.64937705, "learning_rate": 6.236e-05, "elapsed_time_per_iteration": 4.74109554, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 16s", "remaining_time": "4h 38m 42s", "loss_scale": 1.0, "consumed_samples": 742400, "global_step/max_steps": "2900/6350"}
{"lm loss": 4.91995621, "grad_norm": 0.65322572, "learning_rate": 6.234e-05, "elapsed_time_per_iteration": 4.7092123, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 21s", "remaining_time": "4h 38m 37s", "loss_scale": 1.0, "consumed_samples": 742656, "global_step/max_steps": "2901/6350"}
{"lm loss": 4.92000866, "grad_norm": 0.66106129, "learning_rate": 6.231e-05, "elapsed_time_per_iteration": 4.82169724, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 26s", "remaining_time": "4h 38m 32s", "loss_scale": 1.0, "consumed_samples": 742912, "global_step/max_steps": "2902/6350"}
{"lm loss": 4.93839788, "grad_norm": 0.78275704, "learning_rate": 6.229e-05, "elapsed_time_per_iteration": 4.68689299, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 30s", "remaining_time": "4h 38m 27s", "loss_scale": 1.0, "consumed_samples": 743168, "global_step/max_steps": "2903/6350"}
{"lm loss": 4.98487616, "grad_norm": 0.73443204, "learning_rate": 6.226e-05, "elapsed_time_per_iteration": 4.78555465, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 35s", "remaining_time": "4h 38m 22s", "loss_scale": 1.0, "consumed_samples": 743424, "global_step/max_steps": "2904/6350"}
{"lm loss": 4.92096853, "grad_norm": 0.80342031, "learning_rate": 6.224e-05, "elapsed_time_per_iteration": 5.69872332, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 41s", "remaining_time": "4h 38m 18s", "loss_scale": 1.0, "consumed_samples": 743680, "global_step/max_steps": "2905/6350"}
{"lm loss": 4.96007442, "grad_norm": 0.97252226, "learning_rate": 6.221e-05, "elapsed_time_per_iteration": 4.76490808, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 46s", "remaining_time": "4h 38m 13s", "loss_scale": 1.0, "consumed_samples": 743936, "global_step/max_steps": "2906/6350"}
{"lm loss": 4.94331551, "grad_norm": 1.2028724, "learning_rate": 6.219e-05, "elapsed_time_per_iteration": 4.82596469, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 50s", "remaining_time": "4h 38m 8s", "loss_scale": 1.0, "consumed_samples": 744192, "global_step/max_steps": "2907/6350"}
{"lm loss": 4.93147469, "grad_norm": 0.74442041, "learning_rate": 6.217e-05, "elapsed_time_per_iteration": 4.66227937, "memory(GiB)": 28.03, "elapsed_time": "3h 54m 55s", "remaining_time": "4h 38m 3s", "loss_scale": 1.0, "consumed_samples": 744448, "global_step/max_steps": "2908/6350"}
{"lm loss": 4.94922066, "grad_norm": 0.65820873, "learning_rate": 6.214e-05, "elapsed_time_per_iteration": 4.73659921, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 0s", "remaining_time": "4h 37m 58s", "loss_scale": 1.0, "consumed_samples": 744704, "global_step/max_steps": "2909/6350"}
{"lm loss": 4.95648003, "grad_norm": 0.79401278, "learning_rate": 6.212e-05, "elapsed_time_per_iteration": 4.83150053, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 5s", "remaining_time": "4h 37m 54s", "loss_scale": 1.0, "consumed_samples": 744960, "global_step/max_steps": "2910/6350"}
{"lm loss": 4.94272947, "grad_norm": 0.86833912, "learning_rate": 6.209e-05, "elapsed_time_per_iteration": 4.69735026, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 9s", "remaining_time": "4h 37m 49s", "loss_scale": 1.0, "consumed_samples": 745216, "global_step/max_steps": "2911/6350"}
{"lm loss": 4.91839647, "grad_norm": 0.90040749, "learning_rate": 6.207e-05, "elapsed_time_per_iteration": 4.72021008, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 14s", "remaining_time": "4h 37m 44s", "loss_scale": 1.0, "consumed_samples": 745472, "global_step/max_steps": "2912/6350"}
{"lm loss": 4.94205093, "grad_norm": 0.84631842, "learning_rate": 6.204e-05, "elapsed_time_per_iteration": 4.6970396, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 19s", "remaining_time": "4h 37m 39s", "loss_scale": 1.0, "consumed_samples": 745728, "global_step/max_steps": "2913/6350"}
{"lm loss": 4.93521929, "grad_norm": 1.04524016, "learning_rate": 6.202e-05, "elapsed_time_per_iteration": 5.54265499, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 24s", "remaining_time": "4h 37m 34s", "loss_scale": 1.0, "consumed_samples": 745984, "global_step/max_steps": "2914/6350"}
{"lm loss": 4.92433357, "grad_norm": 0.88319057, "learning_rate": 6.199e-05, "elapsed_time_per_iteration": 5.52985573, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 30s", "remaining_time": "4h 37m 30s", "loss_scale": 1.0, "consumed_samples": 746240, "global_step/max_steps": "2915/6350"}
{"lm loss": 4.95980978, "grad_norm": 0.67597765, "learning_rate": 6.197e-05, "elapsed_time_per_iteration": 4.74481058, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 35s", "remaining_time": "4h 37m 25s", "loss_scale": 1.0, "consumed_samples": 746496, "global_step/max_steps": "2916/6350"}
{"lm loss": 4.95208025, "grad_norm": 0.61515188, "learning_rate": 6.194e-05, "elapsed_time_per_iteration": 5.65975428, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 40s", "remaining_time": "4h 37m 22s", "loss_scale": 1.0, "consumed_samples": 746752, "global_step/max_steps": "2917/6350"}
{"lm loss": 4.91780663, "grad_norm": 0.60800117, "learning_rate": 6.192e-05, "elapsed_time_per_iteration": 4.67543626, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 45s", "remaining_time": "4h 37m 17s", "loss_scale": 1.0, "consumed_samples": 747008, "global_step/max_steps": "2918/6350"}
{"lm loss": 4.94832325, "grad_norm": 0.72644353, "learning_rate": 6.189e-05, "elapsed_time_per_iteration": 4.7172966, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 50s", "remaining_time": "4h 37m 12s", "loss_scale": 1.0, "consumed_samples": 747264, "global_step/max_steps": "2919/6350"}
{"lm loss": 4.94790077, "grad_norm": 0.81324512, "learning_rate": 6.187e-05, "elapsed_time_per_iteration": 4.76736569, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 54s", "remaining_time": "4h 37m 7s", "loss_scale": 1.0, "consumed_samples": 747520, "global_step/max_steps": "2920/6350"}
{"lm loss": 4.93779898, "grad_norm": 0.72824317, "learning_rate": 6.185e-05, "elapsed_time_per_iteration": 4.75442386, "memory(GiB)": 28.03, "elapsed_time": "3h 55m 59s", "remaining_time": "4h 37m 2s", "loss_scale": 1.0, "consumed_samples": 747776, "global_step/max_steps": "2921/6350"}
{"lm loss": 4.93591738, "grad_norm": 0.877455, "learning_rate": 6.182e-05, "elapsed_time_per_iteration": 4.76523829, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 4s", "remaining_time": "4h 36m 57s", "loss_scale": 1.0, "consumed_samples": 748032, "global_step/max_steps": "2922/6350"}
{"lm loss": 4.93886566, "grad_norm": 0.95476288, "learning_rate": 6.18e-05, "elapsed_time_per_iteration": 4.72903299, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 9s", "remaining_time": "4h 36m 52s", "loss_scale": 1.0, "consumed_samples": 748288, "global_step/max_steps": "2923/6350"}
{"lm loss": 4.94200277, "grad_norm": 0.82143378, "learning_rate": 6.177e-05, "elapsed_time_per_iteration": 4.65885139, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 13s", "remaining_time": "4h 36m 47s", "loss_scale": 1.0, "consumed_samples": 748544, "global_step/max_steps": "2924/6350"}
{"lm loss": 4.96291733, "grad_norm": 0.68790472, "learning_rate": 6.175e-05, "elapsed_time_per_iteration": 4.75257397, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 18s", "remaining_time": "4h 36m 42s", "loss_scale": 1.0, "consumed_samples": 748800, "global_step/max_steps": "2925/6350"}
{"lm loss": 4.96080065, "grad_norm": 0.68919736, "learning_rate": 6.172e-05, "elapsed_time_per_iteration": 4.70489693, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 23s", "remaining_time": "4h 36m 37s", "loss_scale": 1.0, "consumed_samples": 749056, "global_step/max_steps": "2926/6350"}
{"lm loss": 4.95180321, "grad_norm": 0.73078918, "learning_rate": 6.17e-05, "elapsed_time_per_iteration": 4.7661407, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 27s", "remaining_time": "4h 36m 32s", "loss_scale": 1.0, "consumed_samples": 749312, "global_step/max_steps": "2927/6350"}
{"lm loss": 4.92314672, "grad_norm": 0.686616, "learning_rate": 6.167e-05, "elapsed_time_per_iteration": 4.664258, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 32s", "remaining_time": "4h 36m 27s", "loss_scale": 1.0, "consumed_samples": 749568, "global_step/max_steps": "2928/6350"}
{"lm loss": 4.93347073, "grad_norm": 0.65895385, "learning_rate": 6.165e-05, "elapsed_time_per_iteration": 4.66406131, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 37s", "remaining_time": "4h 36m 22s", "loss_scale": 1.0, "consumed_samples": 749824, "global_step/max_steps": "2929/6350"}
{"lm loss": 4.94953537, "grad_norm": 0.84679705, "learning_rate": 6.162e-05, "elapsed_time_per_iteration": 4.73571658, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 42s", "remaining_time": "4h 36m 17s", "loss_scale": 1.0, "consumed_samples": 750080, "global_step/max_steps": "2930/6350"}
{"lm loss": 4.95651722, "grad_norm": 0.93358374, "learning_rate": 6.16e-05, "elapsed_time_per_iteration": 4.70514917, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 46s", "remaining_time": "4h 36m 12s", "loss_scale": 1.0, "consumed_samples": 750336, "global_step/max_steps": "2931/6350"}
{"lm loss": 4.94382524, "grad_norm": 0.74840742, "learning_rate": 6.157e-05, "elapsed_time_per_iteration": 4.75006604, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 51s", "remaining_time": "4h 36m 7s", "loss_scale": 1.0, "consumed_samples": 750592, "global_step/max_steps": "2932/6350"}
{"lm loss": 4.9291563, "grad_norm": 0.84666252, "learning_rate": 6.155e-05, "elapsed_time_per_iteration": 4.64939427, "memory(GiB)": 28.03, "elapsed_time": "3h 56m 56s", "remaining_time": "4h 36m 2s", "loss_scale": 1.0, "consumed_samples": 750848, "global_step/max_steps": "2933/6350"}
{"lm loss": 4.94305325, "grad_norm": 0.90057749, "learning_rate": 6.152e-05, "elapsed_time_per_iteration": 4.67952752, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 0s", "remaining_time": "4h 35m 57s", "loss_scale": 1.0, "consumed_samples": 751104, "global_step/max_steps": "2934/6350"}
{"lm loss": 4.95056152, "grad_norm": 1.0010221, "learning_rate": 6.15e-05, "elapsed_time_per_iteration": 4.70857525, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 5s", "remaining_time": "4h 35m 52s", "loss_scale": 1.0, "consumed_samples": 751360, "global_step/max_steps": "2935/6350"}
{"lm loss": 4.92477894, "grad_norm": 1.10170114, "learning_rate": 6.147e-05, "elapsed_time_per_iteration": 4.68655777, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 10s", "remaining_time": "4h 35m 46s", "loss_scale": 1.0, "consumed_samples": 751616, "global_step/max_steps": "2936/6350"}
{"lm loss": 4.94689178, "grad_norm": 0.77598119, "learning_rate": 6.145e-05, "elapsed_time_per_iteration": 4.74897313, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 14s", "remaining_time": "4h 35m 42s", "loss_scale": 1.0, "consumed_samples": 751872, "global_step/max_steps": "2937/6350"}
{"lm loss": 4.90374088, "grad_norm": 0.74192923, "learning_rate": 6.143e-05, "elapsed_time_per_iteration": 4.72371459, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 19s", "remaining_time": "4h 35m 37s", "loss_scale": 1.0, "consumed_samples": 752128, "global_step/max_steps": "2938/6350"}
{"lm loss": 4.92206573, "grad_norm": 1.00561261, "learning_rate": 6.14e-05, "elapsed_time_per_iteration": 4.71525836, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 24s", "remaining_time": "4h 35m 32s", "loss_scale": 1.0, "consumed_samples": 752384, "global_step/max_steps": "2939/6350"}
{"lm loss": 4.94595194, "grad_norm": 1.17920947, "learning_rate": 6.138e-05, "elapsed_time_per_iteration": 4.68057013, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 29s", "remaining_time": "4h 35m 26s", "loss_scale": 1.0, "consumed_samples": 752640, "global_step/max_steps": "2940/6350"}
{"lm loss": 4.93132162, "grad_norm": 0.71390593, "learning_rate": 6.135e-05, "elapsed_time_per_iteration": 4.72597551, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 33s", "remaining_time": "4h 35m 22s", "loss_scale": 1.0, "consumed_samples": 752896, "global_step/max_steps": "2941/6350"}
{"lm loss": 4.91958427, "grad_norm": 0.71923757, "learning_rate": 6.133e-05, "elapsed_time_per_iteration": 4.7427237, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 38s", "remaining_time": "4h 35m 17s", "loss_scale": 1.0, "consumed_samples": 753152, "global_step/max_steps": "2942/6350"}
{"lm loss": 4.94757032, "grad_norm": 0.94282967, "learning_rate": 6.13e-05, "elapsed_time_per_iteration": 4.80404568, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 43s", "remaining_time": "4h 35m 12s", "loss_scale": 1.0, "consumed_samples": 753408, "global_step/max_steps": "2943/6350"}
{"lm loss": 4.94097185, "grad_norm": 1.11336327, "learning_rate": 6.128e-05, "elapsed_time_per_iteration": 4.80366278, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 48s", "remaining_time": "4h 35m 7s", "loss_scale": 1.0, "consumed_samples": 753664, "global_step/max_steps": "2944/6350"}
{"lm loss": 4.92868328, "grad_norm": 0.85451955, "learning_rate": 6.125e-05, "elapsed_time_per_iteration": 4.79127789, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 52s", "remaining_time": "4h 35m 2s", "loss_scale": 1.0, "consumed_samples": 753920, "global_step/max_steps": "2945/6350"}
{"lm loss": 4.93671083, "grad_norm": 0.69199055, "learning_rate": 6.123e-05, "elapsed_time_per_iteration": 5.1389606, "memory(GiB)": 28.03, "elapsed_time": "3h 57m 58s", "remaining_time": "4h 34m 57s", "loss_scale": 1.0, "consumed_samples": 754176, "global_step/max_steps": "2946/6350"}
{"lm loss": 4.93113756, "grad_norm": 0.67402953, "learning_rate": 6.12e-05, "elapsed_time_per_iteration": 4.85975146, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 2s", "remaining_time": "4h 34m 52s", "loss_scale": 1.0, "consumed_samples": 754432, "global_step/max_steps": "2947/6350"}
{"lm loss": 4.91757584, "grad_norm": 0.84897161, "learning_rate": 6.118e-05, "elapsed_time_per_iteration": 4.80807757, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 7s", "remaining_time": "4h 34m 48s", "loss_scale": 1.0, "consumed_samples": 754688, "global_step/max_steps": "2948/6350"}
{"lm loss": 4.94671392, "grad_norm": 0.85508204, "learning_rate": 6.115e-05, "elapsed_time_per_iteration": 4.82338047, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 12s", "remaining_time": "4h 34m 43s", "loss_scale": 1.0, "consumed_samples": 754944, "global_step/max_steps": "2949/6350"}
{"lm loss": 4.95398569, "grad_norm": 0.67854524, "learning_rate": 6.113e-05, "elapsed_time_per_iteration": 4.81059313, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 17s", "remaining_time": "4h 34m 38s", "loss_scale": 1.0, "consumed_samples": 755200, "global_step/max_steps": "2950/6350"}
{"lm loss": 4.94467354, "grad_norm": 0.62132883, "learning_rate": 6.11e-05, "elapsed_time_per_iteration": 5.87804556, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 23s", "remaining_time": "4h 34m 34s", "loss_scale": 1.0, "consumed_samples": 755456, "global_step/max_steps": "2951/6350"}
{"lm loss": 4.91995287, "grad_norm": 1.13351083, "learning_rate": 6.108e-05, "elapsed_time_per_iteration": 4.85848117, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 28s", "remaining_time": "4h 34m 29s", "loss_scale": 1.0, "consumed_samples": 755712, "global_step/max_steps": "2952/6350"}
{"lm loss": 4.93237686, "grad_norm": 0.66942847, "learning_rate": 6.105e-05, "elapsed_time_per_iteration": 4.82513189, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 32s", "remaining_time": "4h 34m 24s", "loss_scale": 1.0, "consumed_samples": 755968, "global_step/max_steps": "2953/6350"}
{"lm loss": 4.95099592, "grad_norm": 0.82994688, "learning_rate": 6.103e-05, "elapsed_time_per_iteration": 4.70886898, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 37s", "remaining_time": "4h 34m 19s", "loss_scale": 1.0, "consumed_samples": 756224, "global_step/max_steps": "2954/6350"}
{"lm loss": 4.94892073, "grad_norm": 0.85187328, "learning_rate": 6.1e-05, "elapsed_time_per_iteration": 4.69675088, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 42s", "remaining_time": "4h 34m 14s", "loss_scale": 1.0, "consumed_samples": 756480, "global_step/max_steps": "2955/6350"}
{"lm loss": 4.95029211, "grad_norm": 0.79306775, "learning_rate": 6.098e-05, "elapsed_time_per_iteration": 4.77214074, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 47s", "remaining_time": "4h 34m 10s", "loss_scale": 1.0, "consumed_samples": 756736, "global_step/max_steps": "2956/6350"}
{"lm loss": 4.93146753, "grad_norm": 0.62651455, "learning_rate": 6.095e-05, "elapsed_time_per_iteration": 4.79340935, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 51s", "remaining_time": "4h 34m 5s", "loss_scale": 1.0, "consumed_samples": 756992, "global_step/max_steps": "2957/6350"}
{"lm loss": 4.93566227, "grad_norm": 0.59060186, "learning_rate": 6.093e-05, "elapsed_time_per_iteration": 4.7797718, "memory(GiB)": 28.03, "elapsed_time": "3h 58m 56s", "remaining_time": "4h 34m 0s", "loss_scale": 1.0, "consumed_samples": 757248, "global_step/max_steps": "2958/6350"}
{"lm loss": 4.9391737, "grad_norm": 0.66099447, "learning_rate": 6.091e-05, "elapsed_time_per_iteration": 5.47069979, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 2s", "remaining_time": "4h 33m 56s", "loss_scale": 1.0, "consumed_samples": 757504, "global_step/max_steps": "2959/6350"}
{"lm loss": 4.94302988, "grad_norm": 0.67789131, "learning_rate": 6.088e-05, "elapsed_time_per_iteration": 5.69405913, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 7s", "remaining_time": "4h 33m 52s", "loss_scale": 1.0, "consumed_samples": 757760, "global_step/max_steps": "2960/6350"}
{"lm loss": 4.94099092, "grad_norm": 0.69385785, "learning_rate": 6.086e-05, "elapsed_time_per_iteration": 5.01857972, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 12s", "remaining_time": "4h 33m 47s", "loss_scale": 1.0, "consumed_samples": 758016, "global_step/max_steps": "2961/6350"}
{"lm loss": 4.94987392, "grad_norm": 0.80764002, "learning_rate": 6.083e-05, "elapsed_time_per_iteration": 4.76448226, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 17s", "remaining_time": "4h 33m 42s", "loss_scale": 1.0, "consumed_samples": 758272, "global_step/max_steps": "2962/6350"}
{"lm loss": 4.94875002, "grad_norm": 0.99649173, "learning_rate": 6.081e-05, "elapsed_time_per_iteration": 4.82092428, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 22s", "remaining_time": "4h 33m 37s", "loss_scale": 1.0, "consumed_samples": 758528, "global_step/max_steps": "2963/6350"}
{"lm loss": 4.93855143, "grad_norm": 1.03814316, "learning_rate": 6.078e-05, "elapsed_time_per_iteration": 4.77087665, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 27s", "remaining_time": "4h 33m 32s", "loss_scale": 1.0, "consumed_samples": 758784, "global_step/max_steps": "2964/6350"}
{"lm loss": 4.94409227, "grad_norm": 0.8538301, "learning_rate": 6.076e-05, "elapsed_time_per_iteration": 4.72786522, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 31s", "remaining_time": "4h 33m 27s", "loss_scale": 1.0, "consumed_samples": 759040, "global_step/max_steps": "2965/6350"}
{"lm loss": 4.95256186, "grad_norm": 0.70042634, "learning_rate": 6.073e-05, "elapsed_time_per_iteration": 4.73569512, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 36s", "remaining_time": "4h 33m 22s", "loss_scale": 1.0, "consumed_samples": 759296, "global_step/max_steps": "2966/6350"}
{"lm loss": 4.91454983, "grad_norm": 0.58853304, "learning_rate": 6.071e-05, "elapsed_time_per_iteration": 5.71021485, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 42s", "remaining_time": "4h 33m 18s", "loss_scale": 1.0, "consumed_samples": 759552, "global_step/max_steps": "2967/6350"}
{"lm loss": 4.94566202, "grad_norm": 0.61113614, "learning_rate": 6.068e-05, "elapsed_time_per_iteration": 4.69581056, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 47s", "remaining_time": "4h 33m 13s", "loss_scale": 1.0, "consumed_samples": 759808, "global_step/max_steps": "2968/6350"}
{"lm loss": 4.95417166, "grad_norm": 0.62946618, "learning_rate": 6.066e-05, "elapsed_time_per_iteration": 4.83064961, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 51s", "remaining_time": "4h 33m 9s", "loss_scale": 1.0, "consumed_samples": 760064, "global_step/max_steps": "2969/6350"}
{"lm loss": 4.94049788, "grad_norm": 0.64410681, "learning_rate": 6.063e-05, "elapsed_time_per_iteration": 4.74683499, "memory(GiB)": 28.03, "elapsed_time": "3h 59m 56s", "remaining_time": "4h 33m 4s", "loss_scale": 1.0, "consumed_samples": 760320, "global_step/max_steps": "2970/6350"}
{"lm loss": 4.93661499, "grad_norm": 0.68343192, "learning_rate": 6.061e-05, "elapsed_time_per_iteration": 4.72611189, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 1s", "remaining_time": "4h 32m 59s", "loss_scale": 1.0, "consumed_samples": 760576, "global_step/max_steps": "2971/6350"}
{"lm loss": 4.9756732, "grad_norm": 0.75964612, "learning_rate": 6.058e-05, "elapsed_time_per_iteration": 4.72827578, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 6s", "remaining_time": "4h 32m 54s", "loss_scale": 1.0, "consumed_samples": 760832, "global_step/max_steps": "2972/6350"}
{"lm loss": 4.94487715, "grad_norm": 0.82318497, "learning_rate": 6.056e-05, "elapsed_time_per_iteration": 4.79931784, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 10s", "remaining_time": "4h 32m 49s", "loss_scale": 1.0, "consumed_samples": 761088, "global_step/max_steps": "2973/6350"}
{"lm loss": 4.9340539, "grad_norm": 0.890917, "learning_rate": 6.053e-05, "elapsed_time_per_iteration": 4.70070219, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 15s", "remaining_time": "4h 32m 44s", "loss_scale": 1.0, "consumed_samples": 761344, "global_step/max_steps": "2974/6350"}
{"lm loss": 4.94712973, "grad_norm": 0.88399255, "learning_rate": 6.051e-05, "elapsed_time_per_iteration": 4.71583104, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 20s", "remaining_time": "4h 32m 39s", "loss_scale": 1.0, "consumed_samples": 761600, "global_step/max_steps": "2975/6350"}
{"lm loss": 4.92653656, "grad_norm": 1.01166594, "learning_rate": 6.048e-05, "elapsed_time_per_iteration": 4.75523496, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 25s", "remaining_time": "4h 32m 34s", "loss_scale": 1.0, "consumed_samples": 761856, "global_step/max_steps": "2976/6350"}
{"lm loss": 4.92719269, "grad_norm": 0.98456293, "learning_rate": 6.046e-05, "elapsed_time_per_iteration": 5.29623008, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 30s", "remaining_time": "4h 32m 29s", "loss_scale": 1.0, "consumed_samples": 762112, "global_step/max_steps": "2977/6350"}
{"lm loss": 4.93807888, "grad_norm": 0.86793244, "learning_rate": 6.043e-05, "elapsed_time_per_iteration": 4.7455976, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 35s", "remaining_time": "4h 32m 24s", "loss_scale": 1.0, "consumed_samples": 762368, "global_step/max_steps": "2978/6350"}
{"lm loss": 4.93074512, "grad_norm": 0.67953777, "learning_rate": 6.041e-05, "elapsed_time_per_iteration": 4.79104543, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 39s", "remaining_time": "4h 32m 20s", "loss_scale": 1.0, "consumed_samples": 762624, "global_step/max_steps": "2979/6350"}
{"lm loss": 4.92084122, "grad_norm": 0.6556254, "learning_rate": 6.038e-05, "elapsed_time_per_iteration": 4.78132868, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 44s", "remaining_time": "4h 32m 15s", "loss_scale": 1.0, "consumed_samples": 762880, "global_step/max_steps": "2980/6350"}
{"lm loss": 4.93496609, "grad_norm": 0.72163296, "learning_rate": 6.036e-05, "elapsed_time_per_iteration": 4.79846668, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 49s", "remaining_time": "4h 32m 10s", "loss_scale": 1.0, "consumed_samples": 763136, "global_step/max_steps": "2981/6350"}
{"lm loss": 4.94072056, "grad_norm": 0.70123488, "learning_rate": 6.033e-05, "elapsed_time_per_iteration": 4.75004387, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 54s", "remaining_time": "4h 32m 5s", "loss_scale": 1.0, "consumed_samples": 763392, "global_step/max_steps": "2982/6350"}
{"lm loss": 4.94188356, "grad_norm": 0.82076144, "learning_rate": 6.031e-05, "elapsed_time_per_iteration": 4.79123139, "memory(GiB)": 28.03, "elapsed_time": "4h 0m 59s", "remaining_time": "4h 32m 0s", "loss_scale": 1.0, "consumed_samples": 763648, "global_step/max_steps": "2983/6350"}
{"lm loss": 4.95231247, "grad_norm": 0.91685998, "learning_rate": 6.029e-05, "elapsed_time_per_iteration": 4.70817685, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 3s", "remaining_time": "4h 31m 55s", "loss_scale": 1.0, "consumed_samples": 763904, "global_step/max_steps": "2984/6350"}
{"lm loss": 4.93217325, "grad_norm": 0.75019574, "learning_rate": 6.026e-05, "elapsed_time_per_iteration": 4.73872519, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 8s", "remaining_time": "4h 31m 50s", "loss_scale": 1.0, "consumed_samples": 764160, "global_step/max_steps": "2985/6350"}
{"lm loss": 4.93474865, "grad_norm": 0.65496331, "learning_rate": 6.024e-05, "elapsed_time_per_iteration": 4.75615048, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 13s", "remaining_time": "4h 31m 45s", "loss_scale": 1.0, "consumed_samples": 764416, "global_step/max_steps": "2986/6350"}
{"lm loss": 4.92656231, "grad_norm": 1.040326, "learning_rate": 6.021e-05, "elapsed_time_per_iteration": 4.75468731, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 18s", "remaining_time": "4h 31m 40s", "loss_scale": 1.0, "consumed_samples": 764672, "global_step/max_steps": "2987/6350"}
{"lm loss": 4.93347073, "grad_norm": 0.55054122, "learning_rate": 6.019e-05, "elapsed_time_per_iteration": 4.70031023, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 22s", "remaining_time": "4h 31m 35s", "loss_scale": 1.0, "consumed_samples": 764928, "global_step/max_steps": "2988/6350"}
{"lm loss": 4.91145611, "grad_norm": 0.6134901, "learning_rate": 6.016e-05, "elapsed_time_per_iteration": 4.80734658, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 27s", "remaining_time": "4h 31m 30s", "loss_scale": 1.0, "consumed_samples": 765184, "global_step/max_steps": "2989/6350"}
{"lm loss": 4.91968107, "grad_norm": 0.6750465, "learning_rate": 6.014e-05, "elapsed_time_per_iteration": 4.75423598, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 32s", "remaining_time": "4h 31m 25s", "loss_scale": 1.0, "consumed_samples": 765440, "global_step/max_steps": "2990/6350"}
{"lm loss": 4.94514656, "grad_norm": 0.77357376, "learning_rate": 6.011e-05, "elapsed_time_per_iteration": 4.7184968, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 37s", "remaining_time": "4h 31m 20s", "loss_scale": 1.0, "consumed_samples": 765696, "global_step/max_steps": "2991/6350"}
{"lm loss": 4.93614578, "grad_norm": 0.70046312, "learning_rate": 6.009e-05, "elapsed_time_per_iteration": 4.69421482, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 41s", "remaining_time": "4h 31m 15s", "loss_scale": 1.0, "consumed_samples": 765952, "global_step/max_steps": "2992/6350"}
{"lm loss": 4.9606719, "grad_norm": 0.69143617, "learning_rate": 6.006e-05, "elapsed_time_per_iteration": 4.71635246, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 46s", "remaining_time": "4h 31m 10s", "loss_scale": 1.0, "consumed_samples": 766208, "global_step/max_steps": "2993/6350"}
{"lm loss": 4.94805002, "grad_norm": 0.86650884, "learning_rate": 6.004e-05, "elapsed_time_per_iteration": 4.78091955, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 51s", "remaining_time": "4h 31m 5s", "loss_scale": 1.0, "consumed_samples": 766464, "global_step/max_steps": "2994/6350"}
{"lm loss": 4.92472887, "grad_norm": 1.13552594, "learning_rate": 6.001e-05, "elapsed_time_per_iteration": 4.73916197, "memory(GiB)": 28.03, "elapsed_time": "4h 1m 55s", "remaining_time": "4h 31m 0s", "loss_scale": 1.0, "consumed_samples": 766720, "global_step/max_steps": "2995/6350"}
{"lm loss": 4.9293561, "grad_norm": 0.92515588, "learning_rate": 5.999e-05, "elapsed_time_per_iteration": 5.53787899, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 1s", "remaining_time": "4h 30m 56s", "loss_scale": 1.0, "consumed_samples": 766976, "global_step/max_steps": "2996/6350"}
{"lm loss": 4.94143867, "grad_norm": 0.7678709, "learning_rate": 5.996e-05, "elapsed_time_per_iteration": 4.89713025, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 6s", "remaining_time": "4h 30m 51s", "loss_scale": 1.0, "consumed_samples": 767232, "global_step/max_steps": "2997/6350"}
{"lm loss": 4.93316507, "grad_norm": 0.81067723, "learning_rate": 5.994e-05, "elapsed_time_per_iteration": 4.76081991, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 11s", "remaining_time": "4h 30m 46s", "loss_scale": 1.0, "consumed_samples": 767488, "global_step/max_steps": "2998/6350"}
{"lm loss": 4.93537092, "grad_norm": 0.69105226, "learning_rate": 5.991e-05, "elapsed_time_per_iteration": 4.70411015, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 15s", "remaining_time": "4h 30m 41s", "loss_scale": 1.0, "consumed_samples": 767744, "global_step/max_steps": "2999/6350"}
{"lm loss": 4.92523384, "grad_norm": 0.96084946, "learning_rate": 5.989e-05, "elapsed_time_per_iteration": 4.74948788, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 20s", "remaining_time": "4h 30m 36s", "loss_scale": 1.0, "consumed_samples": 768000, "global_step/max_steps": "3000/6350"}
{"lm loss": 4.92407703, "grad_norm": 0.52849197, "learning_rate": 5.986e-05, "elapsed_time_per_iteration": 4.76248193, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 25s", "remaining_time": "4h 30m 32s", "loss_scale": 1.0, "consumed_samples": 768256, "global_step/max_steps": "3001/6350"}
{"lm loss": 4.93293762, "grad_norm": 0.70511925, "learning_rate": 5.984e-05, "elapsed_time_per_iteration": 4.71381617, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 30s", "remaining_time": "4h 30m 27s", "loss_scale": 1.0, "consumed_samples": 768512, "global_step/max_steps": "3002/6350"}
{"lm loss": 4.95454931, "grad_norm": 0.70084399, "learning_rate": 5.981e-05, "elapsed_time_per_iteration": 4.76073194, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 34s", "remaining_time": "4h 30m 22s", "loss_scale": 1.0, "consumed_samples": 768768, "global_step/max_steps": "3003/6350"}
{"lm loss": 4.91867924, "grad_norm": 0.67073303, "learning_rate": 5.979e-05, "elapsed_time_per_iteration": 5.63241267, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 40s", "remaining_time": "4h 30m 18s", "loss_scale": 1.0, "consumed_samples": 769024, "global_step/max_steps": "3004/6350"}
{"lm loss": 4.93258095, "grad_norm": 0.73729455, "learning_rate": 5.976e-05, "elapsed_time_per_iteration": 4.75315261, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 45s", "remaining_time": "4h 30m 13s", "loss_scale": 1.0, "consumed_samples": 769280, "global_step/max_steps": "3005/6350"}
{"lm loss": 4.94671059, "grad_norm": 0.92005378, "learning_rate": 5.974e-05, "elapsed_time_per_iteration": 4.71919727, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 49s", "remaining_time": "4h 30m 8s", "loss_scale": 1.0, "consumed_samples": 769536, "global_step/max_steps": "3006/6350"}
{"lm loss": 4.94602013, "grad_norm": 0.93839264, "learning_rate": 5.971e-05, "elapsed_time_per_iteration": 4.71877289, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 54s", "remaining_time": "4h 30m 3s", "loss_scale": 1.0, "consumed_samples": 769792, "global_step/max_steps": "3007/6350"}
{"lm loss": 4.94376278, "grad_norm": 0.77861077, "learning_rate": 5.969e-05, "elapsed_time_per_iteration": 4.75397229, "memory(GiB)": 28.03, "elapsed_time": "4h 2m 59s", "remaining_time": "4h 29m 58s", "loss_scale": 1.0, "consumed_samples": 770048, "global_step/max_steps": "3008/6350"}
{"lm loss": 4.95761108, "grad_norm": 0.78073597, "learning_rate": 5.966e-05, "elapsed_time_per_iteration": 4.82262993, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 4s", "remaining_time": "4h 29m 53s", "loss_scale": 1.0, "consumed_samples": 770304, "global_step/max_steps": "3009/6350"}
{"lm loss": 4.94737816, "grad_norm": 0.79305565, "learning_rate": 5.964e-05, "elapsed_time_per_iteration": 4.76191139, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 8s", "remaining_time": "4h 29m 48s", "loss_scale": 1.0, "consumed_samples": 770560, "global_step/max_steps": "3010/6350"}
{"lm loss": 4.93150759, "grad_norm": 0.98691738, "learning_rate": 5.961e-05, "elapsed_time_per_iteration": 4.8300283, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 13s", "remaining_time": "4h 29m 43s", "loss_scale": 1.0, "consumed_samples": 770816, "global_step/max_steps": "3011/6350"}
{"lm loss": 4.9158783, "grad_norm": 1.24105251, "learning_rate": 5.959e-05, "elapsed_time_per_iteration": 4.78531432, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 18s", "remaining_time": "4h 29m 38s", "loss_scale": 1.0, "consumed_samples": 771072, "global_step/max_steps": "3012/6350"}
{"lm loss": 4.94991112, "grad_norm": 0.67851233, "learning_rate": 5.956e-05, "elapsed_time_per_iteration": 4.84773517, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 23s", "remaining_time": "4h 29m 33s", "loss_scale": 1.0, "consumed_samples": 771328, "global_step/max_steps": "3013/6350"}
{"lm loss": 4.93587255, "grad_norm": 0.91577262, "learning_rate": 5.954e-05, "elapsed_time_per_iteration": 4.77890992, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 28s", "remaining_time": "4h 29m 28s", "loss_scale": 1.0, "consumed_samples": 771584, "global_step/max_steps": "3014/6350"}
{"lm loss": 4.94208288, "grad_norm": 1.2286489, "learning_rate": 5.951e-05, "elapsed_time_per_iteration": 4.79725194, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 33s", "remaining_time": "4h 29m 23s", "loss_scale": 1.0, "consumed_samples": 771840, "global_step/max_steps": "3015/6350"}
{"lm loss": 4.95696878, "grad_norm": 0.86475194, "learning_rate": 5.949e-05, "elapsed_time_per_iteration": 4.68768859, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 37s", "remaining_time": "4h 29m 18s", "loss_scale": 1.0, "consumed_samples": 772096, "global_step/max_steps": "3016/6350"}
{"lm loss": 4.93254709, "grad_norm": 0.88715088, "learning_rate": 5.946e-05, "elapsed_time_per_iteration": 4.81282997, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 42s", "remaining_time": "4h 29m 14s", "loss_scale": 1.0, "consumed_samples": 772352, "global_step/max_steps": "3017/6350"}
{"lm loss": 4.96237755, "grad_norm": 0.78069955, "learning_rate": 5.944e-05, "elapsed_time_per_iteration": 4.81768537, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 47s", "remaining_time": "4h 29m 9s", "loss_scale": 1.0, "consumed_samples": 772608, "global_step/max_steps": "3018/6350"}
{"lm loss": 4.90301847, "grad_norm": 0.89020354, "learning_rate": 5.941e-05, "elapsed_time_per_iteration": 4.87319565, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 52s", "remaining_time": "4h 29m 4s", "loss_scale": 1.0, "consumed_samples": 772864, "global_step/max_steps": "3019/6350"}
{"lm loss": 4.94159937, "grad_norm": 1.01523757, "learning_rate": 5.939e-05, "elapsed_time_per_iteration": 4.76060867, "memory(GiB)": 28.03, "elapsed_time": "4h 3m 56s", "remaining_time": "4h 28m 59s", "loss_scale": 1.0, "consumed_samples": 773120, "global_step/max_steps": "3020/6350"}
{"lm loss": 4.93803215, "grad_norm": 0.96264219, "learning_rate": 5.936e-05, "elapsed_time_per_iteration": 5.33868074, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 2s", "remaining_time": "4h 28m 55s", "loss_scale": 1.0, "consumed_samples": 773376, "global_step/max_steps": "3021/6350"}
{"lm loss": 4.94764662, "grad_norm": 0.77027357, "learning_rate": 5.934e-05, "elapsed_time_per_iteration": 4.78074169, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 7s", "remaining_time": "4h 28m 50s", "loss_scale": 1.0, "consumed_samples": 773632, "global_step/max_steps": "3022/6350"}
{"lm loss": 4.94058609, "grad_norm": 0.67995125, "learning_rate": 5.931e-05, "elapsed_time_per_iteration": 4.88478398, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 11s", "remaining_time": "4h 28m 45s", "loss_scale": 1.0, "consumed_samples": 773888, "global_step/max_steps": "3023/6350"}
{"lm loss": 4.95352983, "grad_norm": 0.64530736, "learning_rate": 5.929e-05, "elapsed_time_per_iteration": 4.78156614, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 16s", "remaining_time": "4h 28m 40s", "loss_scale": 1.0, "consumed_samples": 774144, "global_step/max_steps": "3024/6350"}
{"lm loss": 4.94651937, "grad_norm": 0.7297672, "learning_rate": 5.926e-05, "elapsed_time_per_iteration": 4.85545421, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 21s", "remaining_time": "4h 28m 35s", "loss_scale": 1.0, "consumed_samples": 774400, "global_step/max_steps": "3025/6350"}
{"lm loss": 4.94053268, "grad_norm": 0.71366566, "learning_rate": 5.924e-05, "elapsed_time_per_iteration": 4.6810689, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 26s", "remaining_time": "4h 28m 30s", "loss_scale": 1.0, "consumed_samples": 774656, "global_step/max_steps": "3026/6350"}
{"lm loss": 4.95224476, "grad_norm": 0.74778682, "learning_rate": 5.921e-05, "elapsed_time_per_iteration": 5.62185049, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 31s", "remaining_time": "4h 28m 26s", "loss_scale": 1.0, "consumed_samples": 774912, "global_step/max_steps": "3027/6350"}
{"lm loss": 4.93727684, "grad_norm": 0.68026054, "learning_rate": 5.919e-05, "elapsed_time_per_iteration": 4.7561028, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 36s", "remaining_time": "4h 28m 21s", "loss_scale": 1.0, "consumed_samples": 775168, "global_step/max_steps": "3028/6350"}
{"lm loss": 4.94040298, "grad_norm": 0.74060613, "learning_rate": 5.917e-05, "elapsed_time_per_iteration": 5.64981413, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 42s", "remaining_time": "4h 28m 17s", "loss_scale": 1.0, "consumed_samples": 775424, "global_step/max_steps": "3029/6350"}
{"lm loss": 4.92485285, "grad_norm": 0.76937449, "learning_rate": 5.914e-05, "elapsed_time_per_iteration": 4.76143026, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 47s", "remaining_time": "4h 28m 12s", "loss_scale": 1.0, "consumed_samples": 775680, "global_step/max_steps": "3030/6350"}
{"lm loss": 4.93231678, "grad_norm": 0.90285176, "learning_rate": 5.912e-05, "elapsed_time_per_iteration": 4.75718331, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 51s", "remaining_time": "4h 28m 7s", "loss_scale": 1.0, "consumed_samples": 775936, "global_step/max_steps": "3031/6350"}
{"lm loss": 4.94382858, "grad_norm": 1.2822684, "learning_rate": 5.909e-05, "elapsed_time_per_iteration": 4.75112176, "memory(GiB)": 28.03, "elapsed_time": "4h 4m 56s", "remaining_time": "4h 28m 2s", "loss_scale": 1.0, "consumed_samples": 776192, "global_step/max_steps": "3032/6350"}
{"lm loss": 4.94665194, "grad_norm": 0.79745722, "learning_rate": 5.907e-05, "elapsed_time_per_iteration": 4.77395344, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 1s", "remaining_time": "4h 27m 57s", "loss_scale": 1.0, "consumed_samples": 776448, "global_step/max_steps": "3033/6350"}
{"lm loss": 4.9602375, "grad_norm": 0.83236885, "learning_rate": 5.904e-05, "elapsed_time_per_iteration": 5.48755407, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 6s", "remaining_time": "4h 27m 53s", "loss_scale": 1.0, "consumed_samples": 776704, "global_step/max_steps": "3034/6350"}
{"lm loss": 4.92577887, "grad_norm": 1.31790864, "learning_rate": 5.902e-05, "elapsed_time_per_iteration": 4.72147036, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 11s", "remaining_time": "4h 27m 48s", "loss_scale": 1.0, "consumed_samples": 776960, "global_step/max_steps": "3035/6350"}
{"lm loss": 4.91938829, "grad_norm": 0.76255673, "learning_rate": 5.899e-05, "elapsed_time_per_iteration": 4.72656369, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 16s", "remaining_time": "4h 27m 43s", "loss_scale": 1.0, "consumed_samples": 777216, "global_step/max_steps": "3036/6350"}
{"lm loss": 4.95623636, "grad_norm": 4.27568579, "learning_rate": 5.897e-05, "elapsed_time_per_iteration": 4.67498732, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 20s", "remaining_time": "4h 27m 38s", "loss_scale": 1.0, "consumed_samples": 777472, "global_step/max_steps": "3037/6350"}
{"lm loss": 4.91830492, "grad_norm": 1.30875778, "learning_rate": 5.894e-05, "elapsed_time_per_iteration": 4.69572186, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 25s", "remaining_time": "4h 27m 33s", "loss_scale": 1.0, "consumed_samples": 777728, "global_step/max_steps": "3038/6350"}
{"lm loss": 4.92905474, "grad_norm": 0.98231512, "learning_rate": 5.892e-05, "elapsed_time_per_iteration": 4.79298234, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 30s", "remaining_time": "4h 27m 28s", "loss_scale": 1.0, "consumed_samples": 777984, "global_step/max_steps": "3039/6350"}
{"lm loss": 4.95563459, "grad_norm": 0.92267871, "learning_rate": 5.889e-05, "elapsed_time_per_iteration": 4.76159644, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 35s", "remaining_time": "4h 27m 23s", "loss_scale": 1.0, "consumed_samples": 778240, "global_step/max_steps": "3040/6350"}
{"lm loss": 4.93314791, "grad_norm": 1.04930973, "learning_rate": 5.887e-05, "elapsed_time_per_iteration": 4.76267385, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 39s", "remaining_time": "4h 27m 19s", "loss_scale": 1.0, "consumed_samples": 778496, "global_step/max_steps": "3041/6350"}
{"lm loss": 4.92493963, "grad_norm": 0.74397671, "learning_rate": 5.884e-05, "elapsed_time_per_iteration": 4.77046156, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 44s", "remaining_time": "4h 27m 14s", "loss_scale": 1.0, "consumed_samples": 778752, "global_step/max_steps": "3042/6350"}
{"lm loss": 4.91780996, "grad_norm": 0.99956685, "learning_rate": 5.882e-05, "elapsed_time_per_iteration": 4.75174713, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 49s", "remaining_time": "4h 27m 9s", "loss_scale": 1.0, "consumed_samples": 779008, "global_step/max_steps": "3043/6350"}
{"lm loss": 4.93818521, "grad_norm": 0.90557426, "learning_rate": 5.879e-05, "elapsed_time_per_iteration": 4.76707816, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 54s", "remaining_time": "4h 27m 4s", "loss_scale": 1.0, "consumed_samples": 779264, "global_step/max_steps": "3044/6350"}
{"lm loss": 4.9505806, "grad_norm": 0.89674544, "learning_rate": 5.877e-05, "elapsed_time_per_iteration": 4.71268916, "memory(GiB)": 28.03, "elapsed_time": "4h 5m 58s", "remaining_time": "4h 26m 59s", "loss_scale": 1.0, "consumed_samples": 779520, "global_step/max_steps": "3045/6350"}
{"lm loss": 4.93973827, "grad_norm": 0.81017274, "learning_rate": 5.874e-05, "elapsed_time_per_iteration": 4.72049809, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 3s", "remaining_time": "4h 26m 54s", "loss_scale": 1.0, "consumed_samples": 779776, "global_step/max_steps": "3046/6350"}
{"lm loss": 4.92629957, "grad_norm": 0.95446229, "learning_rate": 5.872e-05, "elapsed_time_per_iteration": 4.67466116, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 8s", "remaining_time": "4h 26m 49s", "loss_scale": 1.0, "consumed_samples": 780032, "global_step/max_steps": "3047/6350"}
{"lm loss": 4.94061136, "grad_norm": 0.91596025, "learning_rate": 5.869e-05, "elapsed_time_per_iteration": 4.67760897, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 13s", "remaining_time": "4h 26m 44s", "loss_scale": 1.0, "consumed_samples": 780288, "global_step/max_steps": "3048/6350"}
{"lm loss": 4.91525793, "grad_norm": 0.76203114, "learning_rate": 5.867e-05, "elapsed_time_per_iteration": 5.44158268, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 18s", "remaining_time": "4h 26m 39s", "loss_scale": 1.0, "consumed_samples": 780544, "global_step/max_steps": "3049/6350"}
{"lm loss": 4.945436, "grad_norm": 0.68584853, "learning_rate": 5.864e-05, "elapsed_time_per_iteration": 4.7357192, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 23s", "remaining_time": "4h 26m 34s", "loss_scale": 1.0, "consumed_samples": 780800, "global_step/max_steps": "3050/6350"}
{"lm loss": 4.93479347, "grad_norm": 0.61038566, "learning_rate": 5.862e-05, "elapsed_time_per_iteration": 5.61018443, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 28s", "remaining_time": "4h 26m 30s", "loss_scale": 1.0, "consumed_samples": 781056, "global_step/max_steps": "3051/6350"}
{"lm loss": 4.94564247, "grad_norm": 0.66216379, "learning_rate": 5.859e-05, "elapsed_time_per_iteration": 4.77812076, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 33s", "remaining_time": "4h 26m 26s", "loss_scale": 1.0, "consumed_samples": 781312, "global_step/max_steps": "3052/6350"}
{"lm loss": 4.95186424, "grad_norm": 0.60516357, "learning_rate": 5.857e-05, "elapsed_time_per_iteration": 4.78982401, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 38s", "remaining_time": "4h 26m 21s", "loss_scale": 1.0, "consumed_samples": 781568, "global_step/max_steps": "3053/6350"}
{"lm loss": 4.94090223, "grad_norm": 0.61123151, "learning_rate": 5.854e-05, "elapsed_time_per_iteration": 5.10564494, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 43s", "remaining_time": "4h 26m 16s", "loss_scale": 1.0, "consumed_samples": 781824, "global_step/max_steps": "3054/6350"}
{"lm loss": 4.93142843, "grad_norm": 0.55990469, "learning_rate": 5.852e-05, "elapsed_time_per_iteration": 4.7398901, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 48s", "remaining_time": "4h 26m 11s", "loss_scale": 1.0, "consumed_samples": 782080, "global_step/max_steps": "3055/6350"}
{"lm loss": 4.95247936, "grad_norm": 0.65089363, "learning_rate": 5.849e-05, "elapsed_time_per_iteration": 4.70824766, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 52s", "remaining_time": "4h 26m 6s", "loss_scale": 1.0, "consumed_samples": 782336, "global_step/max_steps": "3056/6350"}
{"lm loss": 4.93100977, "grad_norm": 0.63551611, "learning_rate": 5.847e-05, "elapsed_time_per_iteration": 4.72628736, "memory(GiB)": 28.03, "elapsed_time": "4h 6m 57s", "remaining_time": "4h 26m 1s", "loss_scale": 1.0, "consumed_samples": 782592, "global_step/max_steps": "3057/6350"}
{"lm loss": 4.92389345, "grad_norm": 0.71920669, "learning_rate": 5.844e-05, "elapsed_time_per_iteration": 4.72955918, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 2s", "remaining_time": "4h 25m 56s", "loss_scale": 1.0, "consumed_samples": 782848, "global_step/max_steps": "3058/6350"}
{"lm loss": 4.91466522, "grad_norm": 0.88491219, "learning_rate": 5.842e-05, "elapsed_time_per_iteration": 4.71823883, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 7s", "remaining_time": "4h 25m 51s", "loss_scale": 1.0, "consumed_samples": 783104, "global_step/max_steps": "3059/6350"}
{"lm loss": 4.92347956, "grad_norm": 1.16042078, "learning_rate": 5.839e-05, "elapsed_time_per_iteration": 4.6442802, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 11s", "remaining_time": "4h 25m 46s", "loss_scale": 1.0, "consumed_samples": 783360, "global_step/max_steps": "3060/6350"}
{"lm loss": 4.92451715, "grad_norm": 0.88164961, "learning_rate": 5.837e-05, "elapsed_time_per_iteration": 4.69098186, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 16s", "remaining_time": "4h 25m 41s", "loss_scale": 1.0, "consumed_samples": 783616, "global_step/max_steps": "3061/6350"}
{"lm loss": 4.92593765, "grad_norm": 0.63257658, "learning_rate": 5.834e-05, "elapsed_time_per_iteration": 4.69471645, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 21s", "remaining_time": "4h 25m 36s", "loss_scale": 1.0, "consumed_samples": 783872, "global_step/max_steps": "3062/6350"}
{"lm loss": 4.95660257, "grad_norm": 0.52288133, "learning_rate": 5.832e-05, "elapsed_time_per_iteration": 4.62892962, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 25s", "remaining_time": "4h 25m 31s", "loss_scale": 1.0, "consumed_samples": 784128, "global_step/max_steps": "3063/6350"}
{"lm loss": 4.94764185, "grad_norm": 0.53691292, "learning_rate": 5.829e-05, "elapsed_time_per_iteration": 4.71417475, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 30s", "remaining_time": "4h 25m 26s", "loss_scale": 1.0, "consumed_samples": 784384, "global_step/max_steps": "3064/6350"}
{"lm loss": 4.92072868, "grad_norm": 0.57114571, "learning_rate": 5.827e-05, "elapsed_time_per_iteration": 4.70175982, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 35s", "remaining_time": "4h 25m 21s", "loss_scale": 1.0, "consumed_samples": 784640, "global_step/max_steps": "3065/6350"}
{"lm loss": 4.93372011, "grad_norm": 0.60558385, "learning_rate": 5.824e-05, "elapsed_time_per_iteration": 5.43832898, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 40s", "remaining_time": "4h 25m 17s", "loss_scale": 1.0, "consumed_samples": 784896, "global_step/max_steps": "3066/6350"}
{"lm loss": 4.95346689, "grad_norm": 0.7366876, "learning_rate": 5.822e-05, "elapsed_time_per_iteration": 4.70805335, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 45s", "remaining_time": "4h 25m 12s", "loss_scale": 1.0, "consumed_samples": 785152, "global_step/max_steps": "3067/6350"}
{"lm loss": 4.92764139, "grad_norm": 0.80306047, "learning_rate": 5.819e-05, "elapsed_time_per_iteration": 4.7768681, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 50s", "remaining_time": "4h 25m 7s", "loss_scale": 1.0, "consumed_samples": 785408, "global_step/max_steps": "3068/6350"}
{"lm loss": 4.93773651, "grad_norm": 0.85502404, "learning_rate": 5.817e-05, "elapsed_time_per_iteration": 4.70912623, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 54s", "remaining_time": "4h 25m 2s", "loss_scale": 1.0, "consumed_samples": 785664, "global_step/max_steps": "3069/6350"}
{"lm loss": 4.92007065, "grad_norm": 0.82709885, "learning_rate": 5.814e-05, "elapsed_time_per_iteration": 4.80349326, "memory(GiB)": 28.03, "elapsed_time": "4h 7m 59s", "remaining_time": "4h 24m 57s", "loss_scale": 1.0, "consumed_samples": 785920, "global_step/max_steps": "3070/6350"}
{"lm loss": 4.90558577, "grad_norm": 0.79600441, "learning_rate": 5.812e-05, "elapsed_time_per_iteration": 4.71866965, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 4s", "remaining_time": "4h 24m 52s", "loss_scale": 1.0, "consumed_samples": 786176, "global_step/max_steps": "3071/6350"}
{"lm loss": 4.94580793, "grad_norm": 0.71162254, "learning_rate": 5.809e-05, "elapsed_time_per_iteration": 4.71691442, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 9s", "remaining_time": "4h 24m 47s", "loss_scale": 1.0, "consumed_samples": 786432, "global_step/max_steps": "3072/6350"}
{"lm loss": 4.92466545, "grad_norm": 0.84236526, "learning_rate": 5.807e-05, "elapsed_time_per_iteration": 4.69694161, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 13s", "remaining_time": "4h 24m 42s", "loss_scale": 1.0, "consumed_samples": 786688, "global_step/max_steps": "3073/6350"}
{"lm loss": 4.951015, "grad_norm": 0.67792243, "learning_rate": 5.804e-05, "elapsed_time_per_iteration": 4.71824169, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 18s", "remaining_time": "4h 24m 37s", "loss_scale": 1.0, "consumed_samples": 786944, "global_step/max_steps": "3074/6350"}
{"lm loss": 4.93772459, "grad_norm": 0.64364982, "learning_rate": 5.802e-05, "elapsed_time_per_iteration": 4.74526691, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 23s", "remaining_time": "4h 24m 32s", "loss_scale": 1.0, "consumed_samples": 787200, "global_step/max_steps": "3075/6350"}
{"lm loss": 4.93762159, "grad_norm": 0.64838141, "learning_rate": 5.799e-05, "elapsed_time_per_iteration": 4.68354082, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 27s", "remaining_time": "4h 24m 27s", "loss_scale": 1.0, "consumed_samples": 787456, "global_step/max_steps": "3076/6350"}
{"lm loss": 4.93639946, "grad_norm": 0.76430738, "learning_rate": 5.797e-05, "elapsed_time_per_iteration": 4.69815111, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 32s", "remaining_time": "4h 24m 22s", "loss_scale": 1.0, "consumed_samples": 787712, "global_step/max_steps": "3077/6350"}
{"lm loss": 4.92425823, "grad_norm": 0.93326551, "learning_rate": 5.794e-05, "elapsed_time_per_iteration": 4.72003365, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 37s", "remaining_time": "4h 24m 17s", "loss_scale": 1.0, "consumed_samples": 787968, "global_step/max_steps": "3078/6350"}
{"lm loss": 4.92975044, "grad_norm": 1.04463279, "learning_rate": 5.792e-05, "elapsed_time_per_iteration": 4.90773082, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 42s", "remaining_time": "4h 24m 12s", "loss_scale": 1.0, "consumed_samples": 788224, "global_step/max_steps": "3079/6350"}
{"lm loss": 4.93206453, "grad_norm": 1.00605118, "learning_rate": 5.789e-05, "elapsed_time_per_iteration": 4.72563744, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 46s", "remaining_time": "4h 24m 7s", "loss_scale": 1.0, "consumed_samples": 788480, "global_step/max_steps": "3080/6350"}
{"lm loss": 4.92723131, "grad_norm": 0.87960637, "learning_rate": 5.787e-05, "elapsed_time_per_iteration": 4.65305448, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 51s", "remaining_time": "4h 24m 2s", "loss_scale": 1.0, "consumed_samples": 788736, "global_step/max_steps": "3081/6350"}
{"lm loss": 4.93403578, "grad_norm": 0.58578461, "learning_rate": 5.784e-05, "elapsed_time_per_iteration": 4.71104574, "memory(GiB)": 28.03, "elapsed_time": "4h 8m 56s", "remaining_time": "4h 23m 57s", "loss_scale": 1.0, "consumed_samples": 788992, "global_step/max_steps": "3082/6350"}
{"lm loss": 4.95608425, "grad_norm": 0.79532439, "learning_rate": 5.782e-05, "elapsed_time_per_iteration": 5.58682418, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 1s", "remaining_time": "4h 23m 53s", "loss_scale": 1.0, "consumed_samples": 789248, "global_step/max_steps": "3083/6350"}
{"lm loss": 4.93185854, "grad_norm": 0.93432784, "learning_rate": 5.779e-05, "elapsed_time_per_iteration": 5.55489588, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 7s", "remaining_time": "4h 23m 49s", "loss_scale": 1.0, "consumed_samples": 789504, "global_step/max_steps": "3084/6350"}
{"lm loss": 4.92610073, "grad_norm": 0.77937675, "learning_rate": 5.777e-05, "elapsed_time_per_iteration": 4.69720149, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 12s", "remaining_time": "4h 23m 44s", "loss_scale": 1.0, "consumed_samples": 789760, "global_step/max_steps": "3085/6350"}
{"lm loss": 4.90795517, "grad_norm": 0.6468333, "learning_rate": 5.774e-05, "elapsed_time_per_iteration": 4.61599898, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 16s", "remaining_time": "4h 23m 39s", "loss_scale": 1.0, "consumed_samples": 790016, "global_step/max_steps": "3086/6350"}
{"lm loss": 4.9309392, "grad_norm": 0.59866434, "learning_rate": 5.772e-05, "elapsed_time_per_iteration": 5.3864069, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 22s", "remaining_time": "4h 23m 35s", "loss_scale": 1.0, "consumed_samples": 790272, "global_step/max_steps": "3087/6350"}
{"lm loss": 4.92836237, "grad_norm": 0.66750455, "learning_rate": 5.769e-05, "elapsed_time_per_iteration": 4.76217437, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 26s", "remaining_time": "4h 23m 30s", "loss_scale": 1.0, "consumed_samples": 790528, "global_step/max_steps": "3088/6350"}
{"lm loss": 4.94721603, "grad_norm": 0.8841874, "learning_rate": 5.767e-05, "elapsed_time_per_iteration": 4.71404791, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 31s", "remaining_time": "4h 23m 25s", "loss_scale": 1.0, "consumed_samples": 790784, "global_step/max_steps": "3089/6350"}
{"lm loss": 4.92651653, "grad_norm": 0.9784354, "learning_rate": 5.764e-05, "elapsed_time_per_iteration": 4.6922543, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 36s", "remaining_time": "4h 23m 20s", "loss_scale": 1.0, "consumed_samples": 791040, "global_step/max_steps": "3090/6350"}
{"lm loss": 4.94863749, "grad_norm": 0.91911405, "learning_rate": 5.761e-05, "elapsed_time_per_iteration": 4.71790218, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 41s", "remaining_time": "4h 23m 15s", "loss_scale": 1.0, "consumed_samples": 791296, "global_step/max_steps": "3091/6350"}
{"lm loss": 4.91858625, "grad_norm": 0.84730846, "learning_rate": 5.759e-05, "elapsed_time_per_iteration": 4.75540042, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 45s", "remaining_time": "4h 23m 10s", "loss_scale": 1.0, "consumed_samples": 791552, "global_step/max_steps": "3092/6350"}
{"lm loss": 4.94363546, "grad_norm": 0.55006766, "learning_rate": 5.756e-05, "elapsed_time_per_iteration": 4.78316236, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 50s", "remaining_time": "4h 23m 5s", "loss_scale": 1.0, "consumed_samples": 791808, "global_step/max_steps": "3093/6350"}
{"lm loss": 4.95611238, "grad_norm": 0.6550526, "learning_rate": 5.754e-05, "elapsed_time_per_iteration": 4.78348064, "memory(GiB)": 28.03, "elapsed_time": "4h 9m 55s", "remaining_time": "4h 23m 0s", "loss_scale": 1.0, "consumed_samples": 792064, "global_step/max_steps": "3094/6350"}
{"lm loss": 4.95540237, "grad_norm": 0.72281063, "learning_rate": 5.751e-05, "elapsed_time_per_iteration": 4.76796937, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 0s", "remaining_time": "4h 22m 55s", "loss_scale": 1.0, "consumed_samples": 792320, "global_step/max_steps": "3095/6350"}
{"lm loss": 4.93373346, "grad_norm": 0.68239838, "learning_rate": 5.749e-05, "elapsed_time_per_iteration": 4.79993272, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 4s", "remaining_time": "4h 22m 50s", "loss_scale": 1.0, "consumed_samples": 792576, "global_step/max_steps": "3096/6350"}
{"lm loss": 4.96985006, "grad_norm": 0.66484714, "learning_rate": 5.746e-05, "elapsed_time_per_iteration": 5.60879779, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 10s", "remaining_time": "4h 22m 46s", "loss_scale": 1.0, "consumed_samples": 792832, "global_step/max_steps": "3097/6350"}
{"lm loss": 4.93333101, "grad_norm": 0.70964551, "learning_rate": 5.744e-05, "elapsed_time_per_iteration": 4.67931223, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 15s", "remaining_time": "4h 22m 41s", "loss_scale": 1.0, "consumed_samples": 793088, "global_step/max_steps": "3098/6350"}
{"lm loss": 4.93356037, "grad_norm": 0.85746586, "learning_rate": 5.741e-05, "elapsed_time_per_iteration": 5.54640365, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 20s", "remaining_time": "4h 22m 37s", "loss_scale": 1.0, "consumed_samples": 793344, "global_step/max_steps": "3099/6350"}
{"lm loss": 4.93483829, "grad_norm": 0.97752166, "learning_rate": 5.739e-05, "elapsed_time_per_iteration": 4.69941974, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 25s", "remaining_time": "4h 22m 32s", "loss_scale": 1.0, "consumed_samples": 793600, "global_step/max_steps": "3100/6350"}
{"lm loss": 4.90488243, "grad_norm": 0.5950706, "learning_rate": 5.736e-05, "elapsed_time_per_iteration": 4.72740197, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 30s", "remaining_time": "4h 22m 27s", "loss_scale": 1.0, "consumed_samples": 793856, "global_step/max_steps": "3101/6350"}
{"lm loss": 4.93929672, "grad_norm": 0.56592005, "learning_rate": 5.734e-05, "elapsed_time_per_iteration": 4.80544639, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 35s", "remaining_time": "4h 22m 22s", "loss_scale": 1.0, "consumed_samples": 794112, "global_step/max_steps": "3102/6350"}
{"lm loss": 4.93625736, "grad_norm": 0.71235257, "learning_rate": 5.731e-05, "elapsed_time_per_iteration": 4.76485968, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 39s", "remaining_time": "4h 22m 17s", "loss_scale": 1.0, "consumed_samples": 794368, "global_step/max_steps": "3103/6350"}
{"lm loss": 4.93023205, "grad_norm": 0.79119372, "learning_rate": 5.729e-05, "elapsed_time_per_iteration": 4.72787142, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 44s", "remaining_time": "4h 22m 12s", "loss_scale": 1.0, "consumed_samples": 794624, "global_step/max_steps": "3104/6350"}
{"lm loss": 4.90947962, "grad_norm": 0.84617865, "learning_rate": 5.726e-05, "elapsed_time_per_iteration": 4.7456305, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 49s", "remaining_time": "4h 22m 7s", "loss_scale": 1.0, "consumed_samples": 794880, "global_step/max_steps": "3105/6350"}
{"lm loss": 4.96565533, "grad_norm": 0.91433185, "learning_rate": 5.724e-05, "elapsed_time_per_iteration": 4.66344452, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 53s", "remaining_time": "4h 22m 2s", "loss_scale": 1.0, "consumed_samples": 795136, "global_step/max_steps": "3106/6350"}
{"lm loss": 4.92715931, "grad_norm": 0.94741851, "learning_rate": 5.721e-05, "elapsed_time_per_iteration": 4.80774307, "memory(GiB)": 28.03, "elapsed_time": "4h 10m 58s", "remaining_time": "4h 21m 57s", "loss_scale": 1.0, "consumed_samples": 795392, "global_step/max_steps": "3107/6350"}
{"lm loss": 4.96749783, "grad_norm": 0.73817998, "learning_rate": 5.719e-05, "elapsed_time_per_iteration": 4.81269431, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 3s", "remaining_time": "4h 21m 53s", "loss_scale": 1.0, "consumed_samples": 795648, "global_step/max_steps": "3108/6350"}
{"lm loss": 4.92704344, "grad_norm": 0.59562314, "learning_rate": 5.716e-05, "elapsed_time_per_iteration": 4.77682495, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 8s", "remaining_time": "4h 21m 48s", "loss_scale": 1.0, "consumed_samples": 795904, "global_step/max_steps": "3109/6350"}
{"lm loss": 4.9217782, "grad_norm": 0.75519055, "learning_rate": 5.714e-05, "elapsed_time_per_iteration": 4.7333169, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 13s", "remaining_time": "4h 21m 43s", "loss_scale": 1.0, "consumed_samples": 796160, "global_step/max_steps": "3110/6350"}
{"lm loss": 4.94556379, "grad_norm": 0.72746807, "learning_rate": 5.711e-05, "elapsed_time_per_iteration": 4.69754362, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 17s", "remaining_time": "4h 21m 38s", "loss_scale": 1.0, "consumed_samples": 796416, "global_step/max_steps": "3111/6350"}
{"lm loss": 4.95646095, "grad_norm": 0.64182913, "learning_rate": 5.709e-05, "elapsed_time_per_iteration": 4.66956067, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 22s", "remaining_time": "4h 21m 33s", "loss_scale": 1.0, "consumed_samples": 796672, "global_step/max_steps": "3112/6350"}
{"lm loss": 4.97211742, "grad_norm": 0.65593863, "learning_rate": 5.706e-05, "elapsed_time_per_iteration": 4.76239157, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 27s", "remaining_time": "4h 21m 28s", "loss_scale": 1.0, "consumed_samples": 796928, "global_step/max_steps": "3113/6350"}
{"lm loss": 4.92099571, "grad_norm": 0.58747035, "learning_rate": 5.704e-05, "elapsed_time_per_iteration": 4.74358582, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 31s", "remaining_time": "4h 21m 23s", "loss_scale": 1.0, "consumed_samples": 797184, "global_step/max_steps": "3114/6350"}
{"lm loss": 4.91534948, "grad_norm": 0.72576642, "learning_rate": 5.701e-05, "elapsed_time_per_iteration": 4.72665477, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 36s", "remaining_time": "4h 21m 18s", "loss_scale": 1.0, "consumed_samples": 797440, "global_step/max_steps": "3115/6350"}
{"lm loss": 4.94746065, "grad_norm": 0.85907358, "learning_rate": 5.699e-05, "elapsed_time_per_iteration": 4.7314539, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 41s", "remaining_time": "4h 21m 13s", "loss_scale": 1.0, "consumed_samples": 797696, "global_step/max_steps": "3116/6350"}
{"lm loss": 4.93904877, "grad_norm": 0.91968888, "learning_rate": 5.696e-05, "elapsed_time_per_iteration": 4.70422029, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 46s", "remaining_time": "4h 21m 8s", "loss_scale": 1.0, "consumed_samples": 797952, "global_step/max_steps": "3117/6350"}
{"lm loss": 4.92915106, "grad_norm": 1.00134683, "learning_rate": 5.694e-05, "elapsed_time_per_iteration": 5.50528383, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 51s", "remaining_time": "4h 21m 4s", "loss_scale": 1.0, "consumed_samples": 798208, "global_step/max_steps": "3118/6350"}
{"lm loss": 4.91654396, "grad_norm": 0.97557181, "learning_rate": 5.691e-05, "elapsed_time_per_iteration": 4.65775609, "memory(GiB)": 28.03, "elapsed_time": "4h 11m 56s", "remaining_time": "4h 20m 59s", "loss_scale": 1.0, "consumed_samples": 798464, "global_step/max_steps": "3119/6350"}
{"lm loss": 4.92238617, "grad_norm": 0.9929648, "learning_rate": 5.689e-05, "elapsed_time_per_iteration": 4.60576177, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 0s", "remaining_time": "4h 20m 53s", "loss_scale": 1.0, "consumed_samples": 798720, "global_step/max_steps": "3120/6350"}
{"lm loss": 4.91901255, "grad_norm": 0.99717528, "learning_rate": 5.686e-05, "elapsed_time_per_iteration": 4.68213534, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 5s", "remaining_time": "4h 20m 48s", "loss_scale": 1.0, "consumed_samples": 798976, "global_step/max_steps": "3121/6350"}
{"lm loss": 4.92296267, "grad_norm": 0.72968543, "learning_rate": 5.684e-05, "elapsed_time_per_iteration": 4.69789338, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 10s", "remaining_time": "4h 20m 43s", "loss_scale": 1.0, "consumed_samples": 799232, "global_step/max_steps": "3122/6350"}
{"lm loss": 4.91181755, "grad_norm": 0.64701688, "learning_rate": 5.681e-05, "elapsed_time_per_iteration": 4.66273808, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 14s", "remaining_time": "4h 20m 38s", "loss_scale": 1.0, "consumed_samples": 799488, "global_step/max_steps": "3123/6350"}
{"lm loss": 4.93659687, "grad_norm": 0.74018639, "learning_rate": 5.679e-05, "elapsed_time_per_iteration": 4.63510871, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 19s", "remaining_time": "4h 20m 33s", "loss_scale": 1.0, "consumed_samples": 799744, "global_step/max_steps": "3124/6350"}
{"lm loss": 4.93197155, "grad_norm": 0.75817829, "learning_rate": 5.676e-05, "elapsed_time_per_iteration": 4.65855861, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 24s", "remaining_time": "4h 20m 28s", "loss_scale": 1.0, "consumed_samples": 800000, "global_step/max_steps": "3125/6350"}
{"lm loss": 4.90468025, "grad_norm": 0.73141384, "learning_rate": 5.674e-05, "elapsed_time_per_iteration": 4.67301416, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 28s", "remaining_time": "4h 20m 23s", "loss_scale": 1.0, "consumed_samples": 800256, "global_step/max_steps": "3126/6350"}
{"lm loss": 4.93412733, "grad_norm": 0.70735091, "learning_rate": 5.671e-05, "elapsed_time_per_iteration": 4.7585938, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 33s", "remaining_time": "4h 20m 18s", "loss_scale": 1.0, "consumed_samples": 800512, "global_step/max_steps": "3127/6350"}
{"lm loss": 4.94715929, "grad_norm": 0.63585573, "learning_rate": 5.669e-05, "elapsed_time_per_iteration": 5.52882671, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 39s", "remaining_time": "4h 20m 14s", "loss_scale": 1.0, "consumed_samples": 800768, "global_step/max_steps": "3128/6350"}
{"lm loss": 4.91355801, "grad_norm": 0.58896959, "learning_rate": 5.666e-05, "elapsed_time_per_iteration": 4.77515364, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 43s", "remaining_time": "4h 20m 9s", "loss_scale": 1.0, "consumed_samples": 801024, "global_step/max_steps": "3129/6350"}
{"lm loss": 4.91374874, "grad_norm": 0.56177551, "learning_rate": 5.664e-05, "elapsed_time_per_iteration": 4.69648552, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 48s", "remaining_time": "4h 20m 4s", "loss_scale": 1.0, "consumed_samples": 801280, "global_step/max_steps": "3130/6350"}
{"lm loss": 4.92084169, "grad_norm": 0.58153337, "learning_rate": 5.661e-05, "elapsed_time_per_iteration": 5.53176451, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 54s", "remaining_time": "4h 20m 0s", "loss_scale": 1.0, "consumed_samples": 801536, "global_step/max_steps": "3131/6350"}
{"lm loss": 4.89641047, "grad_norm": 0.72159088, "learning_rate": 5.659e-05, "elapsed_time_per_iteration": 4.8092556, "memory(GiB)": 28.03, "elapsed_time": "4h 12m 58s", "remaining_time": "4h 19m 55s", "loss_scale": 1.0, "consumed_samples": 801792, "global_step/max_steps": "3132/6350"}
{"lm loss": 4.94600725, "grad_norm": 0.73145843, "learning_rate": 5.656e-05, "elapsed_time_per_iteration": 4.66908932, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 3s", "remaining_time": "4h 19m 50s", "loss_scale": 1.0, "consumed_samples": 802048, "global_step/max_steps": "3133/6350"}
{"lm loss": 4.9252615, "grad_norm": 0.57273215, "learning_rate": 5.654e-05, "elapsed_time_per_iteration": 4.78697491, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 8s", "remaining_time": "4h 19m 45s", "loss_scale": 1.0, "consumed_samples": 802304, "global_step/max_steps": "3134/6350"}
{"lm loss": 4.92966032, "grad_norm": 0.62688553, "learning_rate": 5.651e-05, "elapsed_time_per_iteration": 5.38094687, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 13s", "remaining_time": "4h 19m 41s", "loss_scale": 1.0, "consumed_samples": 802560, "global_step/max_steps": "3135/6350"}
{"lm loss": 4.92810059, "grad_norm": 0.57351267, "learning_rate": 5.649e-05, "elapsed_time_per_iteration": 4.67831326, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 18s", "remaining_time": "4h 19m 36s", "loss_scale": 1.0, "consumed_samples": 802816, "global_step/max_steps": "3136/6350"}
{"lm loss": 4.94892979, "grad_norm": 0.71679831, "learning_rate": 5.646e-05, "elapsed_time_per_iteration": 5.31912398, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 23s", "remaining_time": "4h 19m 32s", "loss_scale": 1.0, "consumed_samples": 803072, "global_step/max_steps": "3137/6350"}
{"lm loss": 4.92358971, "grad_norm": 0.61544669, "learning_rate": 5.644e-05, "elapsed_time_per_iteration": 4.72055006, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 28s", "remaining_time": "4h 19m 27s", "loss_scale": 1.0, "consumed_samples": 803328, "global_step/max_steps": "3138/6350"}
{"lm loss": 4.92182112, "grad_norm": 0.62096506, "learning_rate": 5.641e-05, "elapsed_time_per_iteration": 4.69577265, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 33s", "remaining_time": "4h 19m 22s", "loss_scale": 1.0, "consumed_samples": 803584, "global_step/max_steps": "3139/6350"}
{"lm loss": 4.92448473, "grad_norm": 0.6026324, "learning_rate": 5.639e-05, "elapsed_time_per_iteration": 4.75832915, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 37s", "remaining_time": "4h 19m 17s", "loss_scale": 1.0, "consumed_samples": 803840, "global_step/max_steps": "3140/6350"}
{"lm loss": 4.94664145, "grad_norm": 0.58246076, "learning_rate": 5.636e-05, "elapsed_time_per_iteration": 4.77691817, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 42s", "remaining_time": "4h 19m 12s", "loss_scale": 1.0, "consumed_samples": 804096, "global_step/max_steps": "3141/6350"}
{"lm loss": 4.92180538, "grad_norm": 0.57526916, "learning_rate": 5.634e-05, "elapsed_time_per_iteration": 4.72731066, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 47s", "remaining_time": "4h 19m 7s", "loss_scale": 1.0, "consumed_samples": 804352, "global_step/max_steps": "3142/6350"}
{"lm loss": 4.94526768, "grad_norm": 0.71019834, "learning_rate": 5.631e-05, "elapsed_time_per_iteration": 4.79372811, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 52s", "remaining_time": "4h 19m 2s", "loss_scale": 1.0, "consumed_samples": 804608, "global_step/max_steps": "3143/6350"}
{"lm loss": 4.95193768, "grad_norm": 0.98047525, "learning_rate": 5.628e-05, "elapsed_time_per_iteration": 4.72125173, "memory(GiB)": 28.03, "elapsed_time": "4h 13m 57s", "remaining_time": "4h 18m 57s", "loss_scale": 1.0, "consumed_samples": 804864, "global_step/max_steps": "3144/6350"}
{"lm loss": 4.9613409, "grad_norm": 1.3380233, "learning_rate": 5.626e-05, "elapsed_time_per_iteration": 4.76136899, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 1s", "remaining_time": "4h 18m 52s", "loss_scale": 1.0, "consumed_samples": 805120, "global_step/max_steps": "3145/6350"}
{"lm loss": 4.95261669, "grad_norm": 0.77354175, "learning_rate": 5.623e-05, "elapsed_time_per_iteration": 4.70331526, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 6s", "remaining_time": "4h 18m 47s", "loss_scale": 1.0, "consumed_samples": 805376, "global_step/max_steps": "3146/6350"}
{"lm loss": 4.92274809, "grad_norm": 0.56997043, "learning_rate": 5.621e-05, "elapsed_time_per_iteration": 4.74341202, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 11s", "remaining_time": "4h 18m 42s", "loss_scale": 1.0, "consumed_samples": 805632, "global_step/max_steps": "3147/6350"}
{"lm loss": 4.94467878, "grad_norm": 0.77984488, "learning_rate": 5.618e-05, "elapsed_time_per_iteration": 4.8126626, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 16s", "remaining_time": "4h 18m 37s", "loss_scale": 1.0, "consumed_samples": 805888, "global_step/max_steps": "3148/6350"}
{"lm loss": 4.91202307, "grad_norm": 1.15763485, "learning_rate": 5.616e-05, "elapsed_time_per_iteration": 4.72030044, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 20s", "remaining_time": "4h 18m 32s", "loss_scale": 1.0, "consumed_samples": 806144, "global_step/max_steps": "3149/6350"}
{"lm loss": 4.9241004, "grad_norm": 0.90896815, "learning_rate": 5.613e-05, "elapsed_time_per_iteration": 4.63651705, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 25s", "remaining_time": "4h 18m 27s", "loss_scale": 1.0, "consumed_samples": 806400, "global_step/max_steps": "3150/6350"}
{"lm loss": 4.93825293, "grad_norm": 0.73531342, "learning_rate": 5.611e-05, "elapsed_time_per_iteration": 5.26326585, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 30s", "remaining_time": "4h 18m 23s", "loss_scale": 1.0, "consumed_samples": 806656, "global_step/max_steps": "3151/6350"}
{"lm loss": 4.93414307, "grad_norm": 0.76619369, "learning_rate": 5.608e-05, "elapsed_time_per_iteration": 4.72847366, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 35s", "remaining_time": "4h 18m 18s", "loss_scale": 1.0, "consumed_samples": 806912, "global_step/max_steps": "3152/6350"}
{"lm loss": 4.91759062, "grad_norm": 0.75962061, "learning_rate": 5.606e-05, "elapsed_time_per_iteration": 5.29495764, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 40s", "remaining_time": "4h 18m 13s", "loss_scale": 1.0, "consumed_samples": 807168, "global_step/max_steps": "3153/6350"}
{"lm loss": 4.90482998, "grad_norm": 0.70028442, "learning_rate": 5.603e-05, "elapsed_time_per_iteration": 4.78157496, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 45s", "remaining_time": "4h 18m 9s", "loss_scale": 1.0, "consumed_samples": 807424, "global_step/max_steps": "3154/6350"}
{"lm loss": 4.92261839, "grad_norm": 0.64707279, "learning_rate": 5.601e-05, "elapsed_time_per_iteration": 4.93278933, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 50s", "remaining_time": "4h 18m 4s", "loss_scale": 1.0, "consumed_samples": 807680, "global_step/max_steps": "3155/6350"}
{"lm loss": 4.92350149, "grad_norm": 0.66195905, "learning_rate": 5.598e-05, "elapsed_time_per_iteration": 4.83922696, "memory(GiB)": 28.03, "elapsed_time": "4h 14m 55s", "remaining_time": "4h 17m 59s", "loss_scale": 1.0, "consumed_samples": 807936, "global_step/max_steps": "3156/6350"}
{"lm loss": 4.92870951, "grad_norm": 0.67880708, "learning_rate": 5.596e-05, "elapsed_time_per_iteration": 4.89518619, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 0s", "remaining_time": "4h 17m 54s", "loss_scale": 1.0, "consumed_samples": 808192, "global_step/max_steps": "3157/6350"}
{"lm loss": 4.91892672, "grad_norm": 0.61779064, "learning_rate": 5.593e-05, "elapsed_time_per_iteration": 4.835886, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 4s", "remaining_time": "4h 17m 49s", "loss_scale": 1.0, "consumed_samples": 808448, "global_step/max_steps": "3158/6350"}
{"lm loss": 4.94364595, "grad_norm": 0.59603482, "learning_rate": 5.591e-05, "elapsed_time_per_iteration": 4.78655577, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 9s", "remaining_time": "4h 17m 44s", "loss_scale": 1.0, "consumed_samples": 808704, "global_step/max_steps": "3159/6350"}
{"lm loss": 4.94298458, "grad_norm": 0.55880493, "learning_rate": 5.588e-05, "elapsed_time_per_iteration": 4.738343, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 14s", "remaining_time": "4h 17m 39s", "loss_scale": 1.0, "consumed_samples": 808960, "global_step/max_steps": "3160/6350"}
{"lm loss": 4.91942167, "grad_norm": 0.75782669, "learning_rate": 5.586e-05, "elapsed_time_per_iteration": 4.79808068, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 19s", "remaining_time": "4h 17m 34s", "loss_scale": 1.0, "consumed_samples": 809216, "global_step/max_steps": "3161/6350"}
{"lm loss": 4.92595005, "grad_norm": 0.78810036, "learning_rate": 5.583e-05, "elapsed_time_per_iteration": 4.77383089, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 24s", "remaining_time": "4h 17m 30s", "loss_scale": 1.0, "consumed_samples": 809472, "global_step/max_steps": "3162/6350"}
{"lm loss": 4.90125179, "grad_norm": 0.83376682, "learning_rate": 5.581e-05, "elapsed_time_per_iteration": 4.75578785, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 28s", "remaining_time": "4h 17m 25s", "loss_scale": 1.0, "consumed_samples": 809728, "global_step/max_steps": "3163/6350"}
{"lm loss": 4.91677713, "grad_norm": 0.75733954, "learning_rate": 5.578e-05, "elapsed_time_per_iteration": 4.76185775, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 33s", "remaining_time": "4h 17m 20s", "loss_scale": 1.0, "consumed_samples": 809984, "global_step/max_steps": "3164/6350"}
{"lm loss": 4.92914486, "grad_norm": 0.91891062, "learning_rate": 5.576e-05, "elapsed_time_per_iteration": 4.80640745, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 38s", "remaining_time": "4h 17m 15s", "loss_scale": 1.0, "consumed_samples": 810240, "global_step/max_steps": "3165/6350"}
{"lm loss": 4.9234252, "grad_norm": 1.19110036, "learning_rate": 5.573e-05, "elapsed_time_per_iteration": 4.71776724, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 43s", "remaining_time": "4h 17m 10s", "loss_scale": 1.0, "consumed_samples": 810496, "global_step/max_steps": "3166/6350"}
{"lm loss": 4.94620323, "grad_norm": 0.82749671, "learning_rate": 5.571e-05, "elapsed_time_per_iteration": 4.78202724, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 47s", "remaining_time": "4h 17m 5s", "loss_scale": 1.0, "consumed_samples": 810752, "global_step/max_steps": "3167/6350"}
{"lm loss": 4.94716644, "grad_norm": 0.59751511, "learning_rate": 5.568e-05, "elapsed_time_per_iteration": 5.63058615, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 53s", "remaining_time": "4h 17m 1s", "loss_scale": 1.0, "consumed_samples": 811008, "global_step/max_steps": "3168/6350"}
{"lm loss": 4.905056, "grad_norm": 0.75257844, "learning_rate": 5.566e-05, "elapsed_time_per_iteration": 4.75482607, "memory(GiB)": 28.03, "elapsed_time": "4h 15m 58s", "remaining_time": "4h 16m 56s", "loss_scale": 1.0, "consumed_samples": 811264, "global_step/max_steps": "3169/6350"}
{"lm loss": 4.92257643, "grad_norm": 1.30047894, "learning_rate": 5.563e-05, "elapsed_time_per_iteration": 4.73922896, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 3s", "remaining_time": "4h 16m 51s", "loss_scale": 1.0, "consumed_samples": 811520, "global_step/max_steps": "3170/6350"}
{"lm loss": 4.92952347, "grad_norm": 0.59212279, "learning_rate": 5.561e-05, "elapsed_time_per_iteration": 4.72979832, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 7s", "remaining_time": "4h 16m 46s", "loss_scale": 1.0, "consumed_samples": 811776, "global_step/max_steps": "3171/6350"}
{"lm loss": 4.92748785, "grad_norm": 0.86035359, "learning_rate": 5.558e-05, "elapsed_time_per_iteration": 4.7991643, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 12s", "remaining_time": "4h 16m 41s", "loss_scale": 1.0, "consumed_samples": 812032, "global_step/max_steps": "3172/6350"}
{"lm loss": 4.92871523, "grad_norm": 0.79091585, "learning_rate": 5.556e-05, "elapsed_time_per_iteration": 4.94866657, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 17s", "remaining_time": "4h 16m 36s", "loss_scale": 1.0, "consumed_samples": 812288, "global_step/max_steps": "3173/6350"}
{"lm loss": 4.91836596, "grad_norm": 0.76478046, "learning_rate": 5.553e-05, "elapsed_time_per_iteration": 4.75392199, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 22s", "remaining_time": "4h 16m 31s", "loss_scale": 1.0, "consumed_samples": 812544, "global_step/max_steps": "3174/6350"}
{"lm loss": 4.9149003, "grad_norm": 1.18168032, "learning_rate": 5.551e-05, "elapsed_time_per_iteration": 4.72402382, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 26s", "remaining_time": "4h 16m 26s", "loss_scale": 1.0, "consumed_samples": 812800, "global_step/max_steps": "3175/6350"}
{"lm loss": 4.92387629, "grad_norm": 0.70278758, "learning_rate": 5.548e-05, "elapsed_time_per_iteration": 4.72523332, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 31s", "remaining_time": "4h 16m 21s", "loss_scale": 1.0, "consumed_samples": 813056, "global_step/max_steps": "3176/6350"}
{"lm loss": 4.93104362, "grad_norm": 0.65979218, "learning_rate": 5.545e-05, "elapsed_time_per_iteration": 4.89600825, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 36s", "remaining_time": "4h 16m 17s", "loss_scale": 1.0, "consumed_samples": 813312, "global_step/max_steps": "3177/6350"}
{"lm loss": 4.93634272, "grad_norm": 0.83706951, "learning_rate": 5.543e-05, "elapsed_time_per_iteration": 4.82149982, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 41s", "remaining_time": "4h 16m 12s", "loss_scale": 1.0, "consumed_samples": 813568, "global_step/max_steps": "3178/6350"}
{"lm loss": 4.91097736, "grad_norm": 0.95099038, "learning_rate": 5.54e-05, "elapsed_time_per_iteration": 4.74185109, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 46s", "remaining_time": "4h 16m 7s", "loss_scale": 1.0, "consumed_samples": 813824, "global_step/max_steps": "3179/6350"}
{"lm loss": 4.90800285, "grad_norm": 0.98846483, "learning_rate": 5.538e-05, "elapsed_time_per_iteration": 4.75513887, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 50s", "remaining_time": "4h 16m 2s", "loss_scale": 1.0, "consumed_samples": 814080, "global_step/max_steps": "3180/6350"}
{"lm loss": 4.90005159, "grad_norm": 1.27561533, "learning_rate": 5.535e-05, "elapsed_time_per_iteration": 5.61944985, "memory(GiB)": 28.03, "elapsed_time": "4h 16m 56s", "remaining_time": "4h 15m 58s", "loss_scale": 1.0, "consumed_samples": 814336, "global_step/max_steps": "3181/6350"}
{"lm loss": 4.926754, "grad_norm": 0.69889104, "learning_rate": 5.533e-05, "elapsed_time_per_iteration": 4.73834586, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 1s", "remaining_time": "4h 15m 53s", "loss_scale": 1.0, "consumed_samples": 814592, "global_step/max_steps": "3182/6350"}
{"lm loss": 4.92166185, "grad_norm": 1.09967816, "learning_rate": 5.53e-05, "elapsed_time_per_iteration": 4.79014587, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 6s", "remaining_time": "4h 15m 48s", "loss_scale": 1.0, "consumed_samples": 814848, "global_step/max_steps": "3183/6350"}
{"lm loss": 4.92642784, "grad_norm": 1.08912945, "learning_rate": 5.528e-05, "elapsed_time_per_iteration": 4.69929147, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 10s", "remaining_time": "4h 15m 43s", "loss_scale": 1.0, "consumed_samples": 815104, "global_step/max_steps": "3184/6350"}
{"lm loss": 4.93078756, "grad_norm": 0.77830875, "learning_rate": 5.525e-05, "elapsed_time_per_iteration": 4.76452684, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 15s", "remaining_time": "4h 15m 38s", "loss_scale": 1.0, "consumed_samples": 815360, "global_step/max_steps": "3185/6350"}
{"lm loss": 4.92012358, "grad_norm": 0.77478069, "learning_rate": 5.523e-05, "elapsed_time_per_iteration": 4.75051379, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 20s", "remaining_time": "4h 15m 33s", "loss_scale": 1.0, "consumed_samples": 815616, "global_step/max_steps": "3186/6350"}
{"lm loss": 4.90842772, "grad_norm": 0.80715173, "learning_rate": 5.52e-05, "elapsed_time_per_iteration": 4.74832249, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 25s", "remaining_time": "4h 15m 28s", "loss_scale": 1.0, "consumed_samples": 815872, "global_step/max_steps": "3187/6350"}
{"lm loss": 4.94008398, "grad_norm": 0.77916414, "learning_rate": 5.518e-05, "elapsed_time_per_iteration": 5.59863353, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 30s", "remaining_time": "4h 15m 24s", "loss_scale": 1.0, "consumed_samples": 816128, "global_step/max_steps": "3188/6350"}
{"lm loss": 4.92260265, "grad_norm": 0.65280354, "learning_rate": 5.515e-05, "elapsed_time_per_iteration": 4.79687572, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 35s", "remaining_time": "4h 15m 19s", "loss_scale": 1.0, "consumed_samples": 816384, "global_step/max_steps": "3189/6350"}
{"lm loss": 4.93802738, "grad_norm": 0.67381078, "learning_rate": 5.513e-05, "elapsed_time_per_iteration": 4.78760719, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 40s", "remaining_time": "4h 15m 14s", "loss_scale": 1.0, "consumed_samples": 816640, "global_step/max_steps": "3190/6350"}
{"lm loss": 4.94566965, "grad_norm": 0.72709972, "learning_rate": 5.51e-05, "elapsed_time_per_iteration": 4.79616356, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 44s", "remaining_time": "4h 15m 9s", "loss_scale": 1.0, "consumed_samples": 816896, "global_step/max_steps": "3191/6350"}
{"lm loss": 4.90458345, "grad_norm": 0.5813784, "learning_rate": 5.508e-05, "elapsed_time_per_iteration": 4.83801484, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 49s", "remaining_time": "4h 15m 5s", "loss_scale": 1.0, "consumed_samples": 817152, "global_step/max_steps": "3192/6350"}
{"lm loss": 4.89723635, "grad_norm": 0.71487129, "learning_rate": 5.505e-05, "elapsed_time_per_iteration": 4.78058457, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 54s", "remaining_time": "4h 15m 0s", "loss_scale": 1.0, "consumed_samples": 817408, "global_step/max_steps": "3193/6350"}
{"lm loss": 4.90319061, "grad_norm": 0.69517595, "learning_rate": 5.503e-05, "elapsed_time_per_iteration": 4.79505992, "memory(GiB)": 28.03, "elapsed_time": "4h 17m 59s", "remaining_time": "4h 14m 55s", "loss_scale": 1.0, "consumed_samples": 817664, "global_step/max_steps": "3194/6350"}
{"lm loss": 4.945714, "grad_norm": 0.82170254, "learning_rate": 5.5e-05, "elapsed_time_per_iteration": 4.70844293, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 4s", "remaining_time": "4h 14m 50s", "loss_scale": 1.0, "consumed_samples": 817920, "global_step/max_steps": "3195/6350"}
{"lm loss": 4.94983912, "grad_norm": 0.80781281, "learning_rate": 5.498e-05, "elapsed_time_per_iteration": 4.75331688, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 8s", "remaining_time": "4h 14m 45s", "loss_scale": 1.0, "consumed_samples": 818176, "global_step/max_steps": "3196/6350"}
{"lm loss": 4.93651533, "grad_norm": 0.6175155, "learning_rate": 5.495e-05, "elapsed_time_per_iteration": 5.53180718, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 14s", "remaining_time": "4h 14m 41s", "loss_scale": 1.0, "consumed_samples": 818432, "global_step/max_steps": "3197/6350"}
{"lm loss": 4.93071127, "grad_norm": 0.66006559, "learning_rate": 5.493e-05, "elapsed_time_per_iteration": 4.80611086, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 19s", "remaining_time": "4h 14m 36s", "loss_scale": 1.0, "consumed_samples": 818688, "global_step/max_steps": "3198/6350"}
{"lm loss": 4.93013668, "grad_norm": 0.63477153, "learning_rate": 5.49e-05, "elapsed_time_per_iteration": 5.60840726, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 24s", "remaining_time": "4h 14m 32s", "loss_scale": 1.0, "consumed_samples": 818944, "global_step/max_steps": "3199/6350"}
{"lm loss": 4.91630411, "grad_norm": 0.88024706, "learning_rate": 5.488e-05, "elapsed_time_per_iteration": 4.69882536, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 29s", "remaining_time": "4h 14m 27s", "loss_scale": 1.0, "consumed_samples": 819200, "global_step/max_steps": "3200/6350"}
{"lm loss": 4.90675926, "grad_norm": 1.18230903, "learning_rate": 5.485e-05, "elapsed_time_per_iteration": 4.71766257, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 34s", "remaining_time": "4h 14m 22s", "loss_scale": 1.0, "consumed_samples": 819456, "global_step/max_steps": "3201/6350"}
{"lm loss": 4.93207932, "grad_norm": 0.82848215, "learning_rate": 5.483e-05, "elapsed_time_per_iteration": 4.79913139, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 39s", "remaining_time": "4h 14m 17s", "loss_scale": 1.0, "consumed_samples": 819712, "global_step/max_steps": "3202/6350"}
{"lm loss": 4.93160915, "grad_norm": 0.71742308, "learning_rate": 5.48e-05, "elapsed_time_per_iteration": 4.85070801, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 43s", "remaining_time": "4h 14m 12s", "loss_scale": 1.0, "consumed_samples": 819968, "global_step/max_steps": "3203/6350"}
{"lm loss": 4.90655613, "grad_norm": 0.56847799, "learning_rate": 5.477e-05, "elapsed_time_per_iteration": 4.72930408, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 48s", "remaining_time": "4h 14m 7s", "loss_scale": 1.0, "consumed_samples": 820224, "global_step/max_steps": "3204/6350"}
{"lm loss": 4.91468573, "grad_norm": 0.58383757, "learning_rate": 5.475e-05, "elapsed_time_per_iteration": 4.77254725, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 53s", "remaining_time": "4h 14m 2s", "loss_scale": 1.0, "consumed_samples": 820480, "global_step/max_steps": "3205/6350"}
{"lm loss": 4.91878414, "grad_norm": 0.69827801, "learning_rate": 5.472e-05, "elapsed_time_per_iteration": 5.6773057, "memory(GiB)": 28.03, "elapsed_time": "4h 18m 59s", "remaining_time": "4h 13m 58s", "loss_scale": 1.0, "consumed_samples": 820736, "global_step/max_steps": "3206/6350"}
{"lm loss": 4.90287113, "grad_norm": 0.68516523, "learning_rate": 5.47e-05, "elapsed_time_per_iteration": 4.74655342, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 3s", "remaining_time": "4h 13m 53s", "loss_scale": 1.0, "consumed_samples": 820992, "global_step/max_steps": "3207/6350"}
{"lm loss": 4.93270874, "grad_norm": 0.64915353, "learning_rate": 5.467e-05, "elapsed_time_per_iteration": 4.78196383, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 8s", "remaining_time": "4h 13m 48s", "loss_scale": 1.0, "consumed_samples": 821248, "global_step/max_steps": "3208/6350"}
{"lm loss": 4.93054199, "grad_norm": 1.01469719, "learning_rate": 5.465e-05, "elapsed_time_per_iteration": 4.73279738, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 13s", "remaining_time": "4h 13m 43s", "loss_scale": 1.0, "consumed_samples": 821504, "global_step/max_steps": "3209/6350"}
{"lm loss": 4.93523455, "grad_norm": 0.54115403, "learning_rate": 5.462e-05, "elapsed_time_per_iteration": 4.73841929, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 18s", "remaining_time": "4h 13m 38s", "loss_scale": 1.0, "consumed_samples": 821760, "global_step/max_steps": "3210/6350"}
{"lm loss": 4.92876959, "grad_norm": 0.56734985, "learning_rate": 5.46e-05, "elapsed_time_per_iteration": 4.75356364, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 22s", "remaining_time": "4h 13m 33s", "loss_scale": 1.0, "consumed_samples": 822016, "global_step/max_steps": "3211/6350"}
{"lm loss": 4.92930317, "grad_norm": 0.52354831, "learning_rate": 5.457e-05, "elapsed_time_per_iteration": 4.74550486, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 27s", "remaining_time": "4h 13m 28s", "loss_scale": 1.0, "consumed_samples": 822272, "global_step/max_steps": "3212/6350"}
{"lm loss": 4.92870808, "grad_norm": 0.53285468, "learning_rate": 5.455e-05, "elapsed_time_per_iteration": 4.77476501, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 32s", "remaining_time": "4h 13m 23s", "loss_scale": 1.0, "consumed_samples": 822528, "global_step/max_steps": "3213/6350"}
{"lm loss": 4.9376173, "grad_norm": 0.52987558, "learning_rate": 5.452e-05, "elapsed_time_per_iteration": 4.80178642, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 37s", "remaining_time": "4h 13m 19s", "loss_scale": 1.0, "consumed_samples": 822784, "global_step/max_steps": "3214/6350"}
{"lm loss": 4.9407053, "grad_norm": 0.57853782, "learning_rate": 5.45e-05, "elapsed_time_per_iteration": 4.71683836, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 41s", "remaining_time": "4h 13m 14s", "loss_scale": 1.0, "consumed_samples": 823040, "global_step/max_steps": "3215/6350"}
{"lm loss": 4.94290447, "grad_norm": 0.5397445, "learning_rate": 5.447e-05, "elapsed_time_per_iteration": 4.80371714, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 46s", "remaining_time": "4h 13m 9s", "loss_scale": 1.0, "consumed_samples": 823296, "global_step/max_steps": "3216/6350"}
{"lm loss": 4.93642044, "grad_norm": 0.70362675, "learning_rate": 5.445e-05, "elapsed_time_per_iteration": 5.45127535, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 52s", "remaining_time": "4h 13m 4s", "loss_scale": 1.0, "consumed_samples": 823552, "global_step/max_steps": "3217/6350"}
{"lm loss": 4.9416008, "grad_norm": 0.95576119, "learning_rate": 5.442e-05, "elapsed_time_per_iteration": 4.72989655, "memory(GiB)": 28.03, "elapsed_time": "4h 19m 56s", "remaining_time": "4h 13m 0s", "loss_scale": 1.0, "consumed_samples": 823808, "global_step/max_steps": "3218/6350"}
{"lm loss": 4.92689133, "grad_norm": 1.08979356, "learning_rate": 5.44e-05, "elapsed_time_per_iteration": 4.84190941, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 1s", "remaining_time": "4h 12m 55s", "loss_scale": 1.0, "consumed_samples": 824064, "global_step/max_steps": "3219/6350"}
{"lm loss": 4.93723726, "grad_norm": 0.99994087, "learning_rate": 5.437e-05, "elapsed_time_per_iteration": 4.69284797, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 6s", "remaining_time": "4h 12m 50s", "loss_scale": 1.0, "consumed_samples": 824320, "global_step/max_steps": "3220/6350"}
{"lm loss": 4.9168787, "grad_norm": 0.85202849, "learning_rate": 5.435e-05, "elapsed_time_per_iteration": 4.75835013, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 11s", "remaining_time": "4h 12m 45s", "loss_scale": 1.0, "consumed_samples": 824576, "global_step/max_steps": "3221/6350"}
{"lm loss": 4.94067669, "grad_norm": 0.74358094, "learning_rate": 5.432e-05, "elapsed_time_per_iteration": 5.63760114, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 16s", "remaining_time": "4h 12m 41s", "loss_scale": 1.0, "consumed_samples": 824832, "global_step/max_steps": "3222/6350"}
{"lm loss": 4.92135191, "grad_norm": 0.64588416, "learning_rate": 5.43e-05, "elapsed_time_per_iteration": 4.74072313, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 21s", "remaining_time": "4h 12m 36s", "loss_scale": 1.0, "consumed_samples": 825088, "global_step/max_steps": "3223/6350"}
{"lm loss": 4.9381299, "grad_norm": 0.55080116, "learning_rate": 5.427e-05, "elapsed_time_per_iteration": 4.82532215, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 26s", "remaining_time": "4h 12m 31s", "loss_scale": 1.0, "consumed_samples": 825344, "global_step/max_steps": "3224/6350"}
{"lm loss": 4.92142582, "grad_norm": 0.56101936, "learning_rate": 5.425e-05, "elapsed_time_per_iteration": 4.72063231, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 31s", "remaining_time": "4h 12m 26s", "loss_scale": 1.0, "consumed_samples": 825600, "global_step/max_steps": "3225/6350"}
{"lm loss": 4.92021465, "grad_norm": 0.60691404, "learning_rate": 5.422e-05, "elapsed_time_per_iteration": 4.67513418, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 35s", "remaining_time": "4h 12m 21s", "loss_scale": 1.0, "consumed_samples": 825856, "global_step/max_steps": "3226/6350"}
{"lm loss": 4.90715408, "grad_norm": 0.63763022, "learning_rate": 5.419e-05, "elapsed_time_per_iteration": 4.70489144, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 40s", "remaining_time": "4h 12m 16s", "loss_scale": 1.0, "consumed_samples": 826112, "global_step/max_steps": "3227/6350"}
{"lm loss": 4.93788576, "grad_norm": 0.64711946, "learning_rate": 5.417e-05, "elapsed_time_per_iteration": 4.83311391, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 45s", "remaining_time": "4h 12m 11s", "loss_scale": 1.0, "consumed_samples": 826368, "global_step/max_steps": "3228/6350"}
{"lm loss": 4.90162897, "grad_norm": 0.74301189, "learning_rate": 5.414e-05, "elapsed_time_per_iteration": 4.76152778, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 50s", "remaining_time": "4h 12m 6s", "loss_scale": 1.0, "consumed_samples": 826624, "global_step/max_steps": "3229/6350"}
{"lm loss": 4.93517876, "grad_norm": 0.77151585, "learning_rate": 5.412e-05, "elapsed_time_per_iteration": 5.66356301, "memory(GiB)": 28.03, "elapsed_time": "4h 20m 55s", "remaining_time": "4h 12m 2s", "loss_scale": 1.0, "consumed_samples": 826880, "global_step/max_steps": "3230/6350"}
{"lm loss": 4.93451738, "grad_norm": 0.85165256, "learning_rate": 5.409e-05, "elapsed_time_per_iteration": 4.78296328, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 0s", "remaining_time": "4h 11m 57s", "loss_scale": 1.0, "consumed_samples": 827136, "global_step/max_steps": "3231/6350"}
{"lm loss": 4.92464876, "grad_norm": 0.86594152, "learning_rate": 5.407e-05, "elapsed_time_per_iteration": 4.82251763, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 5s", "remaining_time": "4h 11m 52s", "loss_scale": 1.0, "consumed_samples": 827392, "global_step/max_steps": "3232/6350"}
{"lm loss": 4.9409647, "grad_norm": 0.87402457, "learning_rate": 5.404e-05, "elapsed_time_per_iteration": 4.85728812, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 10s", "remaining_time": "4h 11m 47s", "loss_scale": 1.0, "consumed_samples": 827648, "global_step/max_steps": "3233/6350"}
{"lm loss": 4.93616152, "grad_norm": 0.73180515, "learning_rate": 5.402e-05, "elapsed_time_per_iteration": 4.99841762, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 15s", "remaining_time": "4h 11m 43s", "loss_scale": 1.0, "consumed_samples": 827904, "global_step/max_steps": "3234/6350"}
{"lm loss": 4.93753719, "grad_norm": 0.52523744, "learning_rate": 5.399e-05, "elapsed_time_per_iteration": 4.83111453, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 19s", "remaining_time": "4h 11m 38s", "loss_scale": 1.0, "consumed_samples": 828160, "global_step/max_steps": "3235/6350"}
{"lm loss": 4.93503284, "grad_norm": 0.64735484, "learning_rate": 5.397e-05, "elapsed_time_per_iteration": 4.78476977, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 24s", "remaining_time": "4h 11m 33s", "loss_scale": 1.0, "consumed_samples": 828416, "global_step/max_steps": "3236/6350"}
{"lm loss": 4.92548847, "grad_norm": 0.8033917, "learning_rate": 5.394e-05, "elapsed_time_per_iteration": 5.77371144, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 30s", "remaining_time": "4h 11m 29s", "loss_scale": 1.0, "consumed_samples": 828672, "global_step/max_steps": "3237/6350"}
{"lm loss": 4.91128445, "grad_norm": 0.99950439, "learning_rate": 5.392e-05, "elapsed_time_per_iteration": 4.77507067, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 35s", "remaining_time": "4h 11m 24s", "loss_scale": 1.0, "consumed_samples": 828928, "global_step/max_steps": "3238/6350"}
{"lm loss": 4.93501663, "grad_norm": 1.1570437, "learning_rate": 5.389e-05, "elapsed_time_per_iteration": 4.8661387, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 40s", "remaining_time": "4h 11m 19s", "loss_scale": 1.0, "consumed_samples": 829184, "global_step/max_steps": "3239/6350"}
{"lm loss": 4.91231346, "grad_norm": 0.65653944, "learning_rate": 5.387e-05, "elapsed_time_per_iteration": 4.69581985, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 44s", "remaining_time": "4h 11m 14s", "loss_scale": 1.0, "consumed_samples": 829440, "global_step/max_steps": "3240/6350"}
{"lm loss": 4.94384241, "grad_norm": 0.71528846, "learning_rate": 5.384e-05, "elapsed_time_per_iteration": 4.80014801, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 49s", "remaining_time": "4h 11m 9s", "loss_scale": 1.0, "consumed_samples": 829696, "global_step/max_steps": "3241/6350"}
{"lm loss": 4.9160409, "grad_norm": 1.0434947, "learning_rate": 5.382e-05, "elapsed_time_per_iteration": 4.76361084, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 54s", "remaining_time": "4h 11m 4s", "loss_scale": 1.0, "consumed_samples": 829952, "global_step/max_steps": "3242/6350"}
{"lm loss": 4.93112659, "grad_norm": 0.88590747, "learning_rate": 5.379e-05, "elapsed_time_per_iteration": 4.6993463, "memory(GiB)": 28.03, "elapsed_time": "4h 21m 59s", "remaining_time": "4h 10m 59s", "loss_scale": 1.0, "consumed_samples": 830208, "global_step/max_steps": "3243/6350"}
{"lm loss": 4.95041323, "grad_norm": 0.76151955, "learning_rate": 5.377e-05, "elapsed_time_per_iteration": 4.71344423, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 3s", "remaining_time": "4h 10m 54s", "loss_scale": 1.0, "consumed_samples": 830464, "global_step/max_steps": "3244/6350"}
{"lm loss": 4.92215967, "grad_norm": 0.71430516, "learning_rate": 5.374e-05, "elapsed_time_per_iteration": 4.76255894, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 8s", "remaining_time": "4h 10m 50s", "loss_scale": 1.0, "consumed_samples": 830720, "global_step/max_steps": "3245/6350"}
{"lm loss": 4.92300653, "grad_norm": 0.87891984, "learning_rate": 5.372e-05, "elapsed_time_per_iteration": 4.74756837, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 13s", "remaining_time": "4h 10m 45s", "loss_scale": 1.0, "consumed_samples": 830976, "global_step/max_steps": "3246/6350"}
{"lm loss": 4.92491102, "grad_norm": 0.60625231, "learning_rate": 5.369e-05, "elapsed_time_per_iteration": 4.7251544, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 18s", "remaining_time": "4h 10m 40s", "loss_scale": 1.0, "consumed_samples": 831232, "global_step/max_steps": "3247/6350"}
{"lm loss": 4.93802929, "grad_norm": 0.62292421, "learning_rate": 5.367e-05, "elapsed_time_per_iteration": 4.71387148, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 22s", "remaining_time": "4h 10m 35s", "loss_scale": 1.0, "consumed_samples": 831488, "global_step/max_steps": "3248/6350"}
{"lm loss": 4.90500069, "grad_norm": 0.65964067, "learning_rate": 5.364e-05, "elapsed_time_per_iteration": 4.73295546, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 27s", "remaining_time": "4h 10m 30s", "loss_scale": 1.0, "consumed_samples": 831744, "global_step/max_steps": "3249/6350"}
{"lm loss": 4.92332602, "grad_norm": 0.64063376, "learning_rate": 5.361e-05, "elapsed_time_per_iteration": 4.66596651, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 32s", "remaining_time": "4h 10m 25s", "loss_scale": 1.0, "consumed_samples": 832000, "global_step/max_steps": "3250/6350"}
{"lm loss": 4.92739487, "grad_norm": 0.62422603, "learning_rate": 5.359e-05, "elapsed_time_per_iteration": 5.22729206, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 37s", "remaining_time": "4h 10m 20s", "loss_scale": 1.0, "consumed_samples": 832256, "global_step/max_steps": "3251/6350"}
{"lm loss": 4.91908121, "grad_norm": 0.70507592, "learning_rate": 5.356e-05, "elapsed_time_per_iteration": 5.58312082, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 43s", "remaining_time": "4h 10m 16s", "loss_scale": 1.0, "consumed_samples": 832512, "global_step/max_steps": "3252/6350"}
{"lm loss": 4.93237877, "grad_norm": 0.74462968, "learning_rate": 5.354e-05, "elapsed_time_per_iteration": 5.3552556, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 48s", "remaining_time": "4h 10m 12s", "loss_scale": 1.0, "consumed_samples": 832768, "global_step/max_steps": "3253/6350"}
{"lm loss": 4.9343853, "grad_norm": 0.75430673, "learning_rate": 5.351e-05, "elapsed_time_per_iteration": 4.72461224, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 53s", "remaining_time": "4h 10m 7s", "loss_scale": 1.0, "consumed_samples": 833024, "global_step/max_steps": "3254/6350"}
{"lm loss": 4.91682863, "grad_norm": 0.63679212, "learning_rate": 5.349e-05, "elapsed_time_per_iteration": 4.73032475, "memory(GiB)": 28.03, "elapsed_time": "4h 22m 57s", "remaining_time": "4h 10m 2s", "loss_scale": 1.0, "consumed_samples": 833280, "global_step/max_steps": "3255/6350"}
{"lm loss": 4.93282938, "grad_norm": 0.58133608, "learning_rate": 5.346e-05, "elapsed_time_per_iteration": 4.76149678, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 2s", "remaining_time": "4h 9m 57s", "loss_scale": 1.0, "consumed_samples": 833536, "global_step/max_steps": "3256/6350"}
{"lm loss": 4.89290142, "grad_norm": 0.64107877, "learning_rate": 5.344e-05, "elapsed_time_per_iteration": 4.70570803, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 7s", "remaining_time": "4h 9m 52s", "loss_scale": 1.0, "consumed_samples": 833792, "global_step/max_steps": "3257/6350"}
{"lm loss": 4.90196609, "grad_norm": 0.75811809, "learning_rate": 5.341e-05, "elapsed_time_per_iteration": 4.71760488, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 12s", "remaining_time": "4h 9m 47s", "loss_scale": 1.0, "consumed_samples": 834048, "global_step/max_steps": "3258/6350"}
{"lm loss": 4.94582033, "grad_norm": 0.69962496, "learning_rate": 5.339e-05, "elapsed_time_per_iteration": 4.73567152, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 16s", "remaining_time": "4h 9m 42s", "loss_scale": 1.0, "consumed_samples": 834304, "global_step/max_steps": "3259/6350"}
{"lm loss": 4.90761518, "grad_norm": 0.60994518, "learning_rate": 5.336e-05, "elapsed_time_per_iteration": 4.71589303, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 21s", "remaining_time": "4h 9m 37s", "loss_scale": 1.0, "consumed_samples": 834560, "global_step/max_steps": "3260/6350"}
{"lm loss": 4.93709421, "grad_norm": 0.6219486, "learning_rate": 5.334e-05, "elapsed_time_per_iteration": 4.75450778, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 26s", "remaining_time": "4h 9m 32s", "loss_scale": 1.0, "consumed_samples": 834816, "global_step/max_steps": "3261/6350"}
{"lm loss": 4.9244523, "grad_norm": 0.59057575, "learning_rate": 5.331e-05, "elapsed_time_per_iteration": 4.74380302, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 30s", "remaining_time": "4h 9m 27s", "loss_scale": 1.0, "consumed_samples": 835072, "global_step/max_steps": "3262/6350"}
{"lm loss": 4.94344759, "grad_norm": 0.8281188, "learning_rate": 5.329e-05, "elapsed_time_per_iteration": 4.75030494, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 35s", "remaining_time": "4h 9m 22s", "loss_scale": 1.0, "consumed_samples": 835328, "global_step/max_steps": "3263/6350"}
{"lm loss": 4.95840406, "grad_norm": 0.73732555, "learning_rate": 5.326e-05, "elapsed_time_per_iteration": 4.78958225, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 40s", "remaining_time": "4h 9m 17s", "loss_scale": 1.0, "consumed_samples": 835584, "global_step/max_steps": "3264/6350"}
{"lm loss": 4.93133211, "grad_norm": 0.90828884, "learning_rate": 5.324e-05, "elapsed_time_per_iteration": 4.71664166, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 45s", "remaining_time": "4h 9m 12s", "loss_scale": 1.0, "consumed_samples": 835840, "global_step/max_steps": "3265/6350"}
{"lm loss": 4.92821741, "grad_norm": 0.96751052, "learning_rate": 5.321e-05, "elapsed_time_per_iteration": 4.74281883, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 49s", "remaining_time": "4h 9m 7s", "loss_scale": 1.0, "consumed_samples": 836096, "global_step/max_steps": "3266/6350"}
{"lm loss": 4.9097929, "grad_norm": 0.85176986, "learning_rate": 5.319e-05, "elapsed_time_per_iteration": 4.77014923, "memory(GiB)": 28.03, "elapsed_time": "4h 23m 54s", "remaining_time": "4h 9m 2s", "loss_scale": 1.0, "consumed_samples": 836352, "global_step/max_steps": "3267/6350"}
{"lm loss": 4.92904186, "grad_norm": 0.58394885, "learning_rate": 5.316e-05, "elapsed_time_per_iteration": 5.57865572, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 0s", "remaining_time": "4h 8m 58s", "loss_scale": 1.0, "consumed_samples": 836608, "global_step/max_steps": "3268/6350"}
{"lm loss": 4.96011066, "grad_norm": 0.55380797, "learning_rate": 5.314e-05, "elapsed_time_per_iteration": 4.75522494, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 5s", "remaining_time": "4h 8m 53s", "loss_scale": 1.0, "consumed_samples": 836864, "global_step/max_steps": "3269/6350"}
{"lm loss": 4.91320848, "grad_norm": 0.66622561, "learning_rate": 5.311e-05, "elapsed_time_per_iteration": 4.81370378, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 9s", "remaining_time": "4h 8m 48s", "loss_scale": 1.0, "consumed_samples": 837120, "global_step/max_steps": "3270/6350"}
{"lm loss": 4.90728807, "grad_norm": 0.75747573, "learning_rate": 5.308e-05, "elapsed_time_per_iteration": 4.74697685, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 14s", "remaining_time": "4h 8m 43s", "loss_scale": 1.0, "consumed_samples": 837376, "global_step/max_steps": "3271/6350"}
{"lm loss": 4.91314363, "grad_norm": 0.76461458, "learning_rate": 5.306e-05, "elapsed_time_per_iteration": 4.75209951, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 19s", "remaining_time": "4h 8m 39s", "loss_scale": 1.0, "consumed_samples": 837632, "global_step/max_steps": "3272/6350"}
{"lm loss": 4.90311003, "grad_norm": 0.73892558, "learning_rate": 5.303e-05, "elapsed_time_per_iteration": 4.76789117, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 24s", "remaining_time": "4h 8m 34s", "loss_scale": 1.0, "consumed_samples": 837888, "global_step/max_steps": "3273/6350"}
{"lm loss": 4.89460516, "grad_norm": 0.61207086, "learning_rate": 5.301e-05, "elapsed_time_per_iteration": 4.72604513, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 28s", "remaining_time": "4h 8m 29s", "loss_scale": 1.0, "consumed_samples": 838144, "global_step/max_steps": "3274/6350"}
{"lm loss": 4.92000628, "grad_norm": 0.4982338, "learning_rate": 5.298e-05, "elapsed_time_per_iteration": 4.744596, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 33s", "remaining_time": "4h 8m 24s", "loss_scale": 1.0, "consumed_samples": 838400, "global_step/max_steps": "3275/6350"}
{"lm loss": 4.91537714, "grad_norm": 0.57924855, "learning_rate": 5.296e-05, "elapsed_time_per_iteration": 4.74288893, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 38s", "remaining_time": "4h 8m 19s", "loss_scale": 1.0, "consumed_samples": 838656, "global_step/max_steps": "3276/6350"}
{"lm loss": 4.92840719, "grad_norm": 0.71857238, "learning_rate": 5.293e-05, "elapsed_time_per_iteration": 4.83021879, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 43s", "remaining_time": "4h 8m 14s", "loss_scale": 1.0, "consumed_samples": 838912, "global_step/max_steps": "3277/6350"}
{"lm loss": 4.89428711, "grad_norm": 0.81953394, "learning_rate": 5.291e-05, "elapsed_time_per_iteration": 4.77179956, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 47s", "remaining_time": "4h 8m 9s", "loss_scale": 1.0, "consumed_samples": 839168, "global_step/max_steps": "3278/6350"}
{"lm loss": 4.92218924, "grad_norm": 0.66412467, "learning_rate": 5.288e-05, "elapsed_time_per_iteration": 4.79982281, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 52s", "remaining_time": "4h 8m 4s", "loss_scale": 1.0, "consumed_samples": 839424, "global_step/max_steps": "3279/6350"}
{"lm loss": 4.90924072, "grad_norm": 0.53385252, "learning_rate": 5.286e-05, "elapsed_time_per_iteration": 4.89894819, "memory(GiB)": 28.03, "elapsed_time": "4h 24m 57s", "remaining_time": "4h 7m 59s", "loss_scale": 1.0, "consumed_samples": 839680, "global_step/max_steps": "3280/6350"}
{"lm loss": 4.92245865, "grad_norm": 0.71252096, "learning_rate": 5.283e-05, "elapsed_time_per_iteration": 4.70223784, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 2s", "remaining_time": "4h 7m 54s", "loss_scale": 1.0, "consumed_samples": 839936, "global_step/max_steps": "3281/6350"}
{"lm loss": 4.91073465, "grad_norm": 0.86911225, "learning_rate": 5.281e-05, "elapsed_time_per_iteration": 4.7836659, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 7s", "remaining_time": "4h 7m 49s", "loss_scale": 1.0, "consumed_samples": 840192, "global_step/max_steps": "3282/6350"}
{"lm loss": 4.92384958, "grad_norm": 0.82569909, "learning_rate": 5.278e-05, "elapsed_time_per_iteration": 4.73243022, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 11s", "remaining_time": "4h 7m 44s", "loss_scale": 1.0, "consumed_samples": 840448, "global_step/max_steps": "3283/6350"}
{"lm loss": 4.92068768, "grad_norm": 0.90436107, "learning_rate": 5.276e-05, "elapsed_time_per_iteration": 4.77597857, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 16s", "remaining_time": "4h 7m 40s", "loss_scale": 1.0, "consumed_samples": 840704, "global_step/max_steps": "3284/6350"}
{"lm loss": 4.9158144, "grad_norm": 0.88147497, "learning_rate": 5.273e-05, "elapsed_time_per_iteration": 4.68582892, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 21s", "remaining_time": "4h 7m 35s", "loss_scale": 1.0, "consumed_samples": 840960, "global_step/max_steps": "3285/6350"}
{"lm loss": 4.94635296, "grad_norm": 0.75203294, "learning_rate": 5.271e-05, "elapsed_time_per_iteration": 4.73241019, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 26s", "remaining_time": "4h 7m 30s", "loss_scale": 1.0, "consumed_samples": 841216, "global_step/max_steps": "3286/6350"}
{"lm loss": 4.94008017, "grad_norm": 0.63113821, "learning_rate": 5.268e-05, "elapsed_time_per_iteration": 4.77777052, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 30s", "remaining_time": "4h 7m 25s", "loss_scale": 1.0, "consumed_samples": 841472, "global_step/max_steps": "3287/6350"}
{"lm loss": 4.90865707, "grad_norm": 0.63595778, "learning_rate": 5.266e-05, "elapsed_time_per_iteration": 4.92208743, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 35s", "remaining_time": "4h 7m 20s", "loss_scale": 1.0, "consumed_samples": 841728, "global_step/max_steps": "3288/6350"}
{"lm loss": 4.92117929, "grad_norm": 0.69653088, "learning_rate": 5.263e-05, "elapsed_time_per_iteration": 4.81033802, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 40s", "remaining_time": "4h 7m 15s", "loss_scale": 1.0, "consumed_samples": 841984, "global_step/max_steps": "3289/6350"}
{"lm loss": 4.93328714, "grad_norm": 0.82482129, "learning_rate": 5.26e-05, "elapsed_time_per_iteration": 4.74022007, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 45s", "remaining_time": "4h 7m 10s", "loss_scale": 1.0, "consumed_samples": 842240, "global_step/max_steps": "3290/6350"}
{"lm loss": 4.92186117, "grad_norm": 0.78435665, "learning_rate": 5.258e-05, "elapsed_time_per_iteration": 4.70923138, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 50s", "remaining_time": "4h 7m 5s", "loss_scale": 1.0, "consumed_samples": 842496, "global_step/max_steps": "3291/6350"}
{"lm loss": 4.89109516, "grad_norm": 0.5736255, "learning_rate": 5.255e-05, "elapsed_time_per_iteration": 4.70527601, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 54s", "remaining_time": "4h 7m 0s", "loss_scale": 1.0, "consumed_samples": 842752, "global_step/max_steps": "3292/6350"}
{"lm loss": 4.91725492, "grad_norm": 0.62197995, "learning_rate": 5.253e-05, "elapsed_time_per_iteration": 4.72464538, "memory(GiB)": 28.03, "elapsed_time": "4h 25m 59s", "remaining_time": "4h 6m 55s", "loss_scale": 1.0, "consumed_samples": 843008, "global_step/max_steps": "3293/6350"}
{"lm loss": 4.92179394, "grad_norm": 0.90570122, "learning_rate": 5.25e-05, "elapsed_time_per_iteration": 4.78202844, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 4s", "remaining_time": "4h 6m 50s", "loss_scale": 1.0, "consumed_samples": 843264, "global_step/max_steps": "3294/6350"}
{"lm loss": 4.90833139, "grad_norm": 0.7915802, "learning_rate": 5.248e-05, "elapsed_time_per_iteration": 4.81412721, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 9s", "remaining_time": "4h 6m 45s", "loss_scale": 1.0, "consumed_samples": 843520, "global_step/max_steps": "3295/6350"}
{"lm loss": 4.922297, "grad_norm": 0.70722824, "learning_rate": 5.245e-05, "elapsed_time_per_iteration": 4.77503014, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 13s", "remaining_time": "4h 6m 40s", "loss_scale": 1.0, "consumed_samples": 843776, "global_step/max_steps": "3296/6350"}
{"lm loss": 4.92872429, "grad_norm": 0.56809938, "learning_rate": 5.243e-05, "elapsed_time_per_iteration": 5.16976619, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 19s", "remaining_time": "4h 6m 36s", "loss_scale": 1.0, "consumed_samples": 844032, "global_step/max_steps": "3297/6350"}
{"lm loss": 4.92704868, "grad_norm": 2.09765911, "learning_rate": 5.24e-05, "elapsed_time_per_iteration": 5.10312605, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 24s", "remaining_time": "4h 6m 31s", "loss_scale": 1.0, "consumed_samples": 844288, "global_step/max_steps": "3298/6350"}
{"lm loss": 4.93616915, "grad_norm": 0.70242596, "learning_rate": 5.238e-05, "elapsed_time_per_iteration": 4.72855306, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 28s", "remaining_time": "4h 6m 26s", "loss_scale": 1.0, "consumed_samples": 844544, "global_step/max_steps": "3299/6350"}
{"lm loss": 4.90870428, "grad_norm": 0.74721915, "learning_rate": 5.235e-05, "elapsed_time_per_iteration": 4.74022889, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 33s", "remaining_time": "4h 6m 21s", "loss_scale": 1.0, "consumed_samples": 844800, "global_step/max_steps": "3300/6350"}
{"lm loss": 4.91397858, "grad_norm": 0.61521822, "learning_rate": 5.233e-05, "elapsed_time_per_iteration": 4.78111482, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 38s", "remaining_time": "4h 6m 17s", "loss_scale": 1.0, "consumed_samples": 845056, "global_step/max_steps": "3301/6350"}
{"lm loss": 4.92733574, "grad_norm": 0.68398392, "learning_rate": 5.23e-05, "elapsed_time_per_iteration": 4.76557827, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 43s", "remaining_time": "4h 6m 12s", "loss_scale": 1.0, "consumed_samples": 845312, "global_step/max_steps": "3302/6350"}
{"lm loss": 4.92418003, "grad_norm": 0.67634976, "learning_rate": 5.228e-05, "elapsed_time_per_iteration": 4.85164237, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 47s", "remaining_time": "4h 6m 7s", "loss_scale": 1.0, "consumed_samples": 845568, "global_step/max_steps": "3303/6350"}
{"lm loss": 4.9434042, "grad_norm": 0.57089192, "learning_rate": 5.225e-05, "elapsed_time_per_iteration": 4.659832, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 52s", "remaining_time": "4h 6m 2s", "loss_scale": 1.0, "consumed_samples": 845824, "global_step/max_steps": "3304/6350"}
{"lm loss": 4.91247797, "grad_norm": 0.69649279, "learning_rate": 5.223e-05, "elapsed_time_per_iteration": 4.71926355, "memory(GiB)": 28.03, "elapsed_time": "4h 26m 57s", "remaining_time": "4h 5m 57s", "loss_scale": 1.0, "consumed_samples": 846080, "global_step/max_steps": "3305/6350"}
{"lm loss": 4.91578436, "grad_norm": 0.60927486, "learning_rate": 5.22e-05, "elapsed_time_per_iteration": 4.72600627, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 2s", "remaining_time": "4h 5m 52s", "loss_scale": 1.0, "consumed_samples": 846336, "global_step/max_steps": "3306/6350"}
{"lm loss": 4.91218185, "grad_norm": 0.84723353, "learning_rate": 5.218e-05, "elapsed_time_per_iteration": 4.72207808, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 6s", "remaining_time": "4h 5m 47s", "loss_scale": 1.0, "consumed_samples": 846592, "global_step/max_steps": "3307/6350"}
{"lm loss": 4.94245386, "grad_norm": 0.95559239, "learning_rate": 5.215e-05, "elapsed_time_per_iteration": 4.72116232, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 11s", "remaining_time": "4h 5m 42s", "loss_scale": 1.0, "consumed_samples": 846848, "global_step/max_steps": "3308/6350"}
{"lm loss": 4.91585302, "grad_norm": 1.14735174, "learning_rate": 5.213e-05, "elapsed_time_per_iteration": 4.80973125, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 16s", "remaining_time": "4h 5m 37s", "loss_scale": 1.0, "consumed_samples": 847104, "global_step/max_steps": "3309/6350"}
{"lm loss": 4.9220891, "grad_norm": 0.81619316, "learning_rate": 5.21e-05, "elapsed_time_per_iteration": 4.74570251, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 21s", "remaining_time": "4h 5m 32s", "loss_scale": 1.0, "consumed_samples": 847360, "global_step/max_steps": "3310/6350"}
{"lm loss": 4.92928743, "grad_norm": 0.57138473, "learning_rate": 5.207e-05, "elapsed_time_per_iteration": 5.60778475, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 26s", "remaining_time": "4h 5m 28s", "loss_scale": 1.0, "consumed_samples": 847616, "global_step/max_steps": "3311/6350"}
{"lm loss": 4.93571949, "grad_norm": 0.71014917, "learning_rate": 5.205e-05, "elapsed_time_per_iteration": 4.6883924, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 31s", "remaining_time": "4h 5m 23s", "loss_scale": 1.0, "consumed_samples": 847872, "global_step/max_steps": "3312/6350"}
{"lm loss": 4.90406942, "grad_norm": 0.88935411, "learning_rate": 5.202e-05, "elapsed_time_per_iteration": 4.7252357, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 36s", "remaining_time": "4h 5m 18s", "loss_scale": 1.0, "consumed_samples": 848128, "global_step/max_steps": "3313/6350"}
{"lm loss": 4.9413209, "grad_norm": 0.74202961, "learning_rate": 5.2e-05, "elapsed_time_per_iteration": 4.74330449, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 40s", "remaining_time": "4h 5m 13s", "loss_scale": 1.0, "consumed_samples": 848384, "global_step/max_steps": "3314/6350"}
{"lm loss": 4.90117741, "grad_norm": 0.5278753, "learning_rate": 5.197e-05, "elapsed_time_per_iteration": 4.84863663, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 45s", "remaining_time": "4h 5m 8s", "loss_scale": 1.0, "consumed_samples": 848640, "global_step/max_steps": "3315/6350"}
{"lm loss": 4.90989685, "grad_norm": 0.64322913, "learning_rate": 5.195e-05, "elapsed_time_per_iteration": 4.70993447, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 50s", "remaining_time": "4h 5m 3s", "loss_scale": 1.0, "consumed_samples": 848896, "global_step/max_steps": "3316/6350"}
{"lm loss": 4.91570663, "grad_norm": 0.65101016, "learning_rate": 5.192e-05, "elapsed_time_per_iteration": 4.73533702, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 55s", "remaining_time": "4h 4m 58s", "loss_scale": 1.0, "consumed_samples": 849152, "global_step/max_steps": "3317/6350"}
{"lm loss": 4.9231801, "grad_norm": 0.67192972, "learning_rate": 5.19e-05, "elapsed_time_per_iteration": 4.79894209, "memory(GiB)": 28.03, "elapsed_time": "4h 27m 59s", "remaining_time": "4h 4m 53s", "loss_scale": 1.0, "consumed_samples": 849408, "global_step/max_steps": "3318/6350"}
{"lm loss": 4.92161655, "grad_norm": 0.65123123, "learning_rate": 5.187e-05, "elapsed_time_per_iteration": 4.71063662, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 4s", "remaining_time": "4h 4m 48s", "loss_scale": 1.0, "consumed_samples": 849664, "global_step/max_steps": "3319/6350"}
{"lm loss": 4.91813612, "grad_norm": 0.56546777, "learning_rate": 5.185e-05, "elapsed_time_per_iteration": 4.73520732, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 9s", "remaining_time": "4h 4m 43s", "loss_scale": 1.0, "consumed_samples": 849920, "global_step/max_steps": "3320/6350"}
{"lm loss": 4.93936443, "grad_norm": 0.51758868, "learning_rate": 5.182e-05, "elapsed_time_per_iteration": 4.74029016, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 14s", "remaining_time": "4h 4m 39s", "loss_scale": 1.0, "consumed_samples": 850176, "global_step/max_steps": "3321/6350"}
{"lm loss": 4.9236846, "grad_norm": 0.52390867, "learning_rate": 5.18e-05, "elapsed_time_per_iteration": 4.73449135, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 18s", "remaining_time": "4h 4m 34s", "loss_scale": 1.0, "consumed_samples": 850432, "global_step/max_steps": "3322/6350"}
{"lm loss": 4.93632746, "grad_norm": 0.62346721, "learning_rate": 5.177e-05, "elapsed_time_per_iteration": 4.80692863, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 23s", "remaining_time": "4h 4m 29s", "loss_scale": 1.0, "consumed_samples": 850688, "global_step/max_steps": "3323/6350"}
{"lm loss": 4.9241538, "grad_norm": 0.67520034, "learning_rate": 5.175e-05, "elapsed_time_per_iteration": 4.7866528, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 28s", "remaining_time": "4h 4m 24s", "loss_scale": 1.0, "consumed_samples": 850944, "global_step/max_steps": "3324/6350"}
{"lm loss": 4.9408474, "grad_norm": 0.80931246, "learning_rate": 5.172e-05, "elapsed_time_per_iteration": 4.75667024, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 33s", "remaining_time": "4h 4m 19s", "loss_scale": 1.0, "consumed_samples": 851200, "global_step/max_steps": "3325/6350"}
{"lm loss": 4.93399286, "grad_norm": 0.69723028, "learning_rate": 5.17e-05, "elapsed_time_per_iteration": 4.70715141, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 37s", "remaining_time": "4h 4m 14s", "loss_scale": 1.0, "consumed_samples": 851456, "global_step/max_steps": "3326/6350"}
{"lm loss": 4.9092865, "grad_norm": 0.55173784, "learning_rate": 5.167e-05, "elapsed_time_per_iteration": 4.76657724, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 42s", "remaining_time": "4h 4m 9s", "loss_scale": 1.0, "consumed_samples": 851712, "global_step/max_steps": "3327/6350"}
{"lm loss": 4.90908766, "grad_norm": 0.53435481, "learning_rate": 5.165e-05, "elapsed_time_per_iteration": 5.58835626, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 48s", "remaining_time": "4h 4m 5s", "loss_scale": 1.0, "consumed_samples": 851968, "global_step/max_steps": "3328/6350"}
{"lm loss": 4.91986799, "grad_norm": 0.59275818, "learning_rate": 5.162e-05, "elapsed_time_per_iteration": 4.75560951, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 53s", "remaining_time": "4h 4m 0s", "loss_scale": 1.0, "consumed_samples": 852224, "global_step/max_steps": "3329/6350"}
{"lm loss": 4.93679428, "grad_norm": 0.51331264, "learning_rate": 5.159e-05, "elapsed_time_per_iteration": 4.74907851, "memory(GiB)": 28.03, "elapsed_time": "4h 28m 57s", "remaining_time": "4h 3m 55s", "loss_scale": 1.0, "consumed_samples": 852480, "global_step/max_steps": "3330/6350"}
{"lm loss": 4.89175272, "grad_norm": 0.70182848, "learning_rate": 5.157e-05, "elapsed_time_per_iteration": 4.7144475, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 2s", "remaining_time": "4h 3m 50s", "loss_scale": 1.0, "consumed_samples": 852736, "global_step/max_steps": "3331/6350"}
{"lm loss": 4.92361927, "grad_norm": 0.6841386, "learning_rate": 5.154e-05, "elapsed_time_per_iteration": 4.66255903, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 7s", "remaining_time": "4h 3m 45s", "loss_scale": 1.0, "consumed_samples": 852992, "global_step/max_steps": "3332/6350"}
{"lm loss": 4.91706181, "grad_norm": 0.63599843, "learning_rate": 5.152e-05, "elapsed_time_per_iteration": 4.72195435, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 11s", "remaining_time": "4h 3m 40s", "loss_scale": 1.0, "consumed_samples": 853248, "global_step/max_steps": "3333/6350"}
{"lm loss": 4.91273546, "grad_norm": 0.65158808, "learning_rate": 5.149e-05, "elapsed_time_per_iteration": 4.75520682, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 16s", "remaining_time": "4h 3m 35s", "loss_scale": 1.0, "consumed_samples": 853504, "global_step/max_steps": "3334/6350"}
{"lm loss": 4.92893696, "grad_norm": 0.58569771, "learning_rate": 5.147e-05, "elapsed_time_per_iteration": 4.77117157, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 21s", "remaining_time": "4h 3m 30s", "loss_scale": 1.0, "consumed_samples": 853760, "global_step/max_steps": "3335/6350"}
{"lm loss": 4.93267822, "grad_norm": 0.56772804, "learning_rate": 5.144e-05, "elapsed_time_per_iteration": 4.76646376, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 26s", "remaining_time": "4h 3m 25s", "loss_scale": 1.0, "consumed_samples": 854016, "global_step/max_steps": "3336/6350"}
{"lm loss": 4.91490602, "grad_norm": 0.75600451, "learning_rate": 5.142e-05, "elapsed_time_per_iteration": 4.82297254, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 30s", "remaining_time": "4h 3m 20s", "loss_scale": 1.0, "consumed_samples": 854272, "global_step/max_steps": "3337/6350"}
{"lm loss": 4.9187541, "grad_norm": 0.9367196, "learning_rate": 5.139e-05, "elapsed_time_per_iteration": 4.71776414, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 35s", "remaining_time": "4h 3m 15s", "loss_scale": 1.0, "consumed_samples": 854528, "global_step/max_steps": "3338/6350"}
{"lm loss": 4.92259645, "grad_norm": 1.07232845, "learning_rate": 5.137e-05, "elapsed_time_per_iteration": 4.73119426, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 40s", "remaining_time": "4h 3m 10s", "loss_scale": 1.0, "consumed_samples": 854784, "global_step/max_steps": "3339/6350"}
{"lm loss": 4.9465332, "grad_norm": 0.98921466, "learning_rate": 5.134e-05, "elapsed_time_per_iteration": 5.15213013, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 45s", "remaining_time": "4h 3m 6s", "loss_scale": 1.0, "consumed_samples": 855040, "global_step/max_steps": "3340/6350"}
{"lm loss": 4.93430471, "grad_norm": 0.86834228, "learning_rate": 5.132e-05, "elapsed_time_per_iteration": 4.70736456, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 50s", "remaining_time": "4h 3m 1s", "loss_scale": 1.0, "consumed_samples": 855296, "global_step/max_steps": "3341/6350"}
{"lm loss": 4.91051388, "grad_norm": 0.52303553, "learning_rate": 5.129e-05, "elapsed_time_per_iteration": 5.624089, "memory(GiB)": 28.03, "elapsed_time": "4h 29m 55s", "remaining_time": "4h 2m 57s", "loss_scale": 1.0, "consumed_samples": 855552, "global_step/max_steps": "3342/6350"}
{"lm loss": 4.9034915, "grad_norm": 0.76546466, "learning_rate": 5.127e-05, "elapsed_time_per_iteration": 4.72801757, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 0s", "remaining_time": "4h 2m 52s", "loss_scale": 1.0, "consumed_samples": 855808, "global_step/max_steps": "3343/6350"}
{"lm loss": 4.92146683, "grad_norm": 0.81127673, "learning_rate": 5.124e-05, "elapsed_time_per_iteration": 4.68933797, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 5s", "remaining_time": "4h 2m 47s", "loss_scale": 1.0, "consumed_samples": 856064, "global_step/max_steps": "3344/6350"}
{"lm loss": 4.92668629, "grad_norm": 0.64861196, "learning_rate": 5.122e-05, "elapsed_time_per_iteration": 4.76689339, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 10s", "remaining_time": "4h 2m 42s", "loss_scale": 1.0, "consumed_samples": 856320, "global_step/max_steps": "3345/6350"}
{"lm loss": 4.93187952, "grad_norm": 0.58061677, "learning_rate": 5.119e-05, "elapsed_time_per_iteration": 4.63660979, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 14s", "remaining_time": "4h 2m 37s", "loss_scale": 1.0, "consumed_samples": 856576, "global_step/max_steps": "3346/6350"}
{"lm loss": 4.92987823, "grad_norm": 0.60290587, "learning_rate": 5.117e-05, "elapsed_time_per_iteration": 4.64665174, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 19s", "remaining_time": "4h 2m 32s", "loss_scale": 1.0, "consumed_samples": 856832, "global_step/max_steps": "3347/6350"}
{"lm loss": 4.90721273, "grad_norm": 0.61865693, "learning_rate": 5.114e-05, "elapsed_time_per_iteration": 4.66920495, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 24s", "remaining_time": "4h 2m 27s", "loss_scale": 1.0, "consumed_samples": 857088, "global_step/max_steps": "3348/6350"}
{"lm loss": 4.92196751, "grad_norm": 0.72702885, "learning_rate": 5.111e-05, "elapsed_time_per_iteration": 4.71790385, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 28s", "remaining_time": "4h 2m 22s", "loss_scale": 1.0, "consumed_samples": 857344, "global_step/max_steps": "3349/6350"}
{"lm loss": 4.90167284, "grad_norm": 0.65729702, "learning_rate": 5.109e-05, "elapsed_time_per_iteration": 4.92376304, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 33s", "remaining_time": "4h 2m 17s", "loss_scale": 1.0, "consumed_samples": 857600, "global_step/max_steps": "3350/6350"}
{"lm loss": 4.92696905, "grad_norm": 0.69084859, "learning_rate": 5.106e-05, "elapsed_time_per_iteration": 4.72133946, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 38s", "remaining_time": "4h 2m 12s", "loss_scale": 1.0, "consumed_samples": 857856, "global_step/max_steps": "3351/6350"}
{"lm loss": 4.91085577, "grad_norm": 0.60720277, "learning_rate": 5.104e-05, "elapsed_time_per_iteration": 5.69998312, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 44s", "remaining_time": "4h 2m 8s", "loss_scale": 1.0, "consumed_samples": 858112, "global_step/max_steps": "3352/6350"}
{"lm loss": 4.91777039, "grad_norm": 0.68693751, "learning_rate": 5.101e-05, "elapsed_time_per_iteration": 4.77646136, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 48s", "remaining_time": "4h 2m 3s", "loss_scale": 1.0, "consumed_samples": 858368, "global_step/max_steps": "3353/6350"}
{"lm loss": 4.9003787, "grad_norm": 0.64951235, "learning_rate": 5.099e-05, "elapsed_time_per_iteration": 4.71604371, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 53s", "remaining_time": "4h 1m 58s", "loss_scale": 1.0, "consumed_samples": 858624, "global_step/max_steps": "3354/6350"}
{"lm loss": 4.91174173, "grad_norm": 0.51435125, "learning_rate": 5.096e-05, "elapsed_time_per_iteration": 4.7413125, "memory(GiB)": 28.03, "elapsed_time": "4h 30m 58s", "remaining_time": "4h 1m 53s", "loss_scale": 1.0, "consumed_samples": 858880, "global_step/max_steps": "3355/6350"}
{"lm loss": 4.91733265, "grad_norm": 0.63465911, "learning_rate": 5.094e-05, "elapsed_time_per_iteration": 4.79909253, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 3s", "remaining_time": "4h 1m 48s", "loss_scale": 1.0, "consumed_samples": 859136, "global_step/max_steps": "3356/6350"}
{"lm loss": 4.92312813, "grad_norm": 0.75743705, "learning_rate": 5.091e-05, "elapsed_time_per_iteration": 4.79091024, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 7s", "remaining_time": "4h 1m 44s", "loss_scale": 1.0, "consumed_samples": 859392, "global_step/max_steps": "3357/6350"}
{"lm loss": 4.94272089, "grad_norm": 0.77460051, "learning_rate": 5.089e-05, "elapsed_time_per_iteration": 4.82261539, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 12s", "remaining_time": "4h 1m 39s", "loss_scale": 1.0, "consumed_samples": 859648, "global_step/max_steps": "3358/6350"}
{"lm loss": 4.93310785, "grad_norm": 0.80458426, "learning_rate": 5.086e-05, "elapsed_time_per_iteration": 4.78316665, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 17s", "remaining_time": "4h 1m 34s", "loss_scale": 1.0, "consumed_samples": 859904, "global_step/max_steps": "3359/6350"}
{"lm loss": 4.93423748, "grad_norm": 0.70515597, "learning_rate": 5.084e-05, "elapsed_time_per_iteration": 4.73999405, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 22s", "remaining_time": "4h 1m 29s", "loss_scale": 1.0, "consumed_samples": 860160, "global_step/max_steps": "3360/6350"}
{"lm loss": 4.93146229, "grad_norm": 0.72995287, "learning_rate": 5.081e-05, "elapsed_time_per_iteration": 4.73173976, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 27s", "remaining_time": "4h 1m 24s", "loss_scale": 1.0, "consumed_samples": 860416, "global_step/max_steps": "3361/6350"}
{"lm loss": 4.92434502, "grad_norm": 0.63957179, "learning_rate": 5.079e-05, "elapsed_time_per_iteration": 4.69679785, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 31s", "remaining_time": "4h 1m 19s", "loss_scale": 1.0, "consumed_samples": 860672, "global_step/max_steps": "3362/6350"}
{"lm loss": 4.9104476, "grad_norm": 0.69812876, "learning_rate": 5.076e-05, "elapsed_time_per_iteration": 4.73042822, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 36s", "remaining_time": "4h 1m 14s", "loss_scale": 1.0, "consumed_samples": 860928, "global_step/max_steps": "3363/6350"}
{"lm loss": 4.92389345, "grad_norm": 0.52469653, "learning_rate": 5.074e-05, "elapsed_time_per_iteration": 4.85334802, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 41s", "remaining_time": "4h 1m 9s", "loss_scale": 1.0, "consumed_samples": 861184, "global_step/max_steps": "3364/6350"}
{"lm loss": 4.88620853, "grad_norm": 0.71333319, "learning_rate": 5.071e-05, "elapsed_time_per_iteration": 4.7684865, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 46s", "remaining_time": "4h 1m 4s", "loss_scale": 1.0, "consumed_samples": 861440, "global_step/max_steps": "3365/6350"}
{"lm loss": 4.93166685, "grad_norm": 0.67143971, "learning_rate": 5.069e-05, "elapsed_time_per_iteration": 4.69175363, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 50s", "remaining_time": "4h 0m 59s", "loss_scale": 1.0, "consumed_samples": 861696, "global_step/max_steps": "3366/6350"}
{"lm loss": 4.91712189, "grad_norm": 0.62053961, "learning_rate": 5.066e-05, "elapsed_time_per_iteration": 4.74490023, "memory(GiB)": 28.03, "elapsed_time": "4h 31m 55s", "remaining_time": "4h 0m 54s", "loss_scale": 1.0, "consumed_samples": 861952, "global_step/max_steps": "3367/6350"}
{"lm loss": 4.92162466, "grad_norm": 0.67175877, "learning_rate": 5.063e-05, "elapsed_time_per_iteration": 4.70998359, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 0s", "remaining_time": "4h 0m 49s", "loss_scale": 1.0, "consumed_samples": 862208, "global_step/max_steps": "3368/6350"}
{"lm loss": 4.93913174, "grad_norm": 0.61618066, "learning_rate": 5.061e-05, "elapsed_time_per_iteration": 4.76992249, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 4s", "remaining_time": "4h 0m 44s", "loss_scale": 1.0, "consumed_samples": 862464, "global_step/max_steps": "3369/6350"}
{"lm loss": 4.91535091, "grad_norm": 0.69917279, "learning_rate": 5.058e-05, "elapsed_time_per_iteration": 4.70597744, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 9s", "remaining_time": "4h 0m 39s", "loss_scale": 1.0, "consumed_samples": 862720, "global_step/max_steps": "3370/6350"}
{"lm loss": 4.91837454, "grad_norm": 0.8937797, "learning_rate": 5.056e-05, "elapsed_time_per_iteration": 4.76480579, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 14s", "remaining_time": "4h 0m 34s", "loss_scale": 1.0, "consumed_samples": 862976, "global_step/max_steps": "3371/6350"}
{"lm loss": 4.92753363, "grad_norm": 0.9905414, "learning_rate": 5.053e-05, "elapsed_time_per_iteration": 4.6737206, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 19s", "remaining_time": "4h 0m 29s", "loss_scale": 1.0, "consumed_samples": 863232, "global_step/max_steps": "3372/6350"}
{"lm loss": 4.93802023, "grad_norm": 0.86689562, "learning_rate": 5.051e-05, "elapsed_time_per_iteration": 4.6900363, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 23s", "remaining_time": "4h 0m 25s", "loss_scale": 1.0, "consumed_samples": 863488, "global_step/max_steps": "3373/6350"}
{"lm loss": 4.91998816, "grad_norm": 0.67213029, "learning_rate": 5.048e-05, "elapsed_time_per_iteration": 4.75729609, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 28s", "remaining_time": "4h 0m 20s", "loss_scale": 1.0, "consumed_samples": 863744, "global_step/max_steps": "3374/6350"}
{"lm loss": 4.92503643, "grad_norm": 0.56407291, "learning_rate": 5.046e-05, "elapsed_time_per_iteration": 4.82970262, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 33s", "remaining_time": "4h 0m 15s", "loss_scale": 1.0, "consumed_samples": 864000, "global_step/max_steps": "3375/6350"}
{"lm loss": 4.91481781, "grad_norm": 0.66232604, "learning_rate": 5.043e-05, "elapsed_time_per_iteration": 4.64203048, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 38s", "remaining_time": "4h 0m 10s", "loss_scale": 1.0, "consumed_samples": 864256, "global_step/max_steps": "3376/6350"}
{"lm loss": 4.93590212, "grad_norm": 0.84247994, "learning_rate": 5.041e-05, "elapsed_time_per_iteration": 4.79421163, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 42s", "remaining_time": "4h 0m 5s", "loss_scale": 1.0, "consumed_samples": 864512, "global_step/max_steps": "3377/6350"}
{"lm loss": 4.91239214, "grad_norm": 0.84669822, "learning_rate": 5.038e-05, "elapsed_time_per_iteration": 4.7542789, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 47s", "remaining_time": "4h 0m 0s", "loss_scale": 1.0, "consumed_samples": 864768, "global_step/max_steps": "3378/6350"}
{"lm loss": 4.93575859, "grad_norm": 0.72604835, "learning_rate": 5.036e-05, "elapsed_time_per_iteration": 4.81053758, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 52s", "remaining_time": "3h 59m 55s", "loss_scale": 1.0, "consumed_samples": 865024, "global_step/max_steps": "3379/6350"}
{"lm loss": 4.92208958, "grad_norm": 0.55959314, "learning_rate": 5.033e-05, "elapsed_time_per_iteration": 4.69967461, "memory(GiB)": 28.03, "elapsed_time": "4h 32m 57s", "remaining_time": "3h 59m 50s", "loss_scale": 1.0, "consumed_samples": 865280, "global_step/max_steps": "3380/6350"}
{"lm loss": 4.91669273, "grad_norm": 0.57995486, "learning_rate": 5.031e-05, "elapsed_time_per_iteration": 5.34245634, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 2s", "remaining_time": "3h 59m 46s", "loss_scale": 1.0, "consumed_samples": 865536, "global_step/max_steps": "3381/6350"}
{"lm loss": 4.93152046, "grad_norm": 0.64112532, "learning_rate": 5.028e-05, "elapsed_time_per_iteration": 4.78197694, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 7s", "remaining_time": "3h 59m 41s", "loss_scale": 1.0, "consumed_samples": 865792, "global_step/max_steps": "3382/6350"}
{"lm loss": 4.9081068, "grad_norm": 0.63601625, "learning_rate": 5.026e-05, "elapsed_time_per_iteration": 5.56398582, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 12s", "remaining_time": "3h 59m 37s", "loss_scale": 1.0, "consumed_samples": 866048, "global_step/max_steps": "3383/6350"}
{"lm loss": 4.90947866, "grad_norm": 0.55565006, "learning_rate": 5.023e-05, "elapsed_time_per_iteration": 4.75289035, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 17s", "remaining_time": "3h 59m 32s", "loss_scale": 1.0, "consumed_samples": 866304, "global_step/max_steps": "3384/6350"}
{"lm loss": 4.92434883, "grad_norm": 0.63293523, "learning_rate": 5.021e-05, "elapsed_time_per_iteration": 4.95371461, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 22s", "remaining_time": "3h 59m 27s", "loss_scale": 1.0, "consumed_samples": 866560, "global_step/max_steps": "3385/6350"}
{"lm loss": 4.91689873, "grad_norm": 0.62387031, "learning_rate": 5.018e-05, "elapsed_time_per_iteration": 4.72906566, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 27s", "remaining_time": "3h 59m 22s", "loss_scale": 1.0, "consumed_samples": 866816, "global_step/max_steps": "3386/6350"}
{"lm loss": 4.89876747, "grad_norm": 0.57935578, "learning_rate": 5.016e-05, "elapsed_time_per_iteration": 5.16120028, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 32s", "remaining_time": "3h 59m 17s", "loss_scale": 1.0, "consumed_samples": 867072, "global_step/max_steps": "3387/6350"}
{"lm loss": 4.92516661, "grad_norm": 0.47914594, "learning_rate": 5.013e-05, "elapsed_time_per_iteration": 4.7038002, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 37s", "remaining_time": "3h 59m 12s", "loss_scale": 1.0, "consumed_samples": 867328, "global_step/max_steps": "3388/6350"}
{"lm loss": 4.89731455, "grad_norm": 0.55227643, "learning_rate": 5.01e-05, "elapsed_time_per_iteration": 4.75288129, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 41s", "remaining_time": "3h 59m 7s", "loss_scale": 1.0, "consumed_samples": 867584, "global_step/max_steps": "3389/6350"}
{"lm loss": 4.91695929, "grad_norm": 0.52792263, "learning_rate": 5.008e-05, "elapsed_time_per_iteration": 4.73108459, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 46s", "remaining_time": "3h 59m 2s", "loss_scale": 1.0, "consumed_samples": 867840, "global_step/max_steps": "3390/6350"}
{"lm loss": 4.91961956, "grad_norm": 0.58267933, "learning_rate": 5.005e-05, "elapsed_time_per_iteration": 4.73372793, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 51s", "remaining_time": "3h 58m 58s", "loss_scale": 1.0, "consumed_samples": 868096, "global_step/max_steps": "3391/6350"}
{"lm loss": 4.92254543, "grad_norm": 0.6585626, "learning_rate": 5.003e-05, "elapsed_time_per_iteration": 5.58785367, "memory(GiB)": 28.03, "elapsed_time": "4h 33m 56s", "remaining_time": "3h 58m 53s", "loss_scale": 1.0, "consumed_samples": 868352, "global_step/max_steps": "3392/6350"}
{"lm loss": 4.91108465, "grad_norm": 0.85824776, "learning_rate": 5e-05, "elapsed_time_per_iteration": 4.81690598, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 1s", "remaining_time": "3h 58m 48s", "loss_scale": 1.0, "consumed_samples": 868608, "global_step/max_steps": "3393/6350"}
{"lm loss": 4.92688274, "grad_norm": 1.12671959, "learning_rate": 4.998e-05, "elapsed_time_per_iteration": 4.74964309, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 6s", "remaining_time": "3h 58m 44s", "loss_scale": 1.0, "consumed_samples": 868864, "global_step/max_steps": "3394/6350"}
{"lm loss": 4.91853523, "grad_norm": 0.82114291, "learning_rate": 4.995e-05, "elapsed_time_per_iteration": 4.79874134, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 11s", "remaining_time": "3h 58m 39s", "loss_scale": 1.0, "consumed_samples": 869120, "global_step/max_steps": "3395/6350"}
{"lm loss": 4.91888857, "grad_norm": 0.59295136, "learning_rate": 4.993e-05, "elapsed_time_per_iteration": 4.80942392, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 16s", "remaining_time": "3h 58m 34s", "loss_scale": 1.0, "consumed_samples": 869376, "global_step/max_steps": "3396/6350"}
{"lm loss": 4.90190983, "grad_norm": 0.68086535, "learning_rate": 4.99e-05, "elapsed_time_per_iteration": 5.35136271, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 21s", "remaining_time": "3h 58m 29s", "loss_scale": 1.0, "consumed_samples": 869632, "global_step/max_steps": "3397/6350"}
{"lm loss": 4.90806818, "grad_norm": 0.67791212, "learning_rate": 4.988e-05, "elapsed_time_per_iteration": 4.7320962, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 26s", "remaining_time": "3h 58m 24s", "loss_scale": 1.0, "consumed_samples": 869888, "global_step/max_steps": "3398/6350"}
{"lm loss": 4.91447067, "grad_norm": 0.78229517, "learning_rate": 4.985e-05, "elapsed_time_per_iteration": 4.79344416, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 30s", "remaining_time": "3h 58m 20s", "loss_scale": 1.0, "consumed_samples": 870144, "global_step/max_steps": "3399/6350"}
{"lm loss": 4.91955328, "grad_norm": 0.6201933, "learning_rate": 4.983e-05, "elapsed_time_per_iteration": 4.77483988, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 35s", "remaining_time": "3h 58m 15s", "loss_scale": 1.0, "consumed_samples": 870400, "global_step/max_steps": "3400/6350"}
{"lm loss": 4.92452097, "grad_norm": 0.55250752, "learning_rate": 4.98e-05, "elapsed_time_per_iteration": 4.76085234, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 40s", "remaining_time": "3h 58m 10s", "loss_scale": 1.0, "consumed_samples": 870656, "global_step/max_steps": "3401/6350"}
{"lm loss": 4.91453552, "grad_norm": 0.64287597, "learning_rate": 4.978e-05, "elapsed_time_per_iteration": 5.28795099, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 45s", "remaining_time": "3h 58m 5s", "loss_scale": 1.0, "consumed_samples": 870912, "global_step/max_steps": "3402/6350"}
{"lm loss": 4.88892078, "grad_norm": 0.74186069, "learning_rate": 4.975e-05, "elapsed_time_per_iteration": 4.73206997, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 50s", "remaining_time": "3h 58m 0s", "loss_scale": 1.0, "consumed_samples": 871168, "global_step/max_steps": "3403/6350"}
{"lm loss": 4.90604973, "grad_norm": 0.69704324, "learning_rate": 4.973e-05, "elapsed_time_per_iteration": 4.8606801, "memory(GiB)": 28.03, "elapsed_time": "4h 34m 55s", "remaining_time": "3h 57m 55s", "loss_scale": 1.0, "consumed_samples": 871424, "global_step/max_steps": "3404/6350"}
{"lm loss": 4.93891239, "grad_norm": 0.61235189, "learning_rate": 4.97e-05, "elapsed_time_per_iteration": 4.7125957, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 0s", "remaining_time": "3h 57m 50s", "loss_scale": 1.0, "consumed_samples": 871680, "global_step/max_steps": "3405/6350"}
{"lm loss": 4.92572498, "grad_norm": 0.70760566, "learning_rate": 4.968e-05, "elapsed_time_per_iteration": 4.741256, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 4s", "remaining_time": "3h 57m 46s", "loss_scale": 1.0, "consumed_samples": 871936, "global_step/max_steps": "3406/6350"}
{"lm loss": 4.90518236, "grad_norm": 0.62086308, "learning_rate": 4.965e-05, "elapsed_time_per_iteration": 4.77203274, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 9s", "remaining_time": "3h 57m 41s", "loss_scale": 1.0, "consumed_samples": 872192, "global_step/max_steps": "3407/6350"}
{"lm loss": 4.94853687, "grad_norm": 0.52498102, "learning_rate": 4.963e-05, "elapsed_time_per_iteration": 4.75513387, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 14s", "remaining_time": "3h 57m 36s", "loss_scale": 1.0, "consumed_samples": 872448, "global_step/max_steps": "3408/6350"}
{"lm loss": 4.91000891, "grad_norm": 0.72215074, "learning_rate": 4.96e-05, "elapsed_time_per_iteration": 4.74168491, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 19s", "remaining_time": "3h 57m 31s", "loss_scale": 1.0, "consumed_samples": 872704, "global_step/max_steps": "3409/6350"}
{"lm loss": 4.91227436, "grad_norm": 0.66728514, "learning_rate": 4.957e-05, "elapsed_time_per_iteration": 4.78655362, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 23s", "remaining_time": "3h 57m 26s", "loss_scale": 1.0, "consumed_samples": 872960, "global_step/max_steps": "3410/6350"}
{"lm loss": 4.93698502, "grad_norm": 0.76389343, "learning_rate": 4.955e-05, "elapsed_time_per_iteration": 4.74353981, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 28s", "remaining_time": "3h 57m 21s", "loss_scale": 1.0, "consumed_samples": 873216, "global_step/max_steps": "3411/6350"}
{"lm loss": 4.89870977, "grad_norm": 0.90413404, "learning_rate": 4.952e-05, "elapsed_time_per_iteration": 4.75726819, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 33s", "remaining_time": "3h 57m 16s", "loss_scale": 1.0, "consumed_samples": 873472, "global_step/max_steps": "3412/6350"}
{"lm loss": 4.91570139, "grad_norm": 0.85127074, "learning_rate": 4.95e-05, "elapsed_time_per_iteration": 4.79771972, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 38s", "remaining_time": "3h 57m 11s", "loss_scale": 1.0, "consumed_samples": 873728, "global_step/max_steps": "3413/6350"}
{"lm loss": 4.92234564, "grad_norm": 0.76578307, "learning_rate": 4.947e-05, "elapsed_time_per_iteration": 4.72893214, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 42s", "remaining_time": "3h 57m 6s", "loss_scale": 1.0, "consumed_samples": 873984, "global_step/max_steps": "3414/6350"}
{"lm loss": 4.93256187, "grad_norm": 0.62565202, "learning_rate": 4.945e-05, "elapsed_time_per_iteration": 4.73392463, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 47s", "remaining_time": "3h 57m 1s", "loss_scale": 1.0, "consumed_samples": 874240, "global_step/max_steps": "3415/6350"}
{"lm loss": 4.92119551, "grad_norm": 0.52197039, "learning_rate": 4.942e-05, "elapsed_time_per_iteration": 4.75962138, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 52s", "remaining_time": "3h 56m 56s", "loss_scale": 1.0, "consumed_samples": 874496, "global_step/max_steps": "3416/6350"}
{"lm loss": 4.89984083, "grad_norm": 0.53297049, "learning_rate": 4.94e-05, "elapsed_time_per_iteration": 4.72643518, "memory(GiB)": 28.03, "elapsed_time": "4h 35m 57s", "remaining_time": "3h 56m 51s", "loss_scale": 1.0, "consumed_samples": 874752, "global_step/max_steps": "3417/6350"}
{"lm loss": 4.88603258, "grad_norm": 0.57308179, "learning_rate": 4.937e-05, "elapsed_time_per_iteration": 4.72595334, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 1s", "remaining_time": "3h 56m 46s", "loss_scale": 1.0, "consumed_samples": 875008, "global_step/max_steps": "3418/6350"}
{"lm loss": 4.90326738, "grad_norm": 0.68483168, "learning_rate": 4.935e-05, "elapsed_time_per_iteration": 4.73079133, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 6s", "remaining_time": "3h 56m 42s", "loss_scale": 1.0, "consumed_samples": 875264, "global_step/max_steps": "3419/6350"}
{"lm loss": 4.94094038, "grad_norm": 0.56959021, "learning_rate": 4.932e-05, "elapsed_time_per_iteration": 4.69682097, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 11s", "remaining_time": "3h 56m 37s", "loss_scale": 1.0, "consumed_samples": 875520, "global_step/max_steps": "3420/6350"}
{"lm loss": 4.8824296, "grad_norm": 0.56285614, "learning_rate": 4.93e-05, "elapsed_time_per_iteration": 4.72308564, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 16s", "remaining_time": "3h 56m 32s", "loss_scale": 1.0, "consumed_samples": 875776, "global_step/max_steps": "3421/6350"}
{"lm loss": 4.91483688, "grad_norm": 0.6958012, "learning_rate": 4.927e-05, "elapsed_time_per_iteration": 4.70894957, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 20s", "remaining_time": "3h 56m 27s", "loss_scale": 1.0, "consumed_samples": 876032, "global_step/max_steps": "3422/6350"}
{"lm loss": 4.90008068, "grad_norm": 0.90776861, "learning_rate": 4.925e-05, "elapsed_time_per_iteration": 4.72229195, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 25s", "remaining_time": "3h 56m 22s", "loss_scale": 1.0, "consumed_samples": 876288, "global_step/max_steps": "3423/6350"}
{"lm loss": 4.92453671, "grad_norm": 0.90048367, "learning_rate": 4.922e-05, "elapsed_time_per_iteration": 4.70051026, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 30s", "remaining_time": "3h 56m 17s", "loss_scale": 1.0, "consumed_samples": 876544, "global_step/max_steps": "3424/6350"}
{"lm loss": 4.90152025, "grad_norm": 0.90888542, "learning_rate": 4.92e-05, "elapsed_time_per_iteration": 4.70437384, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 34s", "remaining_time": "3h 56m 12s", "loss_scale": 1.0, "consumed_samples": 876800, "global_step/max_steps": "3425/6350"}
{"lm loss": 4.89251041, "grad_norm": 0.86462069, "learning_rate": 4.917e-05, "elapsed_time_per_iteration": 5.58351231, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 40s", "remaining_time": "3h 56m 8s", "loss_scale": 1.0, "consumed_samples": 877056, "global_step/max_steps": "3426/6350"}
{"lm loss": 4.9212265, "grad_norm": 0.66372931, "learning_rate": 4.915e-05, "elapsed_time_per_iteration": 4.78203869, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 45s", "remaining_time": "3h 56m 3s", "loss_scale": 1.0, "consumed_samples": 877312, "global_step/max_steps": "3427/6350"}
{"lm loss": 4.91834164, "grad_norm": 0.59556776, "learning_rate": 4.912e-05, "elapsed_time_per_iteration": 4.77969074, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 49s", "remaining_time": "3h 55m 58s", "loss_scale": 1.0, "consumed_samples": 877568, "global_step/max_steps": "3428/6350"}
{"lm loss": 4.92092371, "grad_norm": 0.72401309, "learning_rate": 4.91e-05, "elapsed_time_per_iteration": 4.80642843, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 54s", "remaining_time": "3h 55m 53s", "loss_scale": 1.0, "consumed_samples": 877824, "global_step/max_steps": "3429/6350"}
{"lm loss": 4.91175079, "grad_norm": 0.86912686, "learning_rate": 4.907e-05, "elapsed_time_per_iteration": 4.73345447, "memory(GiB)": 28.03, "elapsed_time": "4h 36m 59s", "remaining_time": "3h 55m 48s", "loss_scale": 1.0, "consumed_samples": 878080, "global_step/max_steps": "3430/6350"}
{"lm loss": 4.9033494, "grad_norm": 0.71716738, "learning_rate": 4.904e-05, "elapsed_time_per_iteration": 4.71263051, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 4s", "remaining_time": "3h 55m 43s", "loss_scale": 1.0, "consumed_samples": 878336, "global_step/max_steps": "3431/6350"}
{"lm loss": 4.90048409, "grad_norm": 0.64728481, "learning_rate": 4.902e-05, "elapsed_time_per_iteration": 4.73406911, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 8s", "remaining_time": "3h 55m 38s", "loss_scale": 1.0, "consumed_samples": 878592, "global_step/max_steps": "3432/6350"}
{"lm loss": 4.90335655, "grad_norm": 0.68182641, "learning_rate": 4.899e-05, "elapsed_time_per_iteration": 4.73549485, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 13s", "remaining_time": "3h 55m 33s", "loss_scale": 1.0, "consumed_samples": 878848, "global_step/max_steps": "3433/6350"}
{"lm loss": 4.93224382, "grad_norm": 0.90507054, "learning_rate": 4.897e-05, "elapsed_time_per_iteration": 4.68724108, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 18s", "remaining_time": "3h 55m 28s", "loss_scale": 1.0, "consumed_samples": 879104, "global_step/max_steps": "3434/6350"}
{"lm loss": 4.91838264, "grad_norm": 0.93392253, "learning_rate": 4.894e-05, "elapsed_time_per_iteration": 4.68793273, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 23s", "remaining_time": "3h 55m 23s", "loss_scale": 1.0, "consumed_samples": 879360, "global_step/max_steps": "3435/6350"}
{"lm loss": 4.92413282, "grad_norm": 0.66326374, "learning_rate": 4.892e-05, "elapsed_time_per_iteration": 4.80399394, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 27s", "remaining_time": "3h 55m 18s", "loss_scale": 1.0, "consumed_samples": 879616, "global_step/max_steps": "3436/6350"}
{"lm loss": 4.90866899, "grad_norm": 0.55197036, "learning_rate": 4.889e-05, "elapsed_time_per_iteration": 4.7526536, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 32s", "remaining_time": "3h 55m 13s", "loss_scale": 1.0, "consumed_samples": 879872, "global_step/max_steps": "3437/6350"}
{"lm loss": 4.92250776, "grad_norm": 0.83732939, "learning_rate": 4.887e-05, "elapsed_time_per_iteration": 4.68412304, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 37s", "remaining_time": "3h 55m 8s", "loss_scale": 1.0, "consumed_samples": 880128, "global_step/max_steps": "3438/6350"}
{"lm loss": 4.92389154, "grad_norm": 0.81574798, "learning_rate": 4.884e-05, "elapsed_time_per_iteration": 4.72647429, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 42s", "remaining_time": "3h 55m 3s", "loss_scale": 1.0, "consumed_samples": 880384, "global_step/max_steps": "3439/6350"}
{"lm loss": 4.92084312, "grad_norm": 0.65749669, "learning_rate": 4.882e-05, "elapsed_time_per_iteration": 5.62042141, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 47s", "remaining_time": "3h 54m 59s", "loss_scale": 1.0, "consumed_samples": 880640, "global_step/max_steps": "3440/6350"}
{"lm loss": 4.9334383, "grad_norm": 0.56113315, "learning_rate": 4.879e-05, "elapsed_time_per_iteration": 5.70492387, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 53s", "remaining_time": "3h 54m 55s", "loss_scale": 1.0, "consumed_samples": 880896, "global_step/max_steps": "3441/6350"}
{"lm loss": 4.93505287, "grad_norm": 0.66726416, "learning_rate": 4.877e-05, "elapsed_time_per_iteration": 4.7380774, "memory(GiB)": 28.03, "elapsed_time": "4h 37m 58s", "remaining_time": "3h 54m 50s", "loss_scale": 1.0, "consumed_samples": 881152, "global_step/max_steps": "3442/6350"}
{"lm loss": 4.9290247, "grad_norm": 0.65476871, "learning_rate": 4.874e-05, "elapsed_time_per_iteration": 4.72499919, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 2s", "remaining_time": "3h 54m 45s", "loss_scale": 1.0, "consumed_samples": 881408, "global_step/max_steps": "3443/6350"}
{"lm loss": 4.9330759, "grad_norm": 0.61950809, "learning_rate": 4.872e-05, "elapsed_time_per_iteration": 4.67297435, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 7s", "remaining_time": "3h 54m 40s", "loss_scale": 1.0, "consumed_samples": 881664, "global_step/max_steps": "3444/6350"}
{"lm loss": 4.92856884, "grad_norm": 0.56082475, "learning_rate": 4.869e-05, "elapsed_time_per_iteration": 4.74593306, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 12s", "remaining_time": "3h 54m 35s", "loss_scale": 1.0, "consumed_samples": 881920, "global_step/max_steps": "3445/6350"}
{"lm loss": 4.92636919, "grad_norm": 0.62936109, "learning_rate": 4.867e-05, "elapsed_time_per_iteration": 4.74042773, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 17s", "remaining_time": "3h 54m 30s", "loss_scale": 1.0, "consumed_samples": 882176, "global_step/max_steps": "3446/6350"}
{"lm loss": 4.91506433, "grad_norm": 0.68088311, "learning_rate": 4.864e-05, "elapsed_time_per_iteration": 4.73495364, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 21s", "remaining_time": "3h 54m 25s", "loss_scale": 1.0, "consumed_samples": 882432, "global_step/max_steps": "3447/6350"}
{"lm loss": 4.9169445, "grad_norm": 1.3376261, "learning_rate": 4.862e-05, "elapsed_time_per_iteration": 5.34079432, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 27s", "remaining_time": "3h 54m 21s", "loss_scale": 1.0, "consumed_samples": 882688, "global_step/max_steps": "3448/6350"}
{"lm loss": 4.90101099, "grad_norm": 1.04756045, "learning_rate": 4.859e-05, "elapsed_time_per_iteration": 5.52243209, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 32s", "remaining_time": "3h 54m 17s", "loss_scale": 1.0, "consumed_samples": 882944, "global_step/max_steps": "3449/6350"}
{"lm loss": 4.90728188, "grad_norm": 0.73782957, "learning_rate": 4.857e-05, "elapsed_time_per_iteration": 4.76801634, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 37s", "remaining_time": "3h 54m 12s", "loss_scale": 1.0, "consumed_samples": 883200, "global_step/max_steps": "3450/6350"}
{"lm loss": 4.89543343, "grad_norm": 0.7505483, "learning_rate": 4.854e-05, "elapsed_time_per_iteration": 4.74743891, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 42s", "remaining_time": "3h 54m 7s", "loss_scale": 1.0, "consumed_samples": 883456, "global_step/max_steps": "3451/6350"}
{"lm loss": 4.91339922, "grad_norm": 0.56672728, "learning_rate": 4.852e-05, "elapsed_time_per_iteration": 4.76725125, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 46s", "remaining_time": "3h 54m 2s", "loss_scale": 1.0, "consumed_samples": 883712, "global_step/max_steps": "3452/6350"}
{"lm loss": 4.90445423, "grad_norm": 0.57231814, "learning_rate": 4.849e-05, "elapsed_time_per_iteration": 4.72668242, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 51s", "remaining_time": "3h 53m 57s", "loss_scale": 1.0, "consumed_samples": 883968, "global_step/max_steps": "3453/6350"}
{"lm loss": 4.93233442, "grad_norm": 0.70344454, "learning_rate": 4.846e-05, "elapsed_time_per_iteration": 4.68819141, "memory(GiB)": 28.03, "elapsed_time": "4h 38m 56s", "remaining_time": "3h 53m 52s", "loss_scale": 1.0, "consumed_samples": 884224, "global_step/max_steps": "3454/6350"}
{"lm loss": 4.91753292, "grad_norm": 0.73024529, "learning_rate": 4.844e-05, "elapsed_time_per_iteration": 4.74206972, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 1s", "remaining_time": "3h 53m 47s", "loss_scale": 1.0, "consumed_samples": 884480, "global_step/max_steps": "3455/6350"}
{"lm loss": 4.89980888, "grad_norm": 0.8956694, "learning_rate": 4.841e-05, "elapsed_time_per_iteration": 4.70543861, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 5s", "remaining_time": "3h 53m 42s", "loss_scale": 1.0, "consumed_samples": 884736, "global_step/max_steps": "3456/6350"}
{"lm loss": 4.91093636, "grad_norm": 0.92406946, "learning_rate": 4.839e-05, "elapsed_time_per_iteration": 4.77264142, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 10s", "remaining_time": "3h 53m 37s", "loss_scale": 1.0, "consumed_samples": 884992, "global_step/max_steps": "3457/6350"}
{"lm loss": 4.89593649, "grad_norm": 0.69099236, "learning_rate": 4.836e-05, "elapsed_time_per_iteration": 4.73536682, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 15s", "remaining_time": "3h 53m 32s", "loss_scale": 1.0, "consumed_samples": 885248, "global_step/max_steps": "3458/6350"}
{"lm loss": 4.90296412, "grad_norm": 0.63274461, "learning_rate": 4.834e-05, "elapsed_time_per_iteration": 4.72922325, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 19s", "remaining_time": "3h 53m 27s", "loss_scale": 1.0, "consumed_samples": 885504, "global_step/max_steps": "3459/6350"}
{"lm loss": 4.91867971, "grad_norm": 0.75535113, "learning_rate": 4.831e-05, "elapsed_time_per_iteration": 4.82270479, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 24s", "remaining_time": "3h 53m 22s", "loss_scale": 1.0, "consumed_samples": 885760, "global_step/max_steps": "3460/6350"}
{"lm loss": 4.9126544, "grad_norm": 0.84949166, "learning_rate": 4.829e-05, "elapsed_time_per_iteration": 5.61250901, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 30s", "remaining_time": "3h 53m 18s", "loss_scale": 1.0, "consumed_samples": 886016, "global_step/max_steps": "3461/6350"}
{"lm loss": 4.89927292, "grad_norm": 0.985686, "learning_rate": 4.826e-05, "elapsed_time_per_iteration": 4.74121332, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 35s", "remaining_time": "3h 53m 13s", "loss_scale": 1.0, "consumed_samples": 886272, "global_step/max_steps": "3462/6350"}
{"lm loss": 4.91981792, "grad_norm": 0.70842028, "learning_rate": 4.824e-05, "elapsed_time_per_iteration": 4.73860431, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 39s", "remaining_time": "3h 53m 8s", "loss_scale": 1.0, "consumed_samples": 886528, "global_step/max_steps": "3463/6350"}
{"lm loss": 4.92482948, "grad_norm": 0.55492002, "learning_rate": 4.821e-05, "elapsed_time_per_iteration": 4.74128604, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 44s", "remaining_time": "3h 53m 3s", "loss_scale": 1.0, "consumed_samples": 886784, "global_step/max_steps": "3464/6350"}
{"lm loss": 4.91703701, "grad_norm": 0.76818699, "learning_rate": 4.819e-05, "elapsed_time_per_iteration": 4.7839272, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 49s", "remaining_time": "3h 52m 59s", "loss_scale": 1.0, "consumed_samples": 887040, "global_step/max_steps": "3465/6350"}
{"lm loss": 4.92665482, "grad_norm": 0.77934605, "learning_rate": 4.816e-05, "elapsed_time_per_iteration": 4.7403152, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 54s", "remaining_time": "3h 52m 54s", "loss_scale": 1.0, "consumed_samples": 887296, "global_step/max_steps": "3466/6350"}
{"lm loss": 4.93003416, "grad_norm": 0.85863632, "learning_rate": 4.814e-05, "elapsed_time_per_iteration": 4.79504943, "memory(GiB)": 28.03, "elapsed_time": "4h 39m 58s", "remaining_time": "3h 52m 49s", "loss_scale": 1.0, "consumed_samples": 887552, "global_step/max_steps": "3467/6350"}
{"lm loss": 4.89663744, "grad_norm": 0.83755231, "learning_rate": 4.811e-05, "elapsed_time_per_iteration": 4.78620577, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 3s", "remaining_time": "3h 52m 44s", "loss_scale": 1.0, "consumed_samples": 887808, "global_step/max_steps": "3468/6350"}
{"lm loss": 4.92696142, "grad_norm": 0.67157418, "learning_rate": 4.809e-05, "elapsed_time_per_iteration": 4.77456903, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 8s", "remaining_time": "3h 52m 39s", "loss_scale": 1.0, "consumed_samples": 888064, "global_step/max_steps": "3469/6350"}
{"lm loss": 4.91061783, "grad_norm": 0.61404335, "learning_rate": 4.806e-05, "elapsed_time_per_iteration": 5.40654111, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 13s", "remaining_time": "3h 52m 35s", "loss_scale": 1.0, "consumed_samples": 888320, "global_step/max_steps": "3470/6350"}
{"lm loss": 4.92027617, "grad_norm": 0.90113479, "learning_rate": 4.804e-05, "elapsed_time_per_iteration": 4.80570745, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 18s", "remaining_time": "3h 52m 30s", "loss_scale": 1.0, "consumed_samples": 888576, "global_step/max_steps": "3471/6350"}
{"lm loss": 4.90924406, "grad_norm": 0.89168423, "learning_rate": 4.801e-05, "elapsed_time_per_iteration": 4.72990012, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 23s", "remaining_time": "3h 52m 25s", "loss_scale": 1.0, "consumed_samples": 888832, "global_step/max_steps": "3472/6350"}
{"lm loss": 4.91944647, "grad_norm": 0.70791823, "learning_rate": 4.799e-05, "elapsed_time_per_iteration": 4.85220075, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 28s", "remaining_time": "3h 52m 20s", "loss_scale": 1.0, "consumed_samples": 889088, "global_step/max_steps": "3473/6350"}
{"lm loss": 4.89091253, "grad_norm": 0.72822005, "learning_rate": 4.796e-05, "elapsed_time_per_iteration": 4.69558525, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 33s", "remaining_time": "3h 52m 15s", "loss_scale": 1.0, "consumed_samples": 889344, "global_step/max_steps": "3474/6350"}
{"lm loss": 4.91593361, "grad_norm": 0.76533908, "learning_rate": 4.794e-05, "elapsed_time_per_iteration": 4.8047421, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 37s", "remaining_time": "3h 52m 10s", "loss_scale": 1.0, "consumed_samples": 889600, "global_step/max_steps": "3475/6350"}
{"lm loss": 4.90336418, "grad_norm": 0.73577875, "learning_rate": 4.791e-05, "elapsed_time_per_iteration": 4.6740098, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 42s", "remaining_time": "3h 52m 5s", "loss_scale": 1.0, "consumed_samples": 889856, "global_step/max_steps": "3476/6350"}
{"lm loss": 4.9033165, "grad_norm": 0.66940242, "learning_rate": 4.789e-05, "elapsed_time_per_iteration": 4.69117236, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 47s", "remaining_time": "3h 52m 0s", "loss_scale": 1.0, "consumed_samples": 890112, "global_step/max_steps": "3477/6350"}
{"lm loss": 4.91416836, "grad_norm": 0.65428329, "learning_rate": 4.786e-05, "elapsed_time_per_iteration": 4.71390319, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 51s", "remaining_time": "3h 51m 55s", "loss_scale": 1.0, "consumed_samples": 890368, "global_step/max_steps": "3478/6350"}
{"lm loss": 4.92644787, "grad_norm": 0.68580419, "learning_rate": 4.783e-05, "elapsed_time_per_iteration": 4.68104386, "memory(GiB)": 28.03, "elapsed_time": "4h 40m 56s", "remaining_time": "3h 51m 50s", "loss_scale": 1.0, "consumed_samples": 890624, "global_step/max_steps": "3479/6350"}
{"lm loss": 4.89713573, "grad_norm": 0.5816645, "learning_rate": 4.781e-05, "elapsed_time_per_iteration": 4.72243237, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 1s", "remaining_time": "3h 51m 45s", "loss_scale": 1.0, "consumed_samples": 890880, "global_step/max_steps": "3480/6350"}
{"lm loss": 4.90947104, "grad_norm": 0.67133325, "learning_rate": 4.778e-05, "elapsed_time_per_iteration": 4.71984577, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 6s", "remaining_time": "3h 51m 40s", "loss_scale": 1.0, "consumed_samples": 891136, "global_step/max_steps": "3481/6350"}
{"lm loss": 4.9189086, "grad_norm": 0.61385423, "learning_rate": 4.776e-05, "elapsed_time_per_iteration": 4.70427322, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 10s", "remaining_time": "3h 51m 35s", "loss_scale": 1.0, "consumed_samples": 891392, "global_step/max_steps": "3482/6350"}
{"lm loss": 4.90404367, "grad_norm": 0.55929625, "learning_rate": 4.773e-05, "elapsed_time_per_iteration": 4.73548889, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 15s", "remaining_time": "3h 51m 30s", "loss_scale": 1.0, "consumed_samples": 891648, "global_step/max_steps": "3483/6350"}
{"lm loss": 4.87563133, "grad_norm": 0.63551182, "learning_rate": 4.771e-05, "elapsed_time_per_iteration": 4.74178457, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 20s", "remaining_time": "3h 51m 25s", "loss_scale": 1.0, "consumed_samples": 891904, "global_step/max_steps": "3484/6350"}
{"lm loss": 4.93092871, "grad_norm": 0.72196919, "learning_rate": 4.768e-05, "elapsed_time_per_iteration": 4.79311562, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 24s", "remaining_time": "3h 51m 21s", "loss_scale": 1.0, "consumed_samples": 892160, "global_step/max_steps": "3485/6350"}
{"lm loss": 4.89936686, "grad_norm": 0.63212734, "learning_rate": 4.766e-05, "elapsed_time_per_iteration": 4.75436592, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 29s", "remaining_time": "3h 51m 16s", "loss_scale": 1.0, "consumed_samples": 892416, "global_step/max_steps": "3486/6350"}
{"lm loss": 4.92282009, "grad_norm": 0.5623765, "learning_rate": 4.763e-05, "elapsed_time_per_iteration": 5.4580338, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 35s", "remaining_time": "3h 51m 11s", "loss_scale": 1.0, "consumed_samples": 892672, "global_step/max_steps": "3487/6350"}
{"lm loss": 4.915833, "grad_norm": 0.6437791, "learning_rate": 4.761e-05, "elapsed_time_per_iteration": 4.75478458, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 39s", "remaining_time": "3h 51m 6s", "loss_scale": 1.0, "consumed_samples": 892928, "global_step/max_steps": "3488/6350"}
{"lm loss": 4.91588449, "grad_norm": 0.63592058, "learning_rate": 4.758e-05, "elapsed_time_per_iteration": 4.78403378, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 44s", "remaining_time": "3h 51m 1s", "loss_scale": 1.0, "consumed_samples": 893184, "global_step/max_steps": "3489/6350"}
{"lm loss": 4.91931295, "grad_norm": 0.70491105, "learning_rate": 4.756e-05, "elapsed_time_per_iteration": 4.71112156, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 49s", "remaining_time": "3h 50m 57s", "loss_scale": 1.0, "consumed_samples": 893440, "global_step/max_steps": "3490/6350"}
{"lm loss": 4.90583944, "grad_norm": 0.98569316, "learning_rate": 4.753e-05, "elapsed_time_per_iteration": 5.69466877, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 55s", "remaining_time": "3h 50m 52s", "loss_scale": 1.0, "consumed_samples": 893696, "global_step/max_steps": "3491/6350"}
{"lm loss": 4.90146971, "grad_norm": 1.03236127, "learning_rate": 4.751e-05, "elapsed_time_per_iteration": 4.72483969, "memory(GiB)": 28.03, "elapsed_time": "4h 41m 59s", "remaining_time": "3h 50m 47s", "loss_scale": 1.0, "consumed_samples": 893952, "global_step/max_steps": "3492/6350"}
{"lm loss": 4.93103647, "grad_norm": 0.6998868, "learning_rate": 4.748e-05, "elapsed_time_per_iteration": 4.72847724, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 4s", "remaining_time": "3h 50m 42s", "loss_scale": 1.0, "consumed_samples": 894208, "global_step/max_steps": "3493/6350"}
{"lm loss": 4.91036558, "grad_norm": 0.73175907, "learning_rate": 4.746e-05, "elapsed_time_per_iteration": 4.77023077, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 9s", "remaining_time": "3h 50m 38s", "loss_scale": 1.0, "consumed_samples": 894464, "global_step/max_steps": "3494/6350"}
{"lm loss": 4.87195158, "grad_norm": 0.87940252, "learning_rate": 4.743e-05, "elapsed_time_per_iteration": 4.72281528, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 14s", "remaining_time": "3h 50m 33s", "loss_scale": 1.0, "consumed_samples": 894720, "global_step/max_steps": "3495/6350"}
{"lm loss": 4.92838717, "grad_norm": 0.82557118, "learning_rate": 4.741e-05, "elapsed_time_per_iteration": 4.75381064, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 18s", "remaining_time": "3h 50m 28s", "loss_scale": 1.0, "consumed_samples": 894976, "global_step/max_steps": "3496/6350"}
{"lm loss": 4.91072893, "grad_norm": 0.66619879, "learning_rate": 4.738e-05, "elapsed_time_per_iteration": 5.19241142, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 24s", "remaining_time": "3h 50m 23s", "loss_scale": 1.0, "consumed_samples": 895232, "global_step/max_steps": "3497/6350"}
{"lm loss": 4.92959595, "grad_norm": 0.62658411, "learning_rate": 4.736e-05, "elapsed_time_per_iteration": 4.77251911, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 28s", "remaining_time": "3h 50m 18s", "loss_scale": 1.0, "consumed_samples": 895488, "global_step/max_steps": "3498/6350"}
{"lm loss": 4.90267658, "grad_norm": 0.714683, "learning_rate": 4.733e-05, "elapsed_time_per_iteration": 4.72729731, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 33s", "remaining_time": "3h 50m 13s", "loss_scale": 1.0, "consumed_samples": 895744, "global_step/max_steps": "3499/6350"}
{"lm loss": 4.918437, "grad_norm": 0.77032787, "learning_rate": 4.731e-05, "elapsed_time_per_iteration": 4.76281714, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 38s", "remaining_time": "3h 50m 8s", "loss_scale": 1.0, "consumed_samples": 896000, "global_step/max_steps": "3500/6350"}
{"lm loss": 4.90350151, "grad_norm": 0.64647371, "learning_rate": 4.728e-05, "elapsed_time_per_iteration": 4.73250794, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 43s", "remaining_time": "3h 50m 3s", "loss_scale": 1.0, "consumed_samples": 896256, "global_step/max_steps": "3501/6350"}
{"lm loss": 4.91692924, "grad_norm": 0.59000611, "learning_rate": 4.726e-05, "elapsed_time_per_iteration": 4.77304029, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 47s", "remaining_time": "3h 49m 59s", "loss_scale": 1.0, "consumed_samples": 896512, "global_step/max_steps": "3502/6350"}
{"lm loss": 4.93021822, "grad_norm": 0.6573379, "learning_rate": 4.723e-05, "elapsed_time_per_iteration": 4.76414728, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 52s", "remaining_time": "3h 49m 54s", "loss_scale": 1.0, "consumed_samples": 896768, "global_step/max_steps": "3503/6350"}
{"lm loss": 4.9222393, "grad_norm": 0.76012266, "learning_rate": 4.721e-05, "elapsed_time_per_iteration": 5.61577129, "memory(GiB)": 28.03, "elapsed_time": "4h 42m 58s", "remaining_time": "3h 49m 49s", "loss_scale": 1.0, "consumed_samples": 897024, "global_step/max_steps": "3504/6350"}
{"lm loss": 4.91900826, "grad_norm": 0.63019991, "learning_rate": 4.718e-05, "elapsed_time_per_iteration": 4.73040867, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 2s", "remaining_time": "3h 49m 44s", "loss_scale": 1.0, "consumed_samples": 897280, "global_step/max_steps": "3505/6350"}
{"lm loss": 4.91490793, "grad_norm": 0.60413098, "learning_rate": 4.716e-05, "elapsed_time_per_iteration": 4.85577154, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 7s", "remaining_time": "3h 49m 40s", "loss_scale": 1.0, "consumed_samples": 897536, "global_step/max_steps": "3506/6350"}
{"lm loss": 4.91727209, "grad_norm": 0.53572178, "learning_rate": 4.713e-05, "elapsed_time_per_iteration": 4.70885682, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 12s", "remaining_time": "3h 49m 35s", "loss_scale": 1.0, "consumed_samples": 897792, "global_step/max_steps": "3507/6350"}
{"lm loss": 4.92378616, "grad_norm": 0.69471675, "learning_rate": 4.71e-05, "elapsed_time_per_iteration": 4.72131777, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 17s", "remaining_time": "3h 49m 30s", "loss_scale": 1.0, "consumed_samples": 898048, "global_step/max_steps": "3508/6350"}
{"lm loss": 4.90180635, "grad_norm": 0.67786103, "learning_rate": 4.708e-05, "elapsed_time_per_iteration": 4.74117303, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 21s", "remaining_time": "3h 49m 25s", "loss_scale": 1.0, "consumed_samples": 898304, "global_step/max_steps": "3509/6350"}
{"lm loss": 4.90080214, "grad_norm": 0.85119903, "learning_rate": 4.705e-05, "elapsed_time_per_iteration": 4.80173135, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 26s", "remaining_time": "3h 49m 20s", "loss_scale": 1.0, "consumed_samples": 898560, "global_step/max_steps": "3510/6350"}
{"lm loss": 4.90772104, "grad_norm": 0.58013201, "learning_rate": 4.703e-05, "elapsed_time_per_iteration": 4.72792959, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 31s", "remaining_time": "3h 49m 15s", "loss_scale": 1.0, "consumed_samples": 898816, "global_step/max_steps": "3511/6350"}
{"lm loss": 4.91183853, "grad_norm": 0.5778445, "learning_rate": 4.7e-05, "elapsed_time_per_iteration": 4.77210927, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 36s", "remaining_time": "3h 49m 10s", "loss_scale": 1.0, "consumed_samples": 899072, "global_step/max_steps": "3512/6350"}
{"lm loss": 4.87043381, "grad_norm": 0.50052565, "learning_rate": 4.698e-05, "elapsed_time_per_iteration": 4.78411126, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 41s", "remaining_time": "3h 49m 5s", "loss_scale": 1.0, "consumed_samples": 899328, "global_step/max_steps": "3513/6350"}
{"lm loss": 4.92346668, "grad_norm": 0.59197998, "learning_rate": 4.695e-05, "elapsed_time_per_iteration": 5.56487679, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 46s", "remaining_time": "3h 49m 1s", "loss_scale": 1.0, "consumed_samples": 899584, "global_step/max_steps": "3514/6350"}
{"lm loss": 4.91089296, "grad_norm": 0.5049473, "learning_rate": 4.693e-05, "elapsed_time_per_iteration": 4.75467682, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 51s", "remaining_time": "3h 48m 56s", "loss_scale": 1.0, "consumed_samples": 899840, "global_step/max_steps": "3515/6350"}
{"lm loss": 4.90960026, "grad_norm": 0.52396125, "learning_rate": 4.69e-05, "elapsed_time_per_iteration": 4.70585346, "memory(GiB)": 28.03, "elapsed_time": "4h 43m 56s", "remaining_time": "3h 48m 51s", "loss_scale": 1.0, "consumed_samples": 900096, "global_step/max_steps": "3516/6350"}
{"lm loss": 4.91896105, "grad_norm": 0.55260348, "learning_rate": 4.688e-05, "elapsed_time_per_iteration": 4.73856378, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 0s", "remaining_time": "3h 48m 46s", "loss_scale": 1.0, "consumed_samples": 900352, "global_step/max_steps": "3517/6350"}
{"lm loss": 4.91618252, "grad_norm": 0.63462996, "learning_rate": 4.685e-05, "elapsed_time_per_iteration": 4.78328729, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 5s", "remaining_time": "3h 48m 41s", "loss_scale": 1.0, "consumed_samples": 900608, "global_step/max_steps": "3518/6350"}
{"lm loss": 4.90550184, "grad_norm": 1.27104783, "learning_rate": 4.683e-05, "elapsed_time_per_iteration": 4.73031712, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 10s", "remaining_time": "3h 48m 36s", "loss_scale": 1.0, "consumed_samples": 900864, "global_step/max_steps": "3519/6350"}
{"lm loss": 4.89922571, "grad_norm": 0.52183026, "learning_rate": 4.68e-05, "elapsed_time_per_iteration": 5.32545257, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 15s", "remaining_time": "3h 48m 32s", "loss_scale": 1.0, "consumed_samples": 901120, "global_step/max_steps": "3520/6350"}
{"lm loss": 4.90446138, "grad_norm": 0.65688616, "learning_rate": 4.678e-05, "elapsed_time_per_iteration": 4.80439997, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 20s", "remaining_time": "3h 48m 27s", "loss_scale": 1.0, "consumed_samples": 901376, "global_step/max_steps": "3521/6350"}
{"lm loss": 4.92727661, "grad_norm": 0.86025196, "learning_rate": 4.675e-05, "elapsed_time_per_iteration": 5.4988308, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 25s", "remaining_time": "3h 48m 23s", "loss_scale": 1.0, "consumed_samples": 901632, "global_step/max_steps": "3522/6350"}
{"lm loss": 4.90182495, "grad_norm": 1.16572535, "learning_rate": 4.673e-05, "elapsed_time_per_iteration": 4.79816675, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 30s", "remaining_time": "3h 48m 18s", "loss_scale": 1.0, "consumed_samples": 901888, "global_step/max_steps": "3523/6350"}
{"lm loss": 4.90020466, "grad_norm": 0.80936593, "learning_rate": 4.67e-05, "elapsed_time_per_iteration": 4.74985361, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 35s", "remaining_time": "3h 48m 13s", "loss_scale": 1.0, "consumed_samples": 902144, "global_step/max_steps": "3524/6350"}
{"lm loss": 4.90635157, "grad_norm": 0.56408119, "learning_rate": 4.668e-05, "elapsed_time_per_iteration": 4.79579949, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 40s", "remaining_time": "3h 48m 8s", "loss_scale": 1.0, "consumed_samples": 902400, "global_step/max_steps": "3525/6350"}
{"lm loss": 4.93025541, "grad_norm": 0.97443217, "learning_rate": 4.665e-05, "elapsed_time_per_iteration": 4.78541851, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 45s", "remaining_time": "3h 48m 3s", "loss_scale": 1.0, "consumed_samples": 902656, "global_step/max_steps": "3526/6350"}
{"lm loss": 4.90115738, "grad_norm": 1.26505327, "learning_rate": 4.663e-05, "elapsed_time_per_iteration": 4.73861814, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 49s", "remaining_time": "3h 47m 58s", "loss_scale": 1.0, "consumed_samples": 902912, "global_step/max_steps": "3527/6350"}
{"lm loss": 4.90614128, "grad_norm": 0.58740628, "learning_rate": 4.66e-05, "elapsed_time_per_iteration": 4.80644941, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 54s", "remaining_time": "3h 47m 53s", "loss_scale": 1.0, "consumed_samples": 903168, "global_step/max_steps": "3528/6350"}
{"lm loss": 4.91333199, "grad_norm": 1.14742577, "learning_rate": 4.658e-05, "elapsed_time_per_iteration": 4.74695563, "memory(GiB)": 28.03, "elapsed_time": "4h 44m 59s", "remaining_time": "3h 47m 48s", "loss_scale": 1.0, "consumed_samples": 903424, "global_step/max_steps": "3529/6350"}
{"lm loss": 4.91668272, "grad_norm": 0.74580097, "learning_rate": 4.655e-05, "elapsed_time_per_iteration": 4.71331978, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 4s", "remaining_time": "3h 47m 43s", "loss_scale": 1.0, "consumed_samples": 903680, "global_step/max_steps": "3530/6350"}
{"lm loss": 4.8992672, "grad_norm": 0.76043642, "learning_rate": 4.653e-05, "elapsed_time_per_iteration": 4.80484653, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 8s", "remaining_time": "3h 47m 38s", "loss_scale": 1.0, "consumed_samples": 903936, "global_step/max_steps": "3531/6350"}
{"lm loss": 4.91809082, "grad_norm": 0.56789416, "learning_rate": 4.65e-05, "elapsed_time_per_iteration": 4.76215553, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 13s", "remaining_time": "3h 47m 34s", "loss_scale": 1.0, "consumed_samples": 904192, "global_step/max_steps": "3532/6350"}
{"lm loss": 4.92532921, "grad_norm": 0.61770403, "learning_rate": 4.648e-05, "elapsed_time_per_iteration": 4.78950858, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 18s", "remaining_time": "3h 47m 29s", "loss_scale": 1.0, "consumed_samples": 904448, "global_step/max_steps": "3533/6350"}
{"lm loss": 4.92228746, "grad_norm": 0.72052217, "learning_rate": 4.645e-05, "elapsed_time_per_iteration": 4.77313066, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 23s", "remaining_time": "3h 47m 24s", "loss_scale": 1.0, "consumed_samples": 904704, "global_step/max_steps": "3534/6350"}
{"lm loss": 4.93006325, "grad_norm": 0.67225152, "learning_rate": 4.643e-05, "elapsed_time_per_iteration": 4.72201467, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 27s", "remaining_time": "3h 47m 19s", "loss_scale": 1.0, "consumed_samples": 904960, "global_step/max_steps": "3535/6350"}
{"lm loss": 4.93454313, "grad_norm": 0.74274117, "learning_rate": 4.64e-05, "elapsed_time_per_iteration": 4.75210309, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 32s", "remaining_time": "3h 47m 14s", "loss_scale": 1.0, "consumed_samples": 905216, "global_step/max_steps": "3536/6350"}
{"lm loss": 4.9133606, "grad_norm": 0.59808654, "learning_rate": 4.638e-05, "elapsed_time_per_iteration": 4.78165364, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 37s", "remaining_time": "3h 47m 9s", "loss_scale": 1.0, "consumed_samples": 905472, "global_step/max_steps": "3537/6350"}
{"lm loss": 4.91354942, "grad_norm": 0.92597097, "learning_rate": 4.635e-05, "elapsed_time_per_iteration": 4.80580854, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 42s", "remaining_time": "3h 47m 4s", "loss_scale": 1.0, "consumed_samples": 905728, "global_step/max_steps": "3538/6350"}
{"lm loss": 4.92468643, "grad_norm": 2.24426818, "learning_rate": 4.633e-05, "elapsed_time_per_iteration": 4.73906994, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 47s", "remaining_time": "3h 46m 59s", "loss_scale": 1.0, "consumed_samples": 905984, "global_step/max_steps": "3539/6350"}
{"lm loss": 4.90381289, "grad_norm": 1.06643224, "learning_rate": 4.63e-05, "elapsed_time_per_iteration": 4.75168467, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 51s", "remaining_time": "3h 46m 54s", "loss_scale": 1.0, "consumed_samples": 906240, "global_step/max_steps": "3540/6350"}
{"lm loss": 4.93145704, "grad_norm": 1.41858494, "learning_rate": 4.628e-05, "elapsed_time_per_iteration": 4.7165091, "memory(GiB)": 28.03, "elapsed_time": "4h 45m 56s", "remaining_time": "3h 46m 49s", "loss_scale": 1.0, "consumed_samples": 906496, "global_step/max_steps": "3541/6350"}
{"lm loss": 4.93590879, "grad_norm": 0.92601782, "learning_rate": 4.625e-05, "elapsed_time_per_iteration": 4.72622418, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 1s", "remaining_time": "3h 46m 44s", "loss_scale": 1.0, "consumed_samples": 906752, "global_step/max_steps": "3542/6350"}
{"lm loss": 4.91801167, "grad_norm": 1.8705374, "learning_rate": 4.623e-05, "elapsed_time_per_iteration": 4.8342936, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 6s", "remaining_time": "3h 46m 40s", "loss_scale": 1.0, "consumed_samples": 907008, "global_step/max_steps": "3543/6350"}
{"lm loss": 4.9213953, "grad_norm": 1.49377191, "learning_rate": 4.62e-05, "elapsed_time_per_iteration": 5.04121351, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 11s", "remaining_time": "3h 46m 35s", "loss_scale": 1.0, "consumed_samples": 907264, "global_step/max_steps": "3544/6350"}
{"lm loss": 4.93111086, "grad_norm": 1.27096307, "learning_rate": 4.618e-05, "elapsed_time_per_iteration": 4.73653555, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 15s", "remaining_time": "3h 46m 30s", "loss_scale": 1.0, "consumed_samples": 907520, "global_step/max_steps": "3545/6350"}
{"lm loss": 4.91904259, "grad_norm": 1.19326782, "learning_rate": 4.615e-05, "elapsed_time_per_iteration": 4.84497571, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 20s", "remaining_time": "3h 46m 25s", "loss_scale": 1.0, "consumed_samples": 907776, "global_step/max_steps": "3546/6350"}
{"lm loss": 4.88782167, "grad_norm": 1.00662553, "learning_rate": 4.612e-05, "elapsed_time_per_iteration": 4.82247376, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 25s", "remaining_time": "3h 46m 20s", "loss_scale": 1.0, "consumed_samples": 908032, "global_step/max_steps": "3547/6350"}
{"lm loss": 4.90433598, "grad_norm": 1.00005436, "learning_rate": 4.61e-05, "elapsed_time_per_iteration": 4.78090477, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 30s", "remaining_time": "3h 46m 15s", "loss_scale": 1.0, "consumed_samples": 908288, "global_step/max_steps": "3548/6350"}
{"lm loss": 4.92294788, "grad_norm": 0.79356855, "learning_rate": 4.607e-05, "elapsed_time_per_iteration": 4.84292507, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 35s", "remaining_time": "3h 46m 10s", "loss_scale": 1.0, "consumed_samples": 908544, "global_step/max_steps": "3549/6350"}
{"lm loss": 4.91167927, "grad_norm": 0.79101944, "learning_rate": 4.605e-05, "elapsed_time_per_iteration": 4.80310941, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 39s", "remaining_time": "3h 46m 6s", "loss_scale": 1.0, "consumed_samples": 908800, "global_step/max_steps": "3550/6350"}
{"lm loss": 4.93508911, "grad_norm": 0.94314891, "learning_rate": 4.602e-05, "elapsed_time_per_iteration": 4.79523253, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 44s", "remaining_time": "3h 46m 1s", "loss_scale": 1.0, "consumed_samples": 909056, "global_step/max_steps": "3551/6350"}
{"lm loss": 4.91671991, "grad_norm": 0.80887157, "learning_rate": 4.6e-05, "elapsed_time_per_iteration": 4.77150464, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 49s", "remaining_time": "3h 45m 56s", "loss_scale": 1.0, "consumed_samples": 909312, "global_step/max_steps": "3552/6350"}
{"lm loss": 4.91275406, "grad_norm": 0.7258625, "learning_rate": 4.597e-05, "elapsed_time_per_iteration": 4.75338674, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 54s", "remaining_time": "3h 45m 51s", "loss_scale": 1.0, "consumed_samples": 909568, "global_step/max_steps": "3553/6350"}
{"lm loss": 4.90452766, "grad_norm": 0.77463806, "learning_rate": 4.595e-05, "elapsed_time_per_iteration": 4.79164743, "memory(GiB)": 28.03, "elapsed_time": "4h 46m 59s", "remaining_time": "3h 45m 46s", "loss_scale": 1.0, "consumed_samples": 909824, "global_step/max_steps": "3554/6350"}
{"lm loss": 4.89574146, "grad_norm": 0.70860946, "learning_rate": 4.592e-05, "elapsed_time_per_iteration": 4.78946924, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 3s", "remaining_time": "3h 45m 41s", "loss_scale": 1.0, "consumed_samples": 910080, "global_step/max_steps": "3555/6350"}
{"lm loss": 4.89230013, "grad_norm": 0.71841979, "learning_rate": 4.59e-05, "elapsed_time_per_iteration": 4.74429011, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 8s", "remaining_time": "3h 45m 36s", "loss_scale": 1.0, "consumed_samples": 910336, "global_step/max_steps": "3556/6350"}
{"lm loss": 4.88623619, "grad_norm": 0.77029461, "learning_rate": 4.587e-05, "elapsed_time_per_iteration": 4.68160725, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 13s", "remaining_time": "3h 45m 31s", "loss_scale": 1.0, "consumed_samples": 910592, "global_step/max_steps": "3557/6350"}
{"lm loss": 4.91630459, "grad_norm": 0.6341837, "learning_rate": 4.585e-05, "elapsed_time_per_iteration": 5.44710922, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 18s", "remaining_time": "3h 45m 27s", "loss_scale": 1.0, "consumed_samples": 910848, "global_step/max_steps": "3558/6350"}
{"lm loss": 4.90714455, "grad_norm": 0.59971321, "learning_rate": 4.582e-05, "elapsed_time_per_iteration": 5.5740931, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 24s", "remaining_time": "3h 45m 23s", "loss_scale": 1.0, "consumed_samples": 911104, "global_step/max_steps": "3559/6350"}
{"lm loss": 4.90686989, "grad_norm": 0.58748758, "learning_rate": 4.58e-05, "elapsed_time_per_iteration": 5.63715601, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 29s", "remaining_time": "3h 45m 18s", "loss_scale": 1.0, "consumed_samples": 911360, "global_step/max_steps": "3560/6350"}
{"lm loss": 4.89885998, "grad_norm": 0.59486777, "learning_rate": 4.577e-05, "elapsed_time_per_iteration": 4.69315815, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 34s", "remaining_time": "3h 45m 13s", "loss_scale": 1.0, "consumed_samples": 911616, "global_step/max_steps": "3561/6350"}
{"lm loss": 4.9167819, "grad_norm": 0.4950493, "learning_rate": 4.575e-05, "elapsed_time_per_iteration": 4.71895742, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 39s", "remaining_time": "3h 45m 8s", "loss_scale": 1.0, "consumed_samples": 911872, "global_step/max_steps": "3562/6350"}
{"lm loss": 4.88755322, "grad_norm": 0.60784638, "learning_rate": 4.572e-05, "elapsed_time_per_iteration": 4.74745893, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 44s", "remaining_time": "3h 45m 4s", "loss_scale": 1.0, "consumed_samples": 912128, "global_step/max_steps": "3563/6350"}
{"lm loss": 4.91516352, "grad_norm": 0.53635162, "learning_rate": 4.57e-05, "elapsed_time_per_iteration": 4.8024869, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 48s", "remaining_time": "3h 44m 59s", "loss_scale": 1.0, "consumed_samples": 912384, "global_step/max_steps": "3564/6350"}
{"lm loss": 4.90755749, "grad_norm": 0.62897271, "learning_rate": 4.567e-05, "elapsed_time_per_iteration": 5.2537756, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 54s", "remaining_time": "3h 44m 54s", "loss_scale": 1.0, "consumed_samples": 912640, "global_step/max_steps": "3565/6350"}
{"lm loss": 4.91847563, "grad_norm": 0.85173035, "learning_rate": 4.565e-05, "elapsed_time_per_iteration": 4.66576838, "memory(GiB)": 28.03, "elapsed_time": "4h 47m 58s", "remaining_time": "3h 44m 49s", "loss_scale": 1.0, "consumed_samples": 912896, "global_step/max_steps": "3566/6350"}
{"lm loss": 4.91284847, "grad_norm": 0.65593648, "learning_rate": 4.562e-05, "elapsed_time_per_iteration": 4.84986448, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 3s", "remaining_time": "3h 44m 44s", "loss_scale": 1.0, "consumed_samples": 913152, "global_step/max_steps": "3567/6350"}
{"lm loss": 4.92109251, "grad_norm": 0.56123388, "learning_rate": 4.56e-05, "elapsed_time_per_iteration": 4.71607184, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 8s", "remaining_time": "3h 44m 39s", "loss_scale": 1.0, "consumed_samples": 913408, "global_step/max_steps": "3568/6350"}
{"lm loss": 4.88938856, "grad_norm": 0.56046486, "learning_rate": 4.557e-05, "elapsed_time_per_iteration": 4.75593376, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 13s", "remaining_time": "3h 44m 34s", "loss_scale": 1.0, "consumed_samples": 913664, "global_step/max_steps": "3569/6350"}
{"lm loss": 4.91583204, "grad_norm": 0.64717215, "learning_rate": 4.555e-05, "elapsed_time_per_iteration": 4.79683352, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 17s", "remaining_time": "3h 44m 30s", "loss_scale": 1.0, "consumed_samples": 913920, "global_step/max_steps": "3570/6350"}
{"lm loss": 4.92162848, "grad_norm": 0.6385802, "learning_rate": 4.552e-05, "elapsed_time_per_iteration": 4.70242143, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 22s", "remaining_time": "3h 44m 25s", "loss_scale": 1.0, "consumed_samples": 914176, "global_step/max_steps": "3571/6350"}
{"lm loss": 4.90996122, "grad_norm": 0.65460765, "learning_rate": 4.55e-05, "elapsed_time_per_iteration": 4.71474743, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 27s", "remaining_time": "3h 44m 20s", "loss_scale": 1.0, "consumed_samples": 914432, "global_step/max_steps": "3572/6350"}
{"lm loss": 4.90641022, "grad_norm": 0.61357152, "learning_rate": 4.547e-05, "elapsed_time_per_iteration": 4.70453644, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 32s", "remaining_time": "3h 44m 15s", "loss_scale": 1.0, "consumed_samples": 914688, "global_step/max_steps": "3573/6350"}
{"lm loss": 4.91002893, "grad_norm": 0.57746601, "learning_rate": 4.545e-05, "elapsed_time_per_iteration": 4.75696898, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 36s", "remaining_time": "3h 44m 10s", "loss_scale": 1.0, "consumed_samples": 914944, "global_step/max_steps": "3574/6350"}
{"lm loss": 4.92907381, "grad_norm": 0.58018208, "learning_rate": 4.542e-05, "elapsed_time_per_iteration": 5.17230844, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 41s", "remaining_time": "3h 44m 5s", "loss_scale": 1.0, "consumed_samples": 915200, "global_step/max_steps": "3575/6350"}
{"lm loss": 4.90847015, "grad_norm": 0.49344525, "learning_rate": 4.54e-05, "elapsed_time_per_iteration": 4.69674873, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 46s", "remaining_time": "3h 44m 0s", "loss_scale": 1.0, "consumed_samples": 915456, "global_step/max_steps": "3576/6350"}
{"lm loss": 4.89590693, "grad_norm": 0.71949571, "learning_rate": 4.537e-05, "elapsed_time_per_iteration": 4.69864655, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 51s", "remaining_time": "3h 43m 55s", "loss_scale": 1.0, "consumed_samples": 915712, "global_step/max_steps": "3577/6350"}
{"lm loss": 4.91138983, "grad_norm": 0.72562855, "learning_rate": 4.535e-05, "elapsed_time_per_iteration": 4.75379324, "memory(GiB)": 28.03, "elapsed_time": "4h 48m 56s", "remaining_time": "3h 43m 50s", "loss_scale": 1.0, "consumed_samples": 915968, "global_step/max_steps": "3578/6350"}
{"lm loss": 4.91177511, "grad_norm": 0.62727511, "learning_rate": 4.532e-05, "elapsed_time_per_iteration": 4.71704769, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 0s", "remaining_time": "3h 43m 45s", "loss_scale": 1.0, "consumed_samples": 916224, "global_step/max_steps": "3579/6350"}
{"lm loss": 4.93657112, "grad_norm": 0.51576859, "learning_rate": 4.53e-05, "elapsed_time_per_iteration": 4.81053495, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 5s", "remaining_time": "3h 43m 41s", "loss_scale": 1.0, "consumed_samples": 916480, "global_step/max_steps": "3580/6350"}
{"lm loss": 4.9054718, "grad_norm": 0.56694758, "learning_rate": 4.527e-05, "elapsed_time_per_iteration": 4.76845646, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 10s", "remaining_time": "3h 43m 36s", "loss_scale": 1.0, "consumed_samples": 916736, "global_step/max_steps": "3581/6350"}
{"lm loss": 4.9042654, "grad_norm": 0.52851284, "learning_rate": 4.525e-05, "elapsed_time_per_iteration": 4.74383736, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 15s", "remaining_time": "3h 43m 31s", "loss_scale": 1.0, "consumed_samples": 916992, "global_step/max_steps": "3582/6350"}
{"lm loss": 4.89795923, "grad_norm": 0.72689378, "learning_rate": 4.522e-05, "elapsed_time_per_iteration": 4.72145724, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 19s", "remaining_time": "3h 43m 26s", "loss_scale": 1.0, "consumed_samples": 917248, "global_step/max_steps": "3583/6350"}
{"lm loss": 4.90862465, "grad_norm": 0.77842367, "learning_rate": 4.52e-05, "elapsed_time_per_iteration": 4.69579124, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 24s", "remaining_time": "3h 43m 21s", "loss_scale": 1.0, "consumed_samples": 917504, "global_step/max_steps": "3584/6350"}
{"lm loss": 4.89466333, "grad_norm": 0.79710579, "learning_rate": 4.517e-05, "elapsed_time_per_iteration": 4.90886402, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 29s", "remaining_time": "3h 43m 16s", "loss_scale": 1.0, "consumed_samples": 917760, "global_step/max_steps": "3585/6350"}
{"lm loss": 4.93062353, "grad_norm": 0.77689636, "learning_rate": 4.515e-05, "elapsed_time_per_iteration": 4.75024056, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 34s", "remaining_time": "3h 43m 11s", "loss_scale": 1.0, "consumed_samples": 918016, "global_step/max_steps": "3586/6350"}
{"lm loss": 4.91233397, "grad_norm": 0.62385279, "learning_rate": 4.512e-05, "elapsed_time_per_iteration": 4.73890591, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 38s", "remaining_time": "3h 43m 6s", "loss_scale": 1.0, "consumed_samples": 918272, "global_step/max_steps": "3587/6350"}
{"lm loss": 4.89281464, "grad_norm": 0.5607596, "learning_rate": 4.51e-05, "elapsed_time_per_iteration": 4.72694635, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 43s", "remaining_time": "3h 43m 1s", "loss_scale": 1.0, "consumed_samples": 918528, "global_step/max_steps": "3588/6350"}
{"lm loss": 4.90384817, "grad_norm": 0.69867378, "learning_rate": 4.507e-05, "elapsed_time_per_iteration": 4.74211597, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 48s", "remaining_time": "3h 42m 56s", "loss_scale": 1.0, "consumed_samples": 918784, "global_step/max_steps": "3589/6350"}
{"lm loss": 4.93642139, "grad_norm": 0.90346694, "learning_rate": 4.505e-05, "elapsed_time_per_iteration": 4.87946081, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 53s", "remaining_time": "3h 42m 52s", "loss_scale": 1.0, "consumed_samples": 919040, "global_step/max_steps": "3590/6350"}
{"lm loss": 4.89389038, "grad_norm": 0.87887138, "learning_rate": 4.502e-05, "elapsed_time_per_iteration": 4.74805188, "memory(GiB)": 28.03, "elapsed_time": "4h 49m 58s", "remaining_time": "3h 42m 47s", "loss_scale": 1.0, "consumed_samples": 919296, "global_step/max_steps": "3591/6350"}
{"lm loss": 4.92028666, "grad_norm": 0.64671481, "learning_rate": 4.5e-05, "elapsed_time_per_iteration": 4.74181652, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 2s", "remaining_time": "3h 42m 42s", "loss_scale": 1.0, "consumed_samples": 919552, "global_step/max_steps": "3592/6350"}
{"lm loss": 4.90200424, "grad_norm": 0.55143934, "learning_rate": 4.497e-05, "elapsed_time_per_iteration": 5.23763514, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 8s", "remaining_time": "3h 42m 37s", "loss_scale": 1.0, "consumed_samples": 919808, "global_step/max_steps": "3593/6350"}
{"lm loss": 4.90781069, "grad_norm": 0.81769294, "learning_rate": 4.495e-05, "elapsed_time_per_iteration": 4.7144928, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 12s", "remaining_time": "3h 42m 32s", "loss_scale": 1.0, "consumed_samples": 920064, "global_step/max_steps": "3594/6350"}
{"lm loss": 4.89631748, "grad_norm": 0.65329659, "learning_rate": 4.492e-05, "elapsed_time_per_iteration": 4.71232057, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 17s", "remaining_time": "3h 42m 27s", "loss_scale": 1.0, "consumed_samples": 920320, "global_step/max_steps": "3595/6350"}
{"lm loss": 4.88561583, "grad_norm": 0.55663252, "learning_rate": 4.49e-05, "elapsed_time_per_iteration": 4.74396658, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 22s", "remaining_time": "3h 42m 22s", "loss_scale": 1.0, "consumed_samples": 920576, "global_step/max_steps": "3596/6350"}
{"lm loss": 4.91878891, "grad_norm": 0.62045646, "learning_rate": 4.487e-05, "elapsed_time_per_iteration": 4.76331568, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 26s", "remaining_time": "3h 42m 17s", "loss_scale": 1.0, "consumed_samples": 920832, "global_step/max_steps": "3597/6350"}
{"lm loss": 4.91952276, "grad_norm": 0.57219255, "learning_rate": 4.485e-05, "elapsed_time_per_iteration": 4.86881995, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 31s", "remaining_time": "3h 42m 13s", "loss_scale": 1.0, "consumed_samples": 921088, "global_step/max_steps": "3598/6350"}
{"lm loss": 4.89779472, "grad_norm": 0.52445054, "learning_rate": 4.482e-05, "elapsed_time_per_iteration": 4.73870802, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 36s", "remaining_time": "3h 42m 8s", "loss_scale": 1.0, "consumed_samples": 921344, "global_step/max_steps": "3599/6350"}
{"lm loss": 4.9260006, "grad_norm": 3.62727046, "learning_rate": 4.48e-05, "elapsed_time_per_iteration": 4.7100718, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 41s", "remaining_time": "3h 42m 3s", "loss_scale": 1.0, "consumed_samples": 921600, "global_step/max_steps": "3600/6350"}
{"lm loss": 4.92435789, "grad_norm": 0.71191889, "learning_rate": 4.477e-05, "elapsed_time_per_iteration": 4.69089961, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 45s", "remaining_time": "3h 41m 58s", "loss_scale": 1.0, "consumed_samples": 921856, "global_step/max_steps": "3601/6350"}
{"lm loss": 4.92044353, "grad_norm": 0.6143778, "learning_rate": 4.475e-05, "elapsed_time_per_iteration": 4.76009607, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 50s", "remaining_time": "3h 41m 53s", "loss_scale": 1.0, "consumed_samples": 922112, "global_step/max_steps": "3602/6350"}
{"lm loss": 4.90909719, "grad_norm": 0.69310898, "learning_rate": 4.472e-05, "elapsed_time_per_iteration": 4.69667339, "memory(GiB)": 28.03, "elapsed_time": "4h 50m 55s", "remaining_time": "3h 41m 48s", "loss_scale": 1.0, "consumed_samples": 922368, "global_step/max_steps": "3603/6350"}
{"lm loss": 4.92485714, "grad_norm": 0.69089139, "learning_rate": 4.47e-05, "elapsed_time_per_iteration": 4.70016265, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 0s", "remaining_time": "3h 41m 43s", "loss_scale": 1.0, "consumed_samples": 922624, "global_step/max_steps": "3604/6350"}
{"lm loss": 4.92647552, "grad_norm": 0.59391195, "learning_rate": 4.467e-05, "elapsed_time_per_iteration": 5.64145088, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 5s", "remaining_time": "3h 41m 39s", "loss_scale": 1.0, "consumed_samples": 922880, "global_step/max_steps": "3605/6350"}
{"lm loss": 4.88701487, "grad_norm": 0.69794947, "learning_rate": 4.465e-05, "elapsed_time_per_iteration": 4.74432588, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 10s", "remaining_time": "3h 41m 34s", "loss_scale": 1.0, "consumed_samples": 923136, "global_step/max_steps": "3606/6350"}
{"lm loss": 4.91176081, "grad_norm": 0.62812924, "learning_rate": 4.462e-05, "elapsed_time_per_iteration": 4.79205751, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 15s", "remaining_time": "3h 41m 29s", "loss_scale": 1.0, "consumed_samples": 923392, "global_step/max_steps": "3607/6350"}
{"lm loss": 4.93469715, "grad_norm": 0.65727806, "learning_rate": 4.46e-05, "elapsed_time_per_iteration": 4.71752477, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 20s", "remaining_time": "3h 41m 24s", "loss_scale": 1.0, "consumed_samples": 923648, "global_step/max_steps": "3608/6350"}
{"lm loss": 4.89428091, "grad_norm": 0.63989526, "learning_rate": 4.457e-05, "elapsed_time_per_iteration": 5.5430131, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 25s", "remaining_time": "3h 41m 20s", "loss_scale": 1.0, "consumed_samples": 923904, "global_step/max_steps": "3609/6350"}
{"lm loss": 4.90911579, "grad_norm": 0.61116153, "learning_rate": 4.455e-05, "elapsed_time_per_iteration": 4.69639778, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 30s", "remaining_time": "3h 41m 15s", "loss_scale": 1.0, "consumed_samples": 924160, "global_step/max_steps": "3610/6350"}
{"lm loss": 4.89572191, "grad_norm": 0.54201317, "learning_rate": 4.452e-05, "elapsed_time_per_iteration": 4.76825786, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 35s", "remaining_time": "3h 41m 10s", "loss_scale": 1.0, "consumed_samples": 924416, "global_step/max_steps": "3611/6350"}
{"lm loss": 4.90319061, "grad_norm": 0.63122916, "learning_rate": 4.45e-05, "elapsed_time_per_iteration": 4.7573421, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 39s", "remaining_time": "3h 41m 5s", "loss_scale": 1.0, "consumed_samples": 924672, "global_step/max_steps": "3612/6350"}
{"lm loss": 4.90240335, "grad_norm": 0.51916373, "learning_rate": 4.447e-05, "elapsed_time_per_iteration": 5.64119411, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 45s", "remaining_time": "3h 41m 1s", "loss_scale": 1.0, "consumed_samples": 924928, "global_step/max_steps": "3613/6350"}
{"lm loss": 4.91377401, "grad_norm": 0.65882856, "learning_rate": 4.445e-05, "elapsed_time_per_iteration": 4.69308877, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 50s", "remaining_time": "3h 40m 56s", "loss_scale": 1.0, "consumed_samples": 925184, "global_step/max_steps": "3614/6350"}
{"lm loss": 4.91096115, "grad_norm": 0.77076858, "learning_rate": 4.442e-05, "elapsed_time_per_iteration": 4.88617396, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 54s", "remaining_time": "3h 40m 51s", "loss_scale": 1.0, "consumed_samples": 925440, "global_step/max_steps": "3615/6350"}
{"lm loss": 4.8947835, "grad_norm": 0.88590473, "learning_rate": 4.44e-05, "elapsed_time_per_iteration": 4.79162097, "memory(GiB)": 28.03, "elapsed_time": "4h 51m 59s", "remaining_time": "3h 40m 46s", "loss_scale": 1.0, "consumed_samples": 925696, "global_step/max_steps": "3616/6350"}
{"lm loss": 4.88551855, "grad_norm": 0.64093596, "learning_rate": 4.437e-05, "elapsed_time_per_iteration": 4.77704144, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 4s", "remaining_time": "3h 40m 41s", "loss_scale": 1.0, "consumed_samples": 925952, "global_step/max_steps": "3617/6350"}
{"lm loss": 4.91725254, "grad_norm": 0.56273347, "learning_rate": 4.435e-05, "elapsed_time_per_iteration": 4.73032618, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 9s", "remaining_time": "3h 40m 36s", "loss_scale": 1.0, "consumed_samples": 926208, "global_step/max_steps": "3618/6350"}
{"lm loss": 4.91766167, "grad_norm": 0.55770671, "learning_rate": 4.432e-05, "elapsed_time_per_iteration": 4.81470156, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 14s", "remaining_time": "3h 40m 31s", "loss_scale": 1.0, "consumed_samples": 926464, "global_step/max_steps": "3619/6350"}
{"lm loss": 4.91448021, "grad_norm": 0.51258802, "learning_rate": 4.43e-05, "elapsed_time_per_iteration": 4.73689866, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 18s", "remaining_time": "3h 40m 26s", "loss_scale": 1.0, "consumed_samples": 926720, "global_step/max_steps": "3620/6350"}
{"lm loss": 4.91466904, "grad_norm": 0.57414192, "learning_rate": 4.427e-05, "elapsed_time_per_iteration": 4.74656057, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 23s", "remaining_time": "3h 40m 21s", "loss_scale": 1.0, "consumed_samples": 926976, "global_step/max_steps": "3621/6350"}
{"lm loss": 4.90998316, "grad_norm": 0.53357393, "learning_rate": 4.425e-05, "elapsed_time_per_iteration": 4.78245926, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 28s", "remaining_time": "3h 40m 17s", "loss_scale": 1.0, "consumed_samples": 927232, "global_step/max_steps": "3622/6350"}
{"lm loss": 4.89929867, "grad_norm": 0.48416692, "learning_rate": 4.422e-05, "elapsed_time_per_iteration": 4.73605537, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 33s", "remaining_time": "3h 40m 12s", "loss_scale": 1.0, "consumed_samples": 927488, "global_step/max_steps": "3623/6350"}
{"lm loss": 4.90123177, "grad_norm": 0.49471322, "learning_rate": 4.42e-05, "elapsed_time_per_iteration": 4.79525781, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 37s", "remaining_time": "3h 40m 7s", "loss_scale": 1.0, "consumed_samples": 927744, "global_step/max_steps": "3624/6350"}
{"lm loss": 4.9313302, "grad_norm": 0.49389747, "learning_rate": 4.417e-05, "elapsed_time_per_iteration": 4.69186044, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 42s", "remaining_time": "3h 40m 2s", "loss_scale": 1.0, "consumed_samples": 928000, "global_step/max_steps": "3625/6350"}
{"lm loss": 4.91183376, "grad_norm": 0.63185197, "learning_rate": 4.415e-05, "elapsed_time_per_iteration": 4.76176906, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 47s", "remaining_time": "3h 39m 57s", "loss_scale": 1.0, "consumed_samples": 928256, "global_step/max_steps": "3626/6350"}
{"lm loss": 4.90362549, "grad_norm": 0.87900889, "learning_rate": 4.412e-05, "elapsed_time_per_iteration": 4.74301076, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 52s", "remaining_time": "3h 39m 52s", "loss_scale": 1.0, "consumed_samples": 928512, "global_step/max_steps": "3627/6350"}
{"lm loss": 4.90294218, "grad_norm": 1.06019354, "learning_rate": 4.41e-05, "elapsed_time_per_iteration": 5.53431511, "memory(GiB)": 28.03, "elapsed_time": "4h 52m 57s", "remaining_time": "3h 39m 48s", "loss_scale": 1.0, "consumed_samples": 928768, "global_step/max_steps": "3628/6350"}
{"lm loss": 4.91897249, "grad_norm": 0.84013134, "learning_rate": 4.407e-05, "elapsed_time_per_iteration": 4.58698821, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 2s", "remaining_time": "3h 39m 43s", "loss_scale": 1.0, "consumed_samples": 929024, "global_step/max_steps": "3629/6350"}
{"lm loss": 4.88703823, "grad_norm": 0.56977624, "learning_rate": 4.405e-05, "elapsed_time_per_iteration": 4.77686858, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 7s", "remaining_time": "3h 39m 38s", "loss_scale": 1.0, "consumed_samples": 929280, "global_step/max_steps": "3630/6350"}
{"lm loss": 4.91433811, "grad_norm": 0.59899175, "learning_rate": 4.402e-05, "elapsed_time_per_iteration": 5.60763049, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 12s", "remaining_time": "3h 39m 33s", "loss_scale": 1.0, "consumed_samples": 929536, "global_step/max_steps": "3631/6350"}
{"lm loss": 4.91730499, "grad_norm": 0.89369386, "learning_rate": 4.4e-05, "elapsed_time_per_iteration": 4.67417455, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 17s", "remaining_time": "3h 39m 28s", "loss_scale": 1.0, "consumed_samples": 929792, "global_step/max_steps": "3632/6350"}
{"lm loss": 4.90708637, "grad_norm": 0.86238438, "learning_rate": 4.397e-05, "elapsed_time_per_iteration": 5.29607034, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 22s", "remaining_time": "3h 39m 24s", "loss_scale": 1.0, "consumed_samples": 930048, "global_step/max_steps": "3633/6350"}
{"lm loss": 4.91162825, "grad_norm": 0.53487962, "learning_rate": 4.395e-05, "elapsed_time_per_iteration": 4.668607, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 27s", "remaining_time": "3h 39m 19s", "loss_scale": 1.0, "consumed_samples": 930304, "global_step/max_steps": "3634/6350"}
{"lm loss": 4.93330812, "grad_norm": 0.67573553, "learning_rate": 4.392e-05, "elapsed_time_per_iteration": 4.63982296, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 31s", "remaining_time": "3h 39m 14s", "loss_scale": 1.0, "consumed_samples": 930560, "global_step/max_steps": "3635/6350"}
{"lm loss": 4.9036727, "grad_norm": 0.69803488, "learning_rate": 4.39e-05, "elapsed_time_per_iteration": 4.73234844, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 36s", "remaining_time": "3h 39m 9s", "loss_scale": 1.0, "consumed_samples": 930816, "global_step/max_steps": "3636/6350"}
{"lm loss": 4.90918589, "grad_norm": 0.75702149, "learning_rate": 4.387e-05, "elapsed_time_per_iteration": 4.7261467, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 41s", "remaining_time": "3h 39m 4s", "loss_scale": 1.0, "consumed_samples": 931072, "global_step/max_steps": "3637/6350"}
{"lm loss": 4.90110922, "grad_norm": 0.52218926, "learning_rate": 4.385e-05, "elapsed_time_per_iteration": 4.6659565, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 46s", "remaining_time": "3h 38m 59s", "loss_scale": 1.0, "consumed_samples": 931328, "global_step/max_steps": "3638/6350"}
{"lm loss": 4.89336538, "grad_norm": 0.74468005, "learning_rate": 4.382e-05, "elapsed_time_per_iteration": 4.66821074, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 50s", "remaining_time": "3h 38m 54s", "loss_scale": 1.0, "consumed_samples": 931584, "global_step/max_steps": "3639/6350"}
{"lm loss": 4.91938305, "grad_norm": 0.91071135, "learning_rate": 4.38e-05, "elapsed_time_per_iteration": 4.71071005, "memory(GiB)": 28.03, "elapsed_time": "4h 53m 55s", "remaining_time": "3h 38m 49s", "loss_scale": 1.0, "consumed_samples": 931840, "global_step/max_steps": "3640/6350"}
{"lm loss": 4.9088912, "grad_norm": 0.93016642, "learning_rate": 4.377e-05, "elapsed_time_per_iteration": 4.82136035, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 0s", "remaining_time": "3h 38m 44s", "loss_scale": 1.0, "consumed_samples": 932096, "global_step/max_steps": "3641/6350"}
{"lm loss": 4.92026472, "grad_norm": 0.71524405, "learning_rate": 4.375e-05, "elapsed_time_per_iteration": 4.73222828, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 4s", "remaining_time": "3h 38m 39s", "loss_scale": 1.0, "consumed_samples": 932352, "global_step/max_steps": "3642/6350"}
{"lm loss": 4.90956545, "grad_norm": 0.61261714, "learning_rate": 4.372e-05, "elapsed_time_per_iteration": 4.72402263, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 9s", "remaining_time": "3h 38m 34s", "loss_scale": 1.0, "consumed_samples": 932608, "global_step/max_steps": "3643/6350"}
{"lm loss": 4.89482355, "grad_norm": 0.76579785, "learning_rate": 4.37e-05, "elapsed_time_per_iteration": 5.03010726, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 14s", "remaining_time": "3h 38m 30s", "loss_scale": 1.0, "consumed_samples": 932864, "global_step/max_steps": "3644/6350"}
{"lm loss": 4.91090822, "grad_norm": 0.6519329, "learning_rate": 4.367e-05, "elapsed_time_per_iteration": 4.71442366, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 19s", "remaining_time": "3h 38m 25s", "loss_scale": 1.0, "consumed_samples": 933120, "global_step/max_steps": "3645/6350"}
{"lm loss": 4.8891654, "grad_norm": 0.50020611, "learning_rate": 4.365e-05, "elapsed_time_per_iteration": 5.09347892, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 24s", "remaining_time": "3h 38m 20s", "loss_scale": 1.0, "consumed_samples": 933376, "global_step/max_steps": "3646/6350"}
{"lm loss": 4.87192059, "grad_norm": 0.6111477, "learning_rate": 4.362e-05, "elapsed_time_per_iteration": 4.75519586, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 29s", "remaining_time": "3h 38m 15s", "loss_scale": 1.0, "consumed_samples": 933632, "global_step/max_steps": "3647/6350"}
{"lm loss": 4.91552448, "grad_norm": 0.59067529, "learning_rate": 4.36e-05, "elapsed_time_per_iteration": 4.7194612, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 33s", "remaining_time": "3h 38m 10s", "loss_scale": 1.0, "consumed_samples": 933888, "global_step/max_steps": "3648/6350"}
{"lm loss": 4.90731716, "grad_norm": 0.54051411, "learning_rate": 4.357e-05, "elapsed_time_per_iteration": 4.66505909, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 38s", "remaining_time": "3h 38m 5s", "loss_scale": 1.0, "consumed_samples": 934144, "global_step/max_steps": "3649/6350"}
{"lm loss": 4.91297436, "grad_norm": 0.53044343, "learning_rate": 4.355e-05, "elapsed_time_per_iteration": 4.65419888, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 43s", "remaining_time": "3h 38m 0s", "loss_scale": 1.0, "consumed_samples": 934400, "global_step/max_steps": "3650/6350"}
{"lm loss": 4.89500284, "grad_norm": 0.52013046, "learning_rate": 4.352e-05, "elapsed_time_per_iteration": 4.80491042, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 48s", "remaining_time": "3h 37m 55s", "loss_scale": 1.0, "consumed_samples": 934656, "global_step/max_steps": "3651/6350"}
{"lm loss": 4.90594673, "grad_norm": 0.54156959, "learning_rate": 4.35e-05, "elapsed_time_per_iteration": 4.67818546, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 52s", "remaining_time": "3h 37m 50s", "loss_scale": 1.0, "consumed_samples": 934912, "global_step/max_steps": "3652/6350"}
{"lm loss": 4.90926027, "grad_norm": 0.54399121, "learning_rate": 4.347e-05, "elapsed_time_per_iteration": 4.7255578, "memory(GiB)": 28.03, "elapsed_time": "4h 54m 57s", "remaining_time": "3h 37m 46s", "loss_scale": 1.0, "consumed_samples": 935168, "global_step/max_steps": "3653/6350"}
{"lm loss": 4.90582705, "grad_norm": 0.52853996, "learning_rate": 4.345e-05, "elapsed_time_per_iteration": 4.68074727, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 2s", "remaining_time": "3h 37m 41s", "loss_scale": 1.0, "consumed_samples": 935424, "global_step/max_steps": "3654/6350"}
{"lm loss": 4.91824675, "grad_norm": 0.7001372, "learning_rate": 4.342e-05, "elapsed_time_per_iteration": 4.78070498, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 6s", "remaining_time": "3h 37m 36s", "loss_scale": 1.0, "consumed_samples": 935680, "global_step/max_steps": "3655/6350"}
{"lm loss": 4.91173935, "grad_norm": 0.65553969, "learning_rate": 4.34e-05, "elapsed_time_per_iteration": 5.48981237, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 12s", "remaining_time": "3h 37m 31s", "loss_scale": 1.0, "consumed_samples": 935936, "global_step/max_steps": "3656/6350"}
{"lm loss": 4.9098649, "grad_norm": 0.6166811, "learning_rate": 4.337e-05, "elapsed_time_per_iteration": 4.80122828, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 17s", "remaining_time": "3h 37m 26s", "loss_scale": 1.0, "consumed_samples": 936192, "global_step/max_steps": "3657/6350"}
{"lm loss": 4.91201019, "grad_norm": 0.60547531, "learning_rate": 4.335e-05, "elapsed_time_per_iteration": 5.7817874, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 23s", "remaining_time": "3h 37m 22s", "loss_scale": 1.0, "consumed_samples": 936448, "global_step/max_steps": "3658/6350"}
{"lm loss": 4.91967106, "grad_norm": 0.70336175, "learning_rate": 4.332e-05, "elapsed_time_per_iteration": 4.79542303, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 27s", "remaining_time": "3h 37m 17s", "loss_scale": 1.0, "consumed_samples": 936704, "global_step/max_steps": "3659/6350"}
{"lm loss": 4.87890768, "grad_norm": 0.50973433, "learning_rate": 4.33e-05, "elapsed_time_per_iteration": 4.73016548, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 32s", "remaining_time": "3h 37m 12s", "loss_scale": 1.0, "consumed_samples": 936960, "global_step/max_steps": "3660/6350"}
{"lm loss": 4.89716625, "grad_norm": 0.54572725, "learning_rate": 4.327e-05, "elapsed_time_per_iteration": 4.68042088, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 37s", "remaining_time": "3h 37m 7s", "loss_scale": 1.0, "consumed_samples": 937216, "global_step/max_steps": "3661/6350"}
{"lm loss": 4.91108799, "grad_norm": 0.60352278, "learning_rate": 4.325e-05, "elapsed_time_per_iteration": 4.66973925, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 41s", "remaining_time": "3h 37m 3s", "loss_scale": 1.0, "consumed_samples": 937472, "global_step/max_steps": "3662/6350"}
{"lm loss": 4.88801718, "grad_norm": 0.54934299, "learning_rate": 4.322e-05, "elapsed_time_per_iteration": 4.77226472, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 46s", "remaining_time": "3h 36m 58s", "loss_scale": 1.0, "consumed_samples": 937728, "global_step/max_steps": "3663/6350"}
{"lm loss": 4.89763832, "grad_norm": 0.60958099, "learning_rate": 4.32e-05, "elapsed_time_per_iteration": 5.06470346, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 51s", "remaining_time": "3h 36m 53s", "loss_scale": 1.0, "consumed_samples": 937984, "global_step/max_steps": "3664/6350"}
{"lm loss": 4.9137702, "grad_norm": 0.77467746, "learning_rate": 4.317e-05, "elapsed_time_per_iteration": 4.72155023, "memory(GiB)": 28.03, "elapsed_time": "4h 55m 56s", "remaining_time": "3h 36m 48s", "loss_scale": 1.0, "consumed_samples": 938240, "global_step/max_steps": "3665/6350"}
{"lm loss": 4.9100337, "grad_norm": 0.4796654, "learning_rate": 4.315e-05, "elapsed_time_per_iteration": 4.64084482, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 1s", "remaining_time": "3h 36m 43s", "loss_scale": 1.0, "consumed_samples": 938496, "global_step/max_steps": "3666/6350"}
{"lm loss": 4.8820262, "grad_norm": 0.53788751, "learning_rate": 4.313e-05, "elapsed_time_per_iteration": 4.75700116, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 5s", "remaining_time": "3h 36m 38s", "loss_scale": 1.0, "consumed_samples": 938752, "global_step/max_steps": "3667/6350"}
{"lm loss": 4.9119482, "grad_norm": 0.60166794, "learning_rate": 4.31e-05, "elapsed_time_per_iteration": 4.77516699, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 10s", "remaining_time": "3h 36m 33s", "loss_scale": 1.0, "consumed_samples": 939008, "global_step/max_steps": "3668/6350"}
{"lm loss": 4.92008829, "grad_norm": 0.6382724, "learning_rate": 4.308e-05, "elapsed_time_per_iteration": 4.71642876, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 15s", "remaining_time": "3h 36m 28s", "loss_scale": 1.0, "consumed_samples": 939264, "global_step/max_steps": "3669/6350"}
{"lm loss": 4.90113401, "grad_norm": 0.6527971, "learning_rate": 4.305e-05, "elapsed_time_per_iteration": 4.74891663, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 20s", "remaining_time": "3h 36m 23s", "loss_scale": 1.0, "consumed_samples": 939520, "global_step/max_steps": "3670/6350"}
{"lm loss": 4.90402317, "grad_norm": 0.58396697, "learning_rate": 4.303e-05, "elapsed_time_per_iteration": 4.7751894, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 24s", "remaining_time": "3h 36m 18s", "loss_scale": 1.0, "consumed_samples": 939776, "global_step/max_steps": "3671/6350"}
{"lm loss": 4.90239334, "grad_norm": 0.49426213, "learning_rate": 4.3e-05, "elapsed_time_per_iteration": 4.66280103, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 29s", "remaining_time": "3h 36m 13s", "loss_scale": 1.0, "consumed_samples": 940032, "global_step/max_steps": "3672/6350"}
{"lm loss": 4.92867517, "grad_norm": 0.54787946, "learning_rate": 4.298e-05, "elapsed_time_per_iteration": 4.75796723, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 34s", "remaining_time": "3h 36m 9s", "loss_scale": 1.0, "consumed_samples": 940288, "global_step/max_steps": "3673/6350"}
{"lm loss": 4.89323282, "grad_norm": 0.54124713, "learning_rate": 4.295e-05, "elapsed_time_per_iteration": 4.6818924, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 38s", "remaining_time": "3h 36m 4s", "loss_scale": 1.0, "consumed_samples": 940544, "global_step/max_steps": "3674/6350"}
{"lm loss": 4.88504601, "grad_norm": 0.52677029, "learning_rate": 4.293e-05, "elapsed_time_per_iteration": 4.68612552, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 43s", "remaining_time": "3h 35m 59s", "loss_scale": 1.0, "consumed_samples": 940800, "global_step/max_steps": "3675/6350"}
{"lm loss": 4.89003801, "grad_norm": 0.51728004, "learning_rate": 4.29e-05, "elapsed_time_per_iteration": 4.71982121, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 48s", "remaining_time": "3h 35m 54s", "loss_scale": 1.0, "consumed_samples": 941056, "global_step/max_steps": "3676/6350"}
{"lm loss": 4.90998602, "grad_norm": 0.56644464, "learning_rate": 4.288e-05, "elapsed_time_per_iteration": 5.61269784, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 54s", "remaining_time": "3h 35m 49s", "loss_scale": 1.0, "consumed_samples": 941312, "global_step/max_steps": "3677/6350"}
{"lm loss": 4.90050364, "grad_norm": 0.50538802, "learning_rate": 4.285e-05, "elapsed_time_per_iteration": 4.69207144, "memory(GiB)": 28.03, "elapsed_time": "4h 56m 58s", "remaining_time": "3h 35m 44s", "loss_scale": 1.0, "consumed_samples": 941568, "global_step/max_steps": "3678/6350"}
{"lm loss": 4.9201417, "grad_norm": 0.58081234, "learning_rate": 4.283e-05, "elapsed_time_per_iteration": 4.67978811, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 3s", "remaining_time": "3h 35m 40s", "loss_scale": 1.0, "consumed_samples": 941824, "global_step/max_steps": "3679/6350"}
{"lm loss": 4.89945984, "grad_norm": 0.6539945, "learning_rate": 4.28e-05, "elapsed_time_per_iteration": 4.73027134, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 8s", "remaining_time": "3h 35m 35s", "loss_scale": 1.0, "consumed_samples": 942080, "global_step/max_steps": "3680/6350"}
{"lm loss": 4.92202568, "grad_norm": 0.76711434, "learning_rate": 4.278e-05, "elapsed_time_per_iteration": 4.68467236, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 12s", "remaining_time": "3h 35m 30s", "loss_scale": 1.0, "consumed_samples": 942336, "global_step/max_steps": "3681/6350"}
{"lm loss": 4.92371559, "grad_norm": 0.9987945, "learning_rate": 4.275e-05, "elapsed_time_per_iteration": 5.47738171, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 18s", "remaining_time": "3h 35m 25s", "loss_scale": 1.0, "consumed_samples": 942592, "global_step/max_steps": "3682/6350"}
{"lm loss": 4.8984704, "grad_norm": 1.02250147, "learning_rate": 4.273e-05, "elapsed_time_per_iteration": 4.67602444, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 22s", "remaining_time": "3h 35m 20s", "loss_scale": 1.0, "consumed_samples": 942848, "global_step/max_steps": "3683/6350"}
{"lm loss": 4.8983202, "grad_norm": 0.77744532, "learning_rate": 4.27e-05, "elapsed_time_per_iteration": 4.69651389, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 27s", "remaining_time": "3h 35m 15s", "loss_scale": 1.0, "consumed_samples": 943104, "global_step/max_steps": "3684/6350"}
{"lm loss": 4.90153265, "grad_norm": 0.53478223, "learning_rate": 4.268e-05, "elapsed_time_per_iteration": 4.70590949, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 32s", "remaining_time": "3h 35m 10s", "loss_scale": 1.0, "consumed_samples": 943360, "global_step/max_steps": "3685/6350"}
{"lm loss": 4.91970873, "grad_norm": 0.55372822, "learning_rate": 4.265e-05, "elapsed_time_per_iteration": 5.59696484, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 37s", "remaining_time": "3h 35m 6s", "loss_scale": 1.0, "consumed_samples": 943616, "global_step/max_steps": "3686/6350"}
{"lm loss": 4.92374086, "grad_norm": 0.76514155, "learning_rate": 4.263e-05, "elapsed_time_per_iteration": 4.7007823, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 42s", "remaining_time": "3h 35m 1s", "loss_scale": 1.0, "consumed_samples": 943872, "global_step/max_steps": "3687/6350"}
{"lm loss": 4.89351702, "grad_norm": 0.9178527, "learning_rate": 4.26e-05, "elapsed_time_per_iteration": 4.76567364, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 47s", "remaining_time": "3h 34m 56s", "loss_scale": 1.0, "consumed_samples": 944128, "global_step/max_steps": "3688/6350"}
{"lm loss": 4.90167332, "grad_norm": 0.69937295, "learning_rate": 4.258e-05, "elapsed_time_per_iteration": 4.64934635, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 52s", "remaining_time": "3h 34m 51s", "loss_scale": 1.0, "consumed_samples": 944384, "global_step/max_steps": "3689/6350"}
{"lm loss": 4.91360855, "grad_norm": 0.52035898, "learning_rate": 4.255e-05, "elapsed_time_per_iteration": 4.6466341, "memory(GiB)": 28.03, "elapsed_time": "4h 57m 56s", "remaining_time": "3h 34m 46s", "loss_scale": 1.0, "consumed_samples": 944640, "global_step/max_steps": "3690/6350"}
{"lm loss": 4.89096689, "grad_norm": 0.62202144, "learning_rate": 4.253e-05, "elapsed_time_per_iteration": 4.81415844, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 1s", "remaining_time": "3h 34m 41s", "loss_scale": 1.0, "consumed_samples": 944896, "global_step/max_steps": "3691/6350"}
{"lm loss": 4.8851676, "grad_norm": 0.66165698, "learning_rate": 4.25e-05, "elapsed_time_per_iteration": 4.70900178, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 6s", "remaining_time": "3h 34m 36s", "loss_scale": 1.0, "consumed_samples": 945152, "global_step/max_steps": "3692/6350"}
{"lm loss": 4.90584898, "grad_norm": 1.11456215, "learning_rate": 4.248e-05, "elapsed_time_per_iteration": 4.6752739, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 10s", "remaining_time": "3h 34m 31s", "loss_scale": 1.0, "consumed_samples": 945408, "global_step/max_steps": "3693/6350"}
{"lm loss": 4.89989567, "grad_norm": 0.57230222, "learning_rate": 4.245e-05, "elapsed_time_per_iteration": 4.67722273, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 15s", "remaining_time": "3h 34m 27s", "loss_scale": 1.0, "consumed_samples": 945664, "global_step/max_steps": "3694/6350"}
{"lm loss": 4.87950563, "grad_norm": 0.64369637, "learning_rate": 4.243e-05, "elapsed_time_per_iteration": 4.7139101, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 20s", "remaining_time": "3h 34m 22s", "loss_scale": 1.0, "consumed_samples": 945920, "global_step/max_steps": "3695/6350"}
{"lm loss": 4.89606953, "grad_norm": 0.5985198, "learning_rate": 4.24e-05, "elapsed_time_per_iteration": 4.65543509, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 24s", "remaining_time": "3h 34m 17s", "loss_scale": 1.0, "consumed_samples": 946176, "global_step/max_steps": "3696/6350"}
{"lm loss": 4.89421034, "grad_norm": 0.48285478, "learning_rate": 4.238e-05, "elapsed_time_per_iteration": 4.73942542, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 29s", "remaining_time": "3h 34m 12s", "loss_scale": 1.0, "consumed_samples": 946432, "global_step/max_steps": "3697/6350"}
{"lm loss": 4.92876673, "grad_norm": 0.53545064, "learning_rate": 4.235e-05, "elapsed_time_per_iteration": 4.65004134, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 34s", "remaining_time": "3h 34m 7s", "loss_scale": 1.0, "consumed_samples": 946688, "global_step/max_steps": "3698/6350"}
{"lm loss": 4.91819382, "grad_norm": 0.71306098, "learning_rate": 4.233e-05, "elapsed_time_per_iteration": 4.67822075, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 39s", "remaining_time": "3h 34m 2s", "loss_scale": 1.0, "consumed_samples": 946944, "global_step/max_steps": "3699/6350"}
{"lm loss": 4.92253256, "grad_norm": 0.64447206, "learning_rate": 4.231e-05, "elapsed_time_per_iteration": 5.28243518, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 44s", "remaining_time": "3h 33m 57s", "loss_scale": 1.0, "consumed_samples": 947200, "global_step/max_steps": "3700/6350"}
{"lm loss": 4.89703941, "grad_norm": 0.58334661, "learning_rate": 4.228e-05, "elapsed_time_per_iteration": 4.64999771, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 48s", "remaining_time": "3h 33m 52s", "loss_scale": 1.0, "consumed_samples": 947456, "global_step/max_steps": "3701/6350"}
{"lm loss": 4.90903521, "grad_norm": 0.4877553, "learning_rate": 4.226e-05, "elapsed_time_per_iteration": 4.72261786, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 53s", "remaining_time": "3h 33m 47s", "loss_scale": 1.0, "consumed_samples": 947712, "global_step/max_steps": "3702/6350"}
{"lm loss": 4.91317797, "grad_norm": 0.58798671, "learning_rate": 4.223e-05, "elapsed_time_per_iteration": 4.69325924, "memory(GiB)": 28.03, "elapsed_time": "4h 58m 58s", "remaining_time": "3h 33m 42s", "loss_scale": 1.0, "consumed_samples": 947968, "global_step/max_steps": "3703/6350"}
{"lm loss": 4.88764954, "grad_norm": 0.52468181, "learning_rate": 4.221e-05, "elapsed_time_per_iteration": 4.74181938, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 3s", "remaining_time": "3h 33m 37s", "loss_scale": 1.0, "consumed_samples": 948224, "global_step/max_steps": "3704/6350"}
{"lm loss": 4.91739798, "grad_norm": 0.57880163, "learning_rate": 4.218e-05, "elapsed_time_per_iteration": 4.80037427, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 7s", "remaining_time": "3h 33m 33s", "loss_scale": 1.0, "consumed_samples": 948480, "global_step/max_steps": "3705/6350"}
{"lm loss": 4.90292358, "grad_norm": 0.49284881, "learning_rate": 4.216e-05, "elapsed_time_per_iteration": 4.7265439, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 12s", "remaining_time": "3h 33m 28s", "loss_scale": 1.0, "consumed_samples": 948736, "global_step/max_steps": "3706/6350"}
{"lm loss": 4.91112614, "grad_norm": 0.68199563, "learning_rate": 4.213e-05, "elapsed_time_per_iteration": 4.83077121, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 17s", "remaining_time": "3h 33m 23s", "loss_scale": 1.0, "consumed_samples": 948992, "global_step/max_steps": "3707/6350"}
{"lm loss": 4.90902185, "grad_norm": 0.68113935, "learning_rate": 4.211e-05, "elapsed_time_per_iteration": 4.74285793, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 22s", "remaining_time": "3h 33m 18s", "loss_scale": 1.0, "consumed_samples": 949248, "global_step/max_steps": "3708/6350"}
{"lm loss": 4.90867233, "grad_norm": 0.57258397, "learning_rate": 4.208e-05, "elapsed_time_per_iteration": 4.8036797, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 27s", "remaining_time": "3h 33m 13s", "loss_scale": 1.0, "consumed_samples": 949504, "global_step/max_steps": "3709/6350"}
{"lm loss": 4.90103245, "grad_norm": 0.48755193, "learning_rate": 4.206e-05, "elapsed_time_per_iteration": 4.73229098, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 31s", "remaining_time": "3h 33m 8s", "loss_scale": 1.0, "consumed_samples": 949760, "global_step/max_steps": "3710/6350"}
{"lm loss": 4.89292717, "grad_norm": 0.60346133, "learning_rate": 4.203e-05, "elapsed_time_per_iteration": 4.68285942, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 36s", "remaining_time": "3h 33m 3s", "loss_scale": 1.0, "consumed_samples": 950016, "global_step/max_steps": "3711/6350"}
{"lm loss": 4.90592957, "grad_norm": 1.19799006, "learning_rate": 4.201e-05, "elapsed_time_per_iteration": 4.7987895, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 41s", "remaining_time": "3h 32m 58s", "loss_scale": 1.0, "consumed_samples": 950272, "global_step/max_steps": "3712/6350"}
{"lm loss": 4.92339993, "grad_norm": 0.52258384, "learning_rate": 4.198e-05, "elapsed_time_per_iteration": 4.75148344, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 45s", "remaining_time": "3h 32m 53s", "loss_scale": 1.0, "consumed_samples": 950528, "global_step/max_steps": "3713/6350"}
{"lm loss": 4.89413214, "grad_norm": 0.51752901, "learning_rate": 4.196e-05, "elapsed_time_per_iteration": 4.70999122, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 50s", "remaining_time": "3h 32m 48s", "loss_scale": 1.0, "consumed_samples": 950784, "global_step/max_steps": "3714/6350"}
{"lm loss": 4.90359354, "grad_norm": 0.71050626, "learning_rate": 4.193e-05, "elapsed_time_per_iteration": 4.70592046, "memory(GiB)": 28.03, "elapsed_time": "4h 59m 55s", "remaining_time": "3h 32m 43s", "loss_scale": 1.0, "consumed_samples": 951040, "global_step/max_steps": "3715/6350"}
{"lm loss": 4.90345097, "grad_norm": 0.64390999, "learning_rate": 4.191e-05, "elapsed_time_per_iteration": 5.66566372, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 1s", "remaining_time": "3h 32m 39s", "loss_scale": 1.0, "consumed_samples": 951296, "global_step/max_steps": "3716/6350"}
{"lm loss": 4.90661955, "grad_norm": 0.64048982, "learning_rate": 4.188e-05, "elapsed_time_per_iteration": 4.72550011, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 5s", "remaining_time": "3h 32m 34s", "loss_scale": 1.0, "consumed_samples": 951552, "global_step/max_steps": "3717/6350"}
{"lm loss": 4.90287256, "grad_norm": 0.78745872, "learning_rate": 4.186e-05, "elapsed_time_per_iteration": 4.75544977, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 10s", "remaining_time": "3h 32m 29s", "loss_scale": 1.0, "consumed_samples": 951808, "global_step/max_steps": "3718/6350"}
{"lm loss": 4.88589716, "grad_norm": 0.64566249, "learning_rate": 4.183e-05, "elapsed_time_per_iteration": 4.70710826, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 15s", "remaining_time": "3h 32m 24s", "loss_scale": 1.0, "consumed_samples": 952064, "global_step/max_steps": "3719/6350"}
{"lm loss": 4.91475677, "grad_norm": 0.55501026, "learning_rate": 4.181e-05, "elapsed_time_per_iteration": 4.77166224, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 20s", "remaining_time": "3h 32m 19s", "loss_scale": 1.0, "consumed_samples": 952320, "global_step/max_steps": "3720/6350"}
{"lm loss": 4.91564894, "grad_norm": 0.59102684, "learning_rate": 4.179e-05, "elapsed_time_per_iteration": 5.57850003, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 25s", "remaining_time": "3h 32m 15s", "loss_scale": 1.0, "consumed_samples": 952576, "global_step/max_steps": "3721/6350"}
{"lm loss": 4.85500479, "grad_norm": 0.53726619, "learning_rate": 4.176e-05, "elapsed_time_per_iteration": 4.80538464, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 30s", "remaining_time": "3h 32m 10s", "loss_scale": 1.0, "consumed_samples": 952832, "global_step/max_steps": "3722/6350"}
{"lm loss": 4.90488863, "grad_norm": 0.72314608, "learning_rate": 4.174e-05, "elapsed_time_per_iteration": 4.72240186, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 35s", "remaining_time": "3h 32m 5s", "loss_scale": 1.0, "consumed_samples": 953088, "global_step/max_steps": "3723/6350"}
{"lm loss": 4.90932512, "grad_norm": 0.64786232, "learning_rate": 4.171e-05, "elapsed_time_per_iteration": 4.6871922, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 39s", "remaining_time": "3h 32m 0s", "loss_scale": 1.0, "consumed_samples": 953344, "global_step/max_steps": "3724/6350"}
{"lm loss": 4.90215683, "grad_norm": 0.54801607, "learning_rate": 4.169e-05, "elapsed_time_per_iteration": 4.68734407, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 44s", "remaining_time": "3h 31m 55s", "loss_scale": 1.0, "consumed_samples": 953600, "global_step/max_steps": "3725/6350"}
{"lm loss": 4.88681173, "grad_norm": 0.69029254, "learning_rate": 4.166e-05, "elapsed_time_per_iteration": 4.72743511, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 49s", "remaining_time": "3h 31m 51s", "loss_scale": 1.0, "consumed_samples": 953856, "global_step/max_steps": "3726/6350"}
{"lm loss": 4.88306952, "grad_norm": 0.56083387, "learning_rate": 4.164e-05, "elapsed_time_per_iteration": 4.75436759, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 53s", "remaining_time": "3h 31m 46s", "loss_scale": 1.0, "consumed_samples": 954112, "global_step/max_steps": "3727/6350"}
{"lm loss": 4.91993761, "grad_norm": 0.48126206, "learning_rate": 4.161e-05, "elapsed_time_per_iteration": 4.72163343, "memory(GiB)": 28.03, "elapsed_time": "5h 0m 58s", "remaining_time": "3h 31m 41s", "loss_scale": 1.0, "consumed_samples": 954368, "global_step/max_steps": "3728/6350"}
{"lm loss": 4.90722084, "grad_norm": 0.59606647, "learning_rate": 4.159e-05, "elapsed_time_per_iteration": 4.70297503, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 3s", "remaining_time": "3h 31m 36s", "loss_scale": 1.0, "consumed_samples": 954624, "global_step/max_steps": "3729/6350"}
{"lm loss": 4.92103624, "grad_norm": 0.5123716, "learning_rate": 4.156e-05, "elapsed_time_per_iteration": 5.73744845, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 9s", "remaining_time": "3h 31m 32s", "loss_scale": 1.0, "consumed_samples": 954880, "global_step/max_steps": "3730/6350"}
{"lm loss": 4.91874313, "grad_norm": 0.58718514, "learning_rate": 4.154e-05, "elapsed_time_per_iteration": 4.70289588, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 13s", "remaining_time": "3h 31m 27s", "loss_scale": 1.0, "consumed_samples": 955136, "global_step/max_steps": "3731/6350"}
{"lm loss": 4.92368507, "grad_norm": 0.70522386, "learning_rate": 4.151e-05, "elapsed_time_per_iteration": 5.7119174, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 19s", "remaining_time": "3h 31m 22s", "loss_scale": 1.0, "consumed_samples": 955392, "global_step/max_steps": "3732/6350"}
{"lm loss": 4.88109112, "grad_norm": 0.79605365, "learning_rate": 4.149e-05, "elapsed_time_per_iteration": 4.73470592, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 24s", "remaining_time": "3h 31m 17s", "loss_scale": 1.0, "consumed_samples": 955648, "global_step/max_steps": "3733/6350"}
{"lm loss": 4.90444469, "grad_norm": 0.66114843, "learning_rate": 4.146e-05, "elapsed_time_per_iteration": 4.74540305, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 29s", "remaining_time": "3h 31m 12s", "loss_scale": 1.0, "consumed_samples": 955904, "global_step/max_steps": "3734/6350"}
{"lm loss": 4.88238144, "grad_norm": 0.48783153, "learning_rate": 4.144e-05, "elapsed_time_per_iteration": 4.7865181, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 33s", "remaining_time": "3h 31m 8s", "loss_scale": 1.0, "consumed_samples": 956160, "global_step/max_steps": "3735/6350"}
{"lm loss": 4.918396, "grad_norm": 0.6636526, "learning_rate": 4.141e-05, "elapsed_time_per_iteration": 4.65976977, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 38s", "remaining_time": "3h 31m 3s", "loss_scale": 1.0, "consumed_samples": 956416, "global_step/max_steps": "3736/6350"}
{"lm loss": 4.92211723, "grad_norm": 0.72162879, "learning_rate": 4.139e-05, "elapsed_time_per_iteration": 4.64732695, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 43s", "remaining_time": "3h 30m 58s", "loss_scale": 1.0, "consumed_samples": 956672, "global_step/max_steps": "3737/6350"}
{"lm loss": 4.92371559, "grad_norm": 0.72460681, "learning_rate": 4.136e-05, "elapsed_time_per_iteration": 5.53700686, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 48s", "remaining_time": "3h 30m 53s", "loss_scale": 1.0, "consumed_samples": 956928, "global_step/max_steps": "3738/6350"}
{"lm loss": 4.93443108, "grad_norm": 0.68421543, "learning_rate": 4.134e-05, "elapsed_time_per_iteration": 4.70916915, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 53s", "remaining_time": "3h 30m 48s", "loss_scale": 1.0, "consumed_samples": 957184, "global_step/max_steps": "3739/6350"}
{"lm loss": 4.92111158, "grad_norm": 0.53871542, "learning_rate": 4.132e-05, "elapsed_time_per_iteration": 4.72810578, "memory(GiB)": 28.03, "elapsed_time": "5h 1m 58s", "remaining_time": "3h 30m 43s", "loss_scale": 1.0, "consumed_samples": 957440, "global_step/max_steps": "3740/6350"}
{"lm loss": 4.87875128, "grad_norm": 0.58160073, "learning_rate": 4.129e-05, "elapsed_time_per_iteration": 4.75105453, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 2s", "remaining_time": "3h 30m 39s", "loss_scale": 1.0, "consumed_samples": 957696, "global_step/max_steps": "3741/6350"}
{"lm loss": 4.92039251, "grad_norm": 0.65915066, "learning_rate": 4.127e-05, "elapsed_time_per_iteration": 4.77372622, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 7s", "remaining_time": "3h 30m 34s", "loss_scale": 1.0, "consumed_samples": 957952, "global_step/max_steps": "3742/6350"}
{"lm loss": 4.89233971, "grad_norm": 0.84219378, "learning_rate": 4.124e-05, "elapsed_time_per_iteration": 4.77042389, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 12s", "remaining_time": "3h 30m 29s", "loss_scale": 1.0, "consumed_samples": 958208, "global_step/max_steps": "3743/6350"}
{"lm loss": 4.9015317, "grad_norm": 0.64148366, "learning_rate": 4.122e-05, "elapsed_time_per_iteration": 4.69262791, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 17s", "remaining_time": "3h 30m 24s", "loss_scale": 1.0, "consumed_samples": 958464, "global_step/max_steps": "3744/6350"}
{"lm loss": 4.91887951, "grad_norm": 0.5687241, "learning_rate": 4.119e-05, "elapsed_time_per_iteration": 4.74708033, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 21s", "remaining_time": "3h 30m 19s", "loss_scale": 1.0, "consumed_samples": 958720, "global_step/max_steps": "3745/6350"}
{"lm loss": 4.89132929, "grad_norm": 0.71274996, "learning_rate": 4.117e-05, "elapsed_time_per_iteration": 4.74527884, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 26s", "remaining_time": "3h 30m 14s", "loss_scale": 1.0, "consumed_samples": 958976, "global_step/max_steps": "3746/6350"}
{"lm loss": 4.9256053, "grad_norm": 0.76701927, "learning_rate": 4.114e-05, "elapsed_time_per_iteration": 4.72445107, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 31s", "remaining_time": "3h 30m 9s", "loss_scale": 1.0, "consumed_samples": 959232, "global_step/max_steps": "3747/6350"}
{"lm loss": 4.89469385, "grad_norm": 0.64302349, "learning_rate": 4.112e-05, "elapsed_time_per_iteration": 4.77223253, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 36s", "remaining_time": "3h 30m 4s", "loss_scale": 1.0, "consumed_samples": 959488, "global_step/max_steps": "3748/6350"}
{"lm loss": 4.88244772, "grad_norm": 0.50153685, "learning_rate": 4.109e-05, "elapsed_time_per_iteration": 4.73788548, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 40s", "remaining_time": "3h 29m 59s", "loss_scale": 1.0, "consumed_samples": 959744, "global_step/max_steps": "3749/6350"}
{"lm loss": 4.90400457, "grad_norm": 0.58564168, "learning_rate": 4.107e-05, "elapsed_time_per_iteration": 4.67395544, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 45s", "remaining_time": "3h 29m 54s", "loss_scale": 1.0, "consumed_samples": 960000, "global_step/max_steps": "3750/6350"}
{"lm loss": 4.90014124, "grad_norm": 0.56326169, "learning_rate": 4.104e-05, "elapsed_time_per_iteration": 5.45378733, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 50s", "remaining_time": "3h 29m 50s", "loss_scale": 1.0, "consumed_samples": 960256, "global_step/max_steps": "3751/6350"}
{"lm loss": 4.93083191, "grad_norm": 0.49329948, "learning_rate": 4.102e-05, "elapsed_time_per_iteration": 4.78959727, "memory(GiB)": 28.03, "elapsed_time": "5h 2m 55s", "remaining_time": "3h 29m 45s", "loss_scale": 1.0, "consumed_samples": 960512, "global_step/max_steps": "3752/6350"}
{"lm loss": 4.89656544, "grad_norm": 0.83403486, "learning_rate": 4.099e-05, "elapsed_time_per_iteration": 5.47861958, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 1s", "remaining_time": "3h 29m 41s", "loss_scale": 1.0, "consumed_samples": 960768, "global_step/max_steps": "3753/6350"}
{"lm loss": 4.9049921, "grad_norm": 0.51179004, "learning_rate": 4.097e-05, "elapsed_time_per_iteration": 4.72515893, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 5s", "remaining_time": "3h 29m 36s", "loss_scale": 1.0, "consumed_samples": 961024, "global_step/max_steps": "3754/6350"}
{"lm loss": 4.92895412, "grad_norm": 0.53013867, "learning_rate": 4.095e-05, "elapsed_time_per_iteration": 4.70245385, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 10s", "remaining_time": "3h 29m 31s", "loss_scale": 1.0, "consumed_samples": 961280, "global_step/max_steps": "3755/6350"}
{"lm loss": 4.90413046, "grad_norm": 0.53990644, "learning_rate": 4.092e-05, "elapsed_time_per_iteration": 4.73469377, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 15s", "remaining_time": "3h 29m 26s", "loss_scale": 1.0, "consumed_samples": 961536, "global_step/max_steps": "3756/6350"}
{"lm loss": 4.91311836, "grad_norm": 0.55244219, "learning_rate": 4.09e-05, "elapsed_time_per_iteration": 4.78897142, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 20s", "remaining_time": "3h 29m 21s", "loss_scale": 1.0, "consumed_samples": 961792, "global_step/max_steps": "3757/6350"}
{"lm loss": 4.91370201, "grad_norm": 0.52815545, "learning_rate": 4.087e-05, "elapsed_time_per_iteration": 4.77295017, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 24s", "remaining_time": "3h 29m 16s", "loss_scale": 1.0, "consumed_samples": 962048, "global_step/max_steps": "3758/6350"}
{"lm loss": 4.89992809, "grad_norm": 0.71264279, "learning_rate": 4.085e-05, "elapsed_time_per_iteration": 4.71496415, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 29s", "remaining_time": "3h 29m 11s", "loss_scale": 1.0, "consumed_samples": 962304, "global_step/max_steps": "3759/6350"}
{"lm loss": 4.86645365, "grad_norm": 0.56023651, "learning_rate": 4.082e-05, "elapsed_time_per_iteration": 4.69552469, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 34s", "remaining_time": "3h 29m 6s", "loss_scale": 1.0, "consumed_samples": 962560, "global_step/max_steps": "3760/6350"}
{"lm loss": 4.90833139, "grad_norm": 0.56289971, "learning_rate": 4.08e-05, "elapsed_time_per_iteration": 5.22832966, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 39s", "remaining_time": "3h 29m 2s", "loss_scale": 1.0, "consumed_samples": 962816, "global_step/max_steps": "3761/6350"}
{"lm loss": 4.90071487, "grad_norm": 0.5951488, "learning_rate": 4.077e-05, "elapsed_time_per_iteration": 4.74286437, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 44s", "remaining_time": "3h 28m 57s", "loss_scale": 1.0, "consumed_samples": 963072, "global_step/max_steps": "3762/6350"}
{"lm loss": 4.92147207, "grad_norm": 0.59808815, "learning_rate": 4.075e-05, "elapsed_time_per_iteration": 4.72004151, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 49s", "remaining_time": "3h 28m 52s", "loss_scale": 1.0, "consumed_samples": 963328, "global_step/max_steps": "3763/6350"}
{"lm loss": 4.92053747, "grad_norm": 0.62758636, "learning_rate": 4.072e-05, "elapsed_time_per_iteration": 4.70734978, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 53s", "remaining_time": "3h 28m 47s", "loss_scale": 1.0, "consumed_samples": 963584, "global_step/max_steps": "3764/6350"}
{"lm loss": 4.90583277, "grad_norm": 0.57346886, "learning_rate": 4.07e-05, "elapsed_time_per_iteration": 4.66614985, "memory(GiB)": 28.03, "elapsed_time": "5h 3m 58s", "remaining_time": "3h 28m 42s", "loss_scale": 1.0, "consumed_samples": 963840, "global_step/max_steps": "3765/6350"}
{"lm loss": 4.91186237, "grad_norm": 0.6424067, "learning_rate": 4.067e-05, "elapsed_time_per_iteration": 4.70761251, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 3s", "remaining_time": "3h 28m 37s", "loss_scale": 1.0, "consumed_samples": 964096, "global_step/max_steps": "3766/6350"}
{"lm loss": 4.90963221, "grad_norm": 0.75641567, "learning_rate": 4.065e-05, "elapsed_time_per_iteration": 4.74879432, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 7s", "remaining_time": "3h 28m 32s", "loss_scale": 1.0, "consumed_samples": 964352, "global_step/max_steps": "3767/6350"}
{"lm loss": 4.90044641, "grad_norm": 0.77428502, "learning_rate": 4.063e-05, "elapsed_time_per_iteration": 4.7328577, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 12s", "remaining_time": "3h 28m 27s", "loss_scale": 1.0, "consumed_samples": 964608, "global_step/max_steps": "3768/6350"}
{"lm loss": 4.90810728, "grad_norm": 0.60362786, "learning_rate": 4.06e-05, "elapsed_time_per_iteration": 4.6874876, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 17s", "remaining_time": "3h 28m 22s", "loss_scale": 1.0, "consumed_samples": 964864, "global_step/max_steps": "3769/6350"}
{"lm loss": 4.91904497, "grad_norm": 0.55783814, "learning_rate": 4.058e-05, "elapsed_time_per_iteration": 4.97500372, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 22s", "remaining_time": "3h 28m 17s", "loss_scale": 1.0, "consumed_samples": 965120, "global_step/max_steps": "3770/6350"}
{"lm loss": 4.90326881, "grad_norm": 0.56670636, "learning_rate": 4.055e-05, "elapsed_time_per_iteration": 4.77329922, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 27s", "remaining_time": "3h 28m 12s", "loss_scale": 1.0, "consumed_samples": 965376, "global_step/max_steps": "3771/6350"}
{"lm loss": 4.8975482, "grad_norm": 0.6478169, "learning_rate": 4.053e-05, "elapsed_time_per_iteration": 4.85433149, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 31s", "remaining_time": "3h 28m 8s", "loss_scale": 1.0, "consumed_samples": 965632, "global_step/max_steps": "3772/6350"}
{"lm loss": 4.89952898, "grad_norm": 0.67121077, "learning_rate": 4.05e-05, "elapsed_time_per_iteration": 4.75344229, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 36s", "remaining_time": "3h 28m 3s", "loss_scale": 1.0, "consumed_samples": 965888, "global_step/max_steps": "3773/6350"}
{"lm loss": 4.90164375, "grad_norm": 0.79996026, "learning_rate": 4.048e-05, "elapsed_time_per_iteration": 4.7320621, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 41s", "remaining_time": "3h 27m 58s", "loss_scale": 1.0, "consumed_samples": 966144, "global_step/max_steps": "3774/6350"}
{"lm loss": 4.88857269, "grad_norm": 0.74589121, "learning_rate": 4.045e-05, "elapsed_time_per_iteration": 4.79548907, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 46s", "remaining_time": "3h 27m 53s", "loss_scale": 1.0, "consumed_samples": 966400, "global_step/max_steps": "3775/6350"}
{"lm loss": 4.90165949, "grad_norm": 0.58771563, "learning_rate": 4.043e-05, "elapsed_time_per_iteration": 4.77138042, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 50s", "remaining_time": "3h 27m 48s", "loss_scale": 1.0, "consumed_samples": 966656, "global_step/max_steps": "3776/6350"}
{"lm loss": 4.89100266, "grad_norm": 0.57311141, "learning_rate": 4.04e-05, "elapsed_time_per_iteration": 4.86594915, "memory(GiB)": 28.03, "elapsed_time": "5h 4m 55s", "remaining_time": "3h 27m 43s", "loss_scale": 1.0, "consumed_samples": 966912, "global_step/max_steps": "3777/6350"}
{"lm loss": 4.92113972, "grad_norm": 0.73623312, "learning_rate": 4.038e-05, "elapsed_time_per_iteration": 4.74264264, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 0s", "remaining_time": "3h 27m 38s", "loss_scale": 1.0, "consumed_samples": 967168, "global_step/max_steps": "3778/6350"}
{"lm loss": 4.88589287, "grad_norm": 0.9063251, "learning_rate": 4.035e-05, "elapsed_time_per_iteration": 4.73455095, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 5s", "remaining_time": "3h 27m 33s", "loss_scale": 1.0, "consumed_samples": 967424, "global_step/max_steps": "3779/6350"}
{"lm loss": 4.90751934, "grad_norm": 0.66179073, "learning_rate": 4.033e-05, "elapsed_time_per_iteration": 4.74186301, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 10s", "remaining_time": "3h 27m 28s", "loss_scale": 1.0, "consumed_samples": 967680, "global_step/max_steps": "3780/6350"}
{"lm loss": 4.90396547, "grad_norm": 0.62994152, "learning_rate": 4.031e-05, "elapsed_time_per_iteration": 4.70250535, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 14s", "remaining_time": "3h 27m 23s", "loss_scale": 1.0, "consumed_samples": 967936, "global_step/max_steps": "3781/6350"}
{"lm loss": 4.9177084, "grad_norm": 2.40727973, "learning_rate": 4.028e-05, "elapsed_time_per_iteration": 4.74544024, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 19s", "remaining_time": "3h 27m 19s", "loss_scale": 1.0, "consumed_samples": 968192, "global_step/max_steps": "3782/6350"}
{"lm loss": 4.92151213, "grad_norm": 0.92845422, "learning_rate": 4.026e-05, "elapsed_time_per_iteration": 4.69505453, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 24s", "remaining_time": "3h 27m 14s", "loss_scale": 1.0, "consumed_samples": 968448, "global_step/max_steps": "3783/6350"}
{"lm loss": 4.90007734, "grad_norm": 1.1718837, "learning_rate": 4.023e-05, "elapsed_time_per_iteration": 5.62682319, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 29s", "remaining_time": "3h 27m 9s", "loss_scale": 1.0, "consumed_samples": 968704, "global_step/max_steps": "3784/6350"}
{"lm loss": 4.88056326, "grad_norm": 0.72551644, "learning_rate": 4.021e-05, "elapsed_time_per_iteration": 4.8027389, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 34s", "remaining_time": "3h 27m 4s", "loss_scale": 1.0, "consumed_samples": 968960, "global_step/max_steps": "3785/6350"}
{"lm loss": 4.89197397, "grad_norm": 0.92851204, "learning_rate": 4.018e-05, "elapsed_time_per_iteration": 4.72161436, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 39s", "remaining_time": "3h 26m 59s", "loss_scale": 1.0, "consumed_samples": 969216, "global_step/max_steps": "3786/6350"}
{"lm loss": 4.91251707, "grad_norm": 0.85498506, "learning_rate": 4.016e-05, "elapsed_time_per_iteration": 4.77575421, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 44s", "remaining_time": "3h 26m 55s", "loss_scale": 1.0, "consumed_samples": 969472, "global_step/max_steps": "3787/6350"}
{"lm loss": 4.90702868, "grad_norm": 0.64157373, "learning_rate": 4.013e-05, "elapsed_time_per_iteration": 4.72913957, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 48s", "remaining_time": "3h 26m 50s", "loss_scale": 1.0, "consumed_samples": 969728, "global_step/max_steps": "3788/6350"}
{"lm loss": 4.88657522, "grad_norm": 0.6949898, "learning_rate": 4.011e-05, "elapsed_time_per_iteration": 4.76994872, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 53s", "remaining_time": "3h 26m 45s", "loss_scale": 1.0, "consumed_samples": 969984, "global_step/max_steps": "3789/6350"}
{"lm loss": 4.88524961, "grad_norm": 0.66286331, "learning_rate": 4.008e-05, "elapsed_time_per_iteration": 4.83511472, "memory(GiB)": 28.03, "elapsed_time": "5h 5m 58s", "remaining_time": "3h 26m 40s", "loss_scale": 1.0, "consumed_samples": 970240, "global_step/max_steps": "3790/6350"}
{"lm loss": 4.91059875, "grad_norm": 0.64617741, "learning_rate": 4.006e-05, "elapsed_time_per_iteration": 4.73118067, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 3s", "remaining_time": "3h 26m 35s", "loss_scale": 1.0, "consumed_samples": 970496, "global_step/max_steps": "3791/6350"}
{"lm loss": 4.90436602, "grad_norm": 0.68380135, "learning_rate": 4.004e-05, "elapsed_time_per_iteration": 4.84787917, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 8s", "remaining_time": "3h 26m 30s", "loss_scale": 1.0, "consumed_samples": 970752, "global_step/max_steps": "3792/6350"}
{"lm loss": 4.90413475, "grad_norm": 0.59949434, "learning_rate": 4.001e-05, "elapsed_time_per_iteration": 5.73281336, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 13s", "remaining_time": "3h 26m 26s", "loss_scale": 1.0, "consumed_samples": 971008, "global_step/max_steps": "3793/6350"}
{"lm loss": 4.898592, "grad_norm": 0.60644948, "learning_rate": 3.999e-05, "elapsed_time_per_iteration": 4.81803417, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 18s", "remaining_time": "3h 26m 21s", "loss_scale": 1.0, "consumed_samples": 971264, "global_step/max_steps": "3794/6350"}
{"lm loss": 4.90028906, "grad_norm": 0.57430565, "learning_rate": 3.996e-05, "elapsed_time_per_iteration": 4.74860001, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 23s", "remaining_time": "3h 26m 16s", "loss_scale": 1.0, "consumed_samples": 971520, "global_step/max_steps": "3795/6350"}
{"lm loss": 4.90053892, "grad_norm": 0.61939788, "learning_rate": 3.994e-05, "elapsed_time_per_iteration": 4.77030206, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 28s", "remaining_time": "3h 26m 11s", "loss_scale": 1.0, "consumed_samples": 971776, "global_step/max_steps": "3796/6350"}
{"lm loss": 4.88301516, "grad_norm": 0.57706165, "learning_rate": 3.991e-05, "elapsed_time_per_iteration": 4.70972061, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 32s", "remaining_time": "3h 26m 6s", "loss_scale": 1.0, "consumed_samples": 972032, "global_step/max_steps": "3797/6350"}
{"lm loss": 4.87845373, "grad_norm": 0.54379046, "learning_rate": 3.989e-05, "elapsed_time_per_iteration": 5.11015701, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 37s", "remaining_time": "3h 26m 2s", "loss_scale": 1.0, "consumed_samples": 972288, "global_step/max_steps": "3798/6350"}
{"lm loss": 4.8917737, "grad_norm": 0.49706709, "learning_rate": 3.986e-05, "elapsed_time_per_iteration": 4.80327892, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 42s", "remaining_time": "3h 25m 57s", "loss_scale": 1.0, "consumed_samples": 972544, "global_step/max_steps": "3799/6350"}
{"lm loss": 4.91897488, "grad_norm": 0.50087613, "learning_rate": 3.984e-05, "elapsed_time_per_iteration": 4.76484156, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 47s", "remaining_time": "3h 25m 52s", "loss_scale": 1.0, "consumed_samples": 972800, "global_step/max_steps": "3800/6350"}
{"lm loss": 4.90963745, "grad_norm": 0.56372684, "learning_rate": 3.981e-05, "elapsed_time_per_iteration": 4.68120861, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 52s", "remaining_time": "3h 25m 47s", "loss_scale": 1.0, "consumed_samples": 973056, "global_step/max_steps": "3801/6350"}
{"lm loss": 4.90595007, "grad_norm": 0.56285924, "learning_rate": 3.979e-05, "elapsed_time_per_iteration": 4.70416975, "memory(GiB)": 28.03, "elapsed_time": "5h 6m 56s", "remaining_time": "3h 25m 42s", "loss_scale": 1.0, "consumed_samples": 973312, "global_step/max_steps": "3802/6350"}
{"lm loss": 4.89270258, "grad_norm": 0.57131141, "learning_rate": 3.977e-05, "elapsed_time_per_iteration": 4.68296361, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 1s", "remaining_time": "3h 25m 37s", "loss_scale": 1.0, "consumed_samples": 973568, "global_step/max_steps": "3803/6350"}
{"lm loss": 4.89967346, "grad_norm": 0.66657948, "learning_rate": 3.974e-05, "elapsed_time_per_iteration": 4.7100873, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 6s", "remaining_time": "3h 25m 32s", "loss_scale": 1.0, "consumed_samples": 973824, "global_step/max_steps": "3804/6350"}
{"lm loss": 4.90405416, "grad_norm": 0.70844972, "learning_rate": 3.972e-05, "elapsed_time_per_iteration": 5.61722207, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 11s", "remaining_time": "3h 25m 28s", "loss_scale": 1.0, "consumed_samples": 974080, "global_step/max_steps": "3805/6350"}
{"lm loss": 4.90665436, "grad_norm": 0.70743787, "learning_rate": 3.969e-05, "elapsed_time_per_iteration": 4.72413015, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 16s", "remaining_time": "3h 25m 23s", "loss_scale": 1.0, "consumed_samples": 974336, "global_step/max_steps": "3806/6350"}
{"lm loss": 4.88749647, "grad_norm": 0.69856548, "learning_rate": 3.967e-05, "elapsed_time_per_iteration": 4.69368744, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 21s", "remaining_time": "3h 25m 18s", "loss_scale": 1.0, "consumed_samples": 974592, "global_step/max_steps": "3807/6350"}
{"lm loss": 4.8781004, "grad_norm": 0.53875458, "learning_rate": 3.964e-05, "elapsed_time_per_iteration": 4.72363162, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 26s", "remaining_time": "3h 25m 13s", "loss_scale": 1.0, "consumed_samples": 974848, "global_step/max_steps": "3808/6350"}
{"lm loss": 4.90440512, "grad_norm": 0.49334329, "learning_rate": 3.962e-05, "elapsed_time_per_iteration": 4.73965693, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 30s", "remaining_time": "3h 25m 8s", "loss_scale": 1.0, "consumed_samples": 975104, "global_step/max_steps": "3809/6350"}
{"lm loss": 4.90579128, "grad_norm": 0.6056819, "learning_rate": 3.959e-05, "elapsed_time_per_iteration": 4.7746098, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 35s", "remaining_time": "3h 25m 3s", "loss_scale": 1.0, "consumed_samples": 975360, "global_step/max_steps": "3810/6350"}
{"lm loss": 4.90642881, "grad_norm": 0.50694793, "learning_rate": 3.957e-05, "elapsed_time_per_iteration": 4.70547318, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 40s", "remaining_time": "3h 24m 58s", "loss_scale": 1.0, "consumed_samples": 975616, "global_step/max_steps": "3811/6350"}
{"lm loss": 4.87253714, "grad_norm": 0.93350261, "learning_rate": 3.954e-05, "elapsed_time_per_iteration": 4.72081733, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 44s", "remaining_time": "3h 24m 53s", "loss_scale": 1.0, "consumed_samples": 975872, "global_step/max_steps": "3812/6350"}
{"lm loss": 4.91466045, "grad_norm": 0.47658455, "learning_rate": 3.952e-05, "elapsed_time_per_iteration": 4.77575731, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 49s", "remaining_time": "3h 24m 48s", "loss_scale": 1.0, "consumed_samples": 976128, "global_step/max_steps": "3813/6350"}
{"lm loss": 4.89466238, "grad_norm": 0.48662102, "learning_rate": 3.95e-05, "elapsed_time_per_iteration": 4.75119972, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 54s", "remaining_time": "3h 24m 44s", "loss_scale": 1.0, "consumed_samples": 976384, "global_step/max_steps": "3814/6350"}
{"lm loss": 4.86930704, "grad_norm": 0.53287143, "learning_rate": 3.947e-05, "elapsed_time_per_iteration": 4.67712021, "memory(GiB)": 28.03, "elapsed_time": "5h 7m 59s", "remaining_time": "3h 24m 39s", "loss_scale": 1.0, "consumed_samples": 976640, "global_step/max_steps": "3815/6350"}
{"lm loss": 4.91961002, "grad_norm": 0.47689822, "learning_rate": 3.945e-05, "elapsed_time_per_iteration": 4.79102421, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 3s", "remaining_time": "3h 24m 34s", "loss_scale": 1.0, "consumed_samples": 976896, "global_step/max_steps": "3816/6350"}
{"lm loss": 4.90219879, "grad_norm": 0.55721593, "learning_rate": 3.942e-05, "elapsed_time_per_iteration": 4.86584568, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 8s", "remaining_time": "3h 24m 29s", "loss_scale": 1.0, "consumed_samples": 977152, "global_step/max_steps": "3817/6350"}
{"lm loss": 4.8932519, "grad_norm": 0.4573794, "learning_rate": 3.94e-05, "elapsed_time_per_iteration": 4.81603575, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 13s", "remaining_time": "3h 24m 24s", "loss_scale": 1.0, "consumed_samples": 977408, "global_step/max_steps": "3818/6350"}
{"lm loss": 4.92039251, "grad_norm": 0.8610391, "learning_rate": 3.937e-05, "elapsed_time_per_iteration": 5.05831718, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 18s", "remaining_time": "3h 24m 19s", "loss_scale": 1.0, "consumed_samples": 977664, "global_step/max_steps": "3819/6350"}
{"lm loss": 4.90928411, "grad_norm": 0.48096487, "learning_rate": 3.935e-05, "elapsed_time_per_iteration": 4.828547, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 23s", "remaining_time": "3h 24m 14s", "loss_scale": 1.0, "consumed_samples": 977920, "global_step/max_steps": "3820/6350"}
{"lm loss": 4.90888977, "grad_norm": 0.52710235, "learning_rate": 3.932e-05, "elapsed_time_per_iteration": 4.73348427, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 28s", "remaining_time": "3h 24m 10s", "loss_scale": 1.0, "consumed_samples": 978176, "global_step/max_steps": "3821/6350"}
{"lm loss": 4.87682247, "grad_norm": 0.61228776, "learning_rate": 3.93e-05, "elapsed_time_per_iteration": 4.72744727, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 32s", "remaining_time": "3h 24m 5s", "loss_scale": 1.0, "consumed_samples": 978432, "global_step/max_steps": "3822/6350"}
{"lm loss": 4.88509417, "grad_norm": 0.70607686, "learning_rate": 3.928e-05, "elapsed_time_per_iteration": 4.72292686, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 37s", "remaining_time": "3h 24m 0s", "loss_scale": 1.0, "consumed_samples": 978688, "global_step/max_steps": "3823/6350"}
{"lm loss": 4.88914013, "grad_norm": 0.70074087, "learning_rate": 3.925e-05, "elapsed_time_per_iteration": 4.75641012, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 42s", "remaining_time": "3h 23m 55s", "loss_scale": 1.0, "consumed_samples": 978944, "global_step/max_steps": "3824/6350"}
{"lm loss": 4.87451506, "grad_norm": 0.58949351, "learning_rate": 3.923e-05, "elapsed_time_per_iteration": 4.93008447, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 47s", "remaining_time": "3h 23m 50s", "loss_scale": 1.0, "consumed_samples": 979200, "global_step/max_steps": "3825/6350"}
{"lm loss": 4.90522289, "grad_norm": 0.50279701, "learning_rate": 3.92e-05, "elapsed_time_per_iteration": 4.70609856, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 52s", "remaining_time": "3h 23m 45s", "loss_scale": 1.0, "consumed_samples": 979456, "global_step/max_steps": "3826/6350"}
{"lm loss": 4.90685415, "grad_norm": 0.53459781, "learning_rate": 3.918e-05, "elapsed_time_per_iteration": 4.81407571, "memory(GiB)": 28.03, "elapsed_time": "5h 8m 56s", "remaining_time": "3h 23m 40s", "loss_scale": 1.0, "consumed_samples": 979712, "global_step/max_steps": "3827/6350"}
{"lm loss": 4.87745762, "grad_norm": 0.73207557, "learning_rate": 3.915e-05, "elapsed_time_per_iteration": 4.73248124, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 1s", "remaining_time": "3h 23m 35s", "loss_scale": 1.0, "consumed_samples": 979968, "global_step/max_steps": "3828/6350"}
{"lm loss": 4.88221455, "grad_norm": 0.68144816, "learning_rate": 3.913e-05, "elapsed_time_per_iteration": 4.67325354, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 6s", "remaining_time": "3h 23m 30s", "loss_scale": 1.0, "consumed_samples": 980224, "global_step/max_steps": "3829/6350"}
{"lm loss": 4.88210011, "grad_norm": 0.5635581, "learning_rate": 3.91e-05, "elapsed_time_per_iteration": 5.27266264, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 11s", "remaining_time": "3h 23m 26s", "loss_scale": 1.0, "consumed_samples": 980480, "global_step/max_steps": "3830/6350"}
{"lm loss": 4.92814445, "grad_norm": 0.51199597, "learning_rate": 3.908e-05, "elapsed_time_per_iteration": 4.77888203, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 16s", "remaining_time": "3h 23m 21s", "loss_scale": 1.0, "consumed_samples": 980736, "global_step/max_steps": "3831/6350"}
{"lm loss": 4.88721418, "grad_norm": 0.49951234, "learning_rate": 3.906e-05, "elapsed_time_per_iteration": 4.76220536, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 21s", "remaining_time": "3h 23m 16s", "loss_scale": 1.0, "consumed_samples": 980992, "global_step/max_steps": "3832/6350"}
{"lm loss": 4.88619804, "grad_norm": 0.54280972, "learning_rate": 3.903e-05, "elapsed_time_per_iteration": 4.72559452, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 25s", "remaining_time": "3h 23m 11s", "loss_scale": 1.0, "consumed_samples": 981248, "global_step/max_steps": "3833/6350"}
{"lm loss": 4.89303493, "grad_norm": 0.63985151, "learning_rate": 3.901e-05, "elapsed_time_per_iteration": 4.73770857, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 30s", "remaining_time": "3h 23m 6s", "loss_scale": 1.0, "consumed_samples": 981504, "global_step/max_steps": "3834/6350"}
{"lm loss": 4.89126301, "grad_norm": 0.70596623, "learning_rate": 3.898e-05, "elapsed_time_per_iteration": 4.74661899, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 35s", "remaining_time": "3h 23m 1s", "loss_scale": 1.0, "consumed_samples": 981760, "global_step/max_steps": "3835/6350"}
{"lm loss": 4.90194416, "grad_norm": 0.66761798, "learning_rate": 3.896e-05, "elapsed_time_per_iteration": 4.70911932, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 40s", "remaining_time": "3h 22m 56s", "loss_scale": 1.0, "consumed_samples": 982016, "global_step/max_steps": "3836/6350"}
{"lm loss": 4.87674093, "grad_norm": 0.64847547, "learning_rate": 3.893e-05, "elapsed_time_per_iteration": 5.62414002, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 45s", "remaining_time": "3h 22m 52s", "loss_scale": 1.0, "consumed_samples": 982272, "global_step/max_steps": "3837/6350"}
{"lm loss": 4.90088272, "grad_norm": 0.61874354, "learning_rate": 3.891e-05, "elapsed_time_per_iteration": 4.75165129, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 50s", "remaining_time": "3h 22m 47s", "loss_scale": 1.0, "consumed_samples": 982528, "global_step/max_steps": "3838/6350"}
{"lm loss": 4.87946796, "grad_norm": 0.67680514, "learning_rate": 3.889e-05, "elapsed_time_per_iteration": 4.67995691, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 55s", "remaining_time": "3h 22m 42s", "loss_scale": 1.0, "consumed_samples": 982784, "global_step/max_steps": "3839/6350"}
{"lm loss": 4.91335535, "grad_norm": 0.90689385, "learning_rate": 3.886e-05, "elapsed_time_per_iteration": 4.7728641, "memory(GiB)": 28.03, "elapsed_time": "5h 9m 59s", "remaining_time": "3h 22m 37s", "loss_scale": 1.0, "consumed_samples": 983040, "global_step/max_steps": "3840/6350"}
{"lm loss": 4.91935825, "grad_norm": 0.8272242, "learning_rate": 3.884e-05, "elapsed_time_per_iteration": 4.72454858, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 4s", "remaining_time": "3h 22m 32s", "loss_scale": 1.0, "consumed_samples": 983296, "global_step/max_steps": "3841/6350"}
{"lm loss": 4.89537764, "grad_norm": 0.5615018, "learning_rate": 3.881e-05, "elapsed_time_per_iteration": 4.73704505, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 9s", "remaining_time": "3h 22m 27s", "loss_scale": 1.0, "consumed_samples": 983552, "global_step/max_steps": "3842/6350"}
{"lm loss": 4.88877344, "grad_norm": 0.61334288, "learning_rate": 3.879e-05, "elapsed_time_per_iteration": 5.63234472, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 14s", "remaining_time": "3h 22m 23s", "loss_scale": 1.0, "consumed_samples": 983808, "global_step/max_steps": "3843/6350"}
{"lm loss": 4.876441, "grad_norm": 0.72738308, "learning_rate": 3.876e-05, "elapsed_time_per_iteration": 4.76931691, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 19s", "remaining_time": "3h 22m 18s", "loss_scale": 1.0, "consumed_samples": 984064, "global_step/max_steps": "3844/6350"}
{"lm loss": 4.91057968, "grad_norm": 0.52099168, "learning_rate": 3.874e-05, "elapsed_time_per_iteration": 4.76069045, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 24s", "remaining_time": "3h 22m 13s", "loss_scale": 1.0, "consumed_samples": 984320, "global_step/max_steps": "3845/6350"}
{"lm loss": 4.90583134, "grad_norm": 0.54148495, "learning_rate": 3.871e-05, "elapsed_time_per_iteration": 4.78584313, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 29s", "remaining_time": "3h 22m 8s", "loss_scale": 1.0, "consumed_samples": 984576, "global_step/max_steps": "3846/6350"}
{"lm loss": 4.87764072, "grad_norm": 0.64237195, "learning_rate": 3.869e-05, "elapsed_time_per_iteration": 4.69912195, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 33s", "remaining_time": "3h 22m 3s", "loss_scale": 1.0, "consumed_samples": 984832, "global_step/max_steps": "3847/6350"}
{"lm loss": 4.90079641, "grad_norm": 0.63060617, "learning_rate": 3.867e-05, "elapsed_time_per_iteration": 4.74796891, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 38s", "remaining_time": "3h 21m 59s", "loss_scale": 1.0, "consumed_samples": 985088, "global_step/max_steps": "3848/6350"}
{"lm loss": 4.89456558, "grad_norm": 0.51469088, "learning_rate": 3.864e-05, "elapsed_time_per_iteration": 4.76930809, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 43s", "remaining_time": "3h 21m 54s", "loss_scale": 1.0, "consumed_samples": 985344, "global_step/max_steps": "3849/6350"}
{"lm loss": 4.90727234, "grad_norm": 0.57182294, "learning_rate": 3.862e-05, "elapsed_time_per_iteration": 5.63057709, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 49s", "remaining_time": "3h 21m 49s", "loss_scale": 1.0, "consumed_samples": 985600, "global_step/max_steps": "3850/6350"}
{"lm loss": 4.87959051, "grad_norm": 0.60108137, "learning_rate": 3.859e-05, "elapsed_time_per_iteration": 4.82885408, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 53s", "remaining_time": "3h 21m 44s", "loss_scale": 1.0, "consumed_samples": 985856, "global_step/max_steps": "3851/6350"}
{"lm loss": 4.90072107, "grad_norm": 0.6038627, "learning_rate": 3.857e-05, "elapsed_time_per_iteration": 4.7182126, "memory(GiB)": 28.03, "elapsed_time": "5h 10m 58s", "remaining_time": "3h 21m 40s", "loss_scale": 1.0, "consumed_samples": 986112, "global_step/max_steps": "3852/6350"}
{"lm loss": 4.87543249, "grad_norm": 0.71644288, "learning_rate": 3.854e-05, "elapsed_time_per_iteration": 4.79514909, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 3s", "remaining_time": "3h 21m 35s", "loss_scale": 1.0, "consumed_samples": 986368, "global_step/max_steps": "3853/6350"}
{"lm loss": 4.92127085, "grad_norm": 0.58145547, "learning_rate": 3.852e-05, "elapsed_time_per_iteration": 4.72902155, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 8s", "remaining_time": "3h 21m 30s", "loss_scale": 1.0, "consumed_samples": 986624, "global_step/max_steps": "3854/6350"}
{"lm loss": 4.89793158, "grad_norm": 0.56339306, "learning_rate": 3.85e-05, "elapsed_time_per_iteration": 4.78202367, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 12s", "remaining_time": "3h 21m 25s", "loss_scale": 1.0, "consumed_samples": 986880, "global_step/max_steps": "3855/6350"}
{"lm loss": 4.92565489, "grad_norm": 0.55287546, "learning_rate": 3.847e-05, "elapsed_time_per_iteration": 4.75393128, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 17s", "remaining_time": "3h 21m 20s", "loss_scale": 1.0, "consumed_samples": 987136, "global_step/max_steps": "3856/6350"}
{"lm loss": 4.89912605, "grad_norm": 0.60162336, "learning_rate": 3.845e-05, "elapsed_time_per_iteration": 4.78420281, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 22s", "remaining_time": "3h 21m 15s", "loss_scale": 1.0, "consumed_samples": 987392, "global_step/max_steps": "3857/6350"}
{"lm loss": 4.912292, "grad_norm": 0.56756932, "learning_rate": 3.842e-05, "elapsed_time_per_iteration": 4.76264453, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 27s", "remaining_time": "3h 21m 10s", "loss_scale": 1.0, "consumed_samples": 987648, "global_step/max_steps": "3858/6350"}
{"lm loss": 4.9118309, "grad_norm": 0.70508742, "learning_rate": 3.84e-05, "elapsed_time_per_iteration": 4.75279117, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 32s", "remaining_time": "3h 21m 5s", "loss_scale": 1.0, "consumed_samples": 987904, "global_step/max_steps": "3859/6350"}
{"lm loss": 4.90793133, "grad_norm": 0.73128021, "learning_rate": 3.837e-05, "elapsed_time_per_iteration": 4.74447417, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 36s", "remaining_time": "3h 21m 0s", "loss_scale": 1.0, "consumed_samples": 988160, "global_step/max_steps": "3860/6350"}
{"lm loss": 4.90888929, "grad_norm": 0.52359498, "learning_rate": 3.835e-05, "elapsed_time_per_iteration": 4.78163791, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 41s", "remaining_time": "3h 20m 56s", "loss_scale": 1.0, "consumed_samples": 988416, "global_step/max_steps": "3861/6350"}
{"lm loss": 4.89175415, "grad_norm": 0.62816572, "learning_rate": 3.833e-05, "elapsed_time_per_iteration": 4.7542417, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 46s", "remaining_time": "3h 20m 51s", "loss_scale": 1.0, "consumed_samples": 988672, "global_step/max_steps": "3862/6350"}
{"lm loss": 4.89993286, "grad_norm": 0.4430047, "learning_rate": 3.83e-05, "elapsed_time_per_iteration": 4.86373758, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 51s", "remaining_time": "3h 20m 46s", "loss_scale": 1.0, "consumed_samples": 988928, "global_step/max_steps": "3863/6350"}
{"lm loss": 4.88869095, "grad_norm": 0.52186579, "learning_rate": 3.828e-05, "elapsed_time_per_iteration": 4.79132485, "memory(GiB)": 28.03, "elapsed_time": "5h 11m 55s", "remaining_time": "3h 20m 41s", "loss_scale": 1.0, "consumed_samples": 989184, "global_step/max_steps": "3864/6350"}
{"lm loss": 4.90364122, "grad_norm": 0.52532613, "learning_rate": 3.825e-05, "elapsed_time_per_iteration": 4.77782536, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 0s", "remaining_time": "3h 20m 36s", "loss_scale": 1.0, "consumed_samples": 989440, "global_step/max_steps": "3865/6350"}
{"lm loss": 4.87723303, "grad_norm": 0.60290587, "learning_rate": 3.823e-05, "elapsed_time_per_iteration": 4.75739145, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 5s", "remaining_time": "3h 20m 31s", "loss_scale": 1.0, "consumed_samples": 989696, "global_step/max_steps": "3866/6350"}
{"lm loss": 4.89712572, "grad_norm": 0.83932716, "learning_rate": 3.82e-05, "elapsed_time_per_iteration": 5.43805957, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 10s", "remaining_time": "3h 20m 27s", "loss_scale": 1.0, "consumed_samples": 989952, "global_step/max_steps": "3867/6350"}
{"lm loss": 4.92070389, "grad_norm": 0.84552056, "learning_rate": 3.818e-05, "elapsed_time_per_iteration": 4.70719767, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 15s", "remaining_time": "3h 20m 22s", "loss_scale": 1.0, "consumed_samples": 990208, "global_step/max_steps": "3868/6350"}
{"lm loss": 4.88612604, "grad_norm": 0.65629119, "learning_rate": 3.816e-05, "elapsed_time_per_iteration": 4.83959866, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 20s", "remaining_time": "3h 20m 17s", "loss_scale": 1.0, "consumed_samples": 990464, "global_step/max_steps": "3869/6350"}
{"lm loss": 4.85818768, "grad_norm": 1.65643477, "learning_rate": 3.813e-05, "elapsed_time_per_iteration": 5.40677476, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 25s", "remaining_time": "3h 20m 12s", "loss_scale": 1.0, "consumed_samples": 990720, "global_step/max_steps": "3870/6350"}
{"lm loss": 4.93231726, "grad_norm": 0.69629371, "learning_rate": 3.811e-05, "elapsed_time_per_iteration": 4.70669198, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 30s", "remaining_time": "3h 20m 7s", "loss_scale": 1.0, "consumed_samples": 990976, "global_step/max_steps": "3871/6350"}
{"lm loss": 4.897089, "grad_norm": 0.87827355, "learning_rate": 3.808e-05, "elapsed_time_per_iteration": 4.72190404, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 35s", "remaining_time": "3h 20m 3s", "loss_scale": 1.0, "consumed_samples": 991232, "global_step/max_steps": "3872/6350"}
{"lm loss": 4.9003644, "grad_norm": 0.81795377, "learning_rate": 3.806e-05, "elapsed_time_per_iteration": 4.7771349, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 40s", "remaining_time": "3h 19m 58s", "loss_scale": 1.0, "consumed_samples": 991488, "global_step/max_steps": "3873/6350"}
{"lm loss": 4.8964076, "grad_norm": 0.61927372, "learning_rate": 3.803e-05, "elapsed_time_per_iteration": 4.67408204, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 44s", "remaining_time": "3h 19m 53s", "loss_scale": 1.0, "consumed_samples": 991744, "global_step/max_steps": "3874/6350"}
{"lm loss": 4.91327953, "grad_norm": 0.61584926, "learning_rate": 3.801e-05, "elapsed_time_per_iteration": 4.78100133, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 49s", "remaining_time": "3h 19m 48s", "loss_scale": 1.0, "consumed_samples": 992000, "global_step/max_steps": "3875/6350"}
{"lm loss": 4.87559605, "grad_norm": 0.72870266, "learning_rate": 3.799e-05, "elapsed_time_per_iteration": 4.71390104, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 54s", "remaining_time": "3h 19m 43s", "loss_scale": 1.0, "consumed_samples": 992256, "global_step/max_steps": "3876/6350"}
{"lm loss": 4.89925814, "grad_norm": 0.79630893, "learning_rate": 3.796e-05, "elapsed_time_per_iteration": 4.75662303, "memory(GiB)": 28.03, "elapsed_time": "5h 12m 59s", "remaining_time": "3h 19m 38s", "loss_scale": 1.0, "consumed_samples": 992512, "global_step/max_steps": "3877/6350"}
{"lm loss": 4.88661146, "grad_norm": 0.53155082, "learning_rate": 3.794e-05, "elapsed_time_per_iteration": 4.7635529, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 3s", "remaining_time": "3h 19m 33s", "loss_scale": 1.0, "consumed_samples": 992768, "global_step/max_steps": "3878/6350"}
{"lm loss": 4.90733147, "grad_norm": 0.59387833, "learning_rate": 3.791e-05, "elapsed_time_per_iteration": 4.73036003, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 8s", "remaining_time": "3h 19m 28s", "loss_scale": 1.0, "consumed_samples": 993024, "global_step/max_steps": "3879/6350"}
{"lm loss": 4.88836718, "grad_norm": 0.84933829, "learning_rate": 3.789e-05, "elapsed_time_per_iteration": 4.70727587, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 13s", "remaining_time": "3h 19m 23s", "loss_scale": 1.0, "consumed_samples": 993280, "global_step/max_steps": "3880/6350"}
{"lm loss": 4.8799777, "grad_norm": 0.65677619, "learning_rate": 3.786e-05, "elapsed_time_per_iteration": 4.71257353, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 17s", "remaining_time": "3h 19m 18s", "loss_scale": 1.0, "consumed_samples": 993536, "global_step/max_steps": "3881/6350"}
{"lm loss": 4.87800932, "grad_norm": 0.51480323, "learning_rate": 3.784e-05, "elapsed_time_per_iteration": 4.7534759, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 22s", "remaining_time": "3h 19m 13s", "loss_scale": 1.0, "consumed_samples": 993792, "global_step/max_steps": "3882/6350"}
{"lm loss": 4.86565542, "grad_norm": 0.56148261, "learning_rate": 3.782e-05, "elapsed_time_per_iteration": 5.66844654, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 28s", "remaining_time": "3h 19m 9s", "loss_scale": 1.0, "consumed_samples": 994048, "global_step/max_steps": "3883/6350"}
{"lm loss": 4.88804722, "grad_norm": 0.68762141, "learning_rate": 3.779e-05, "elapsed_time_per_iteration": 4.72840643, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 33s", "remaining_time": "3h 19m 4s", "loss_scale": 1.0, "consumed_samples": 994304, "global_step/max_steps": "3884/6350"}
{"lm loss": 4.9049201, "grad_norm": 0.52109909, "learning_rate": 3.777e-05, "elapsed_time_per_iteration": 5.46633363, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 38s", "remaining_time": "3h 19m 0s", "loss_scale": 1.0, "consumed_samples": 994560, "global_step/max_steps": "3885/6350"}
{"lm loss": 4.90724039, "grad_norm": 0.47643867, "learning_rate": 3.774e-05, "elapsed_time_per_iteration": 4.7992363, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 43s", "remaining_time": "3h 18m 55s", "loss_scale": 1.0, "consumed_samples": 994816, "global_step/max_steps": "3886/6350"}
{"lm loss": 4.8669076, "grad_norm": 0.50709593, "learning_rate": 3.772e-05, "elapsed_time_per_iteration": 4.69854498, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 48s", "remaining_time": "3h 18m 50s", "loss_scale": 1.0, "consumed_samples": 995072, "global_step/max_steps": "3887/6350"}
{"lm loss": 4.8753314, "grad_norm": 0.51075447, "learning_rate": 3.769e-05, "elapsed_time_per_iteration": 4.78988671, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 52s", "remaining_time": "3h 18m 45s", "loss_scale": 1.0, "consumed_samples": 995328, "global_step/max_steps": "3888/6350"}
{"lm loss": 4.88243198, "grad_norm": 0.55282092, "learning_rate": 3.767e-05, "elapsed_time_per_iteration": 5.55406308, "memory(GiB)": 28.03, "elapsed_time": "5h 13m 58s", "remaining_time": "3h 18m 41s", "loss_scale": 1.0, "consumed_samples": 995584, "global_step/max_steps": "3889/6350"}
{"lm loss": 4.91074181, "grad_norm": 0.52208805, "learning_rate": 3.765e-05, "elapsed_time_per_iteration": 4.89369917, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 3s", "remaining_time": "3h 18m 36s", "loss_scale": 1.0, "consumed_samples": 995840, "global_step/max_steps": "3890/6350"}
{"lm loss": 4.88227367, "grad_norm": 0.46864948, "learning_rate": 3.762e-05, "elapsed_time_per_iteration": 4.74582887, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 8s", "remaining_time": "3h 18m 31s", "loss_scale": 1.0, "consumed_samples": 996096, "global_step/max_steps": "3891/6350"}
{"lm loss": 4.89497614, "grad_norm": 0.57376403, "learning_rate": 3.76e-05, "elapsed_time_per_iteration": 4.64318275, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 12s", "remaining_time": "3h 18m 26s", "loss_scale": 1.0, "consumed_samples": 996352, "global_step/max_steps": "3892/6350"}
{"lm loss": 4.92047739, "grad_norm": 0.58351821, "learning_rate": 3.757e-05, "elapsed_time_per_iteration": 4.86803889, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 17s", "remaining_time": "3h 18m 21s", "loss_scale": 1.0, "consumed_samples": 996608, "global_step/max_steps": "3893/6350"}
{"lm loss": 4.88565874, "grad_norm": 0.56194919, "learning_rate": 3.755e-05, "elapsed_time_per_iteration": 4.80582738, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 22s", "remaining_time": "3h 18m 16s", "loss_scale": 1.0, "consumed_samples": 996864, "global_step/max_steps": "3894/6350"}
{"lm loss": 4.92948914, "grad_norm": 0.50155234, "learning_rate": 3.753e-05, "elapsed_time_per_iteration": 4.71506286, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 27s", "remaining_time": "3h 18m 11s", "loss_scale": 1.0, "consumed_samples": 997120, "global_step/max_steps": "3895/6350"}
{"lm loss": 4.87656164, "grad_norm": 0.49747473, "learning_rate": 3.75e-05, "elapsed_time_per_iteration": 4.77778268, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 31s", "remaining_time": "3h 18m 6s", "loss_scale": 1.0, "consumed_samples": 997376, "global_step/max_steps": "3896/6350"}
{"lm loss": 4.90944195, "grad_norm": 0.4842079, "learning_rate": 3.748e-05, "elapsed_time_per_iteration": 4.75748158, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 36s", "remaining_time": "3h 18m 2s", "loss_scale": 1.0, "consumed_samples": 997632, "global_step/max_steps": "3897/6350"}
{"lm loss": 4.87374353, "grad_norm": 0.48684779, "learning_rate": 3.745e-05, "elapsed_time_per_iteration": 4.73545122, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 41s", "remaining_time": "3h 17m 57s", "loss_scale": 1.0, "consumed_samples": 997888, "global_step/max_steps": "3898/6350"}
{"lm loss": 4.88011551, "grad_norm": 0.47303402, "learning_rate": 3.743e-05, "elapsed_time_per_iteration": 4.73276091, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 46s", "remaining_time": "3h 17m 52s", "loss_scale": 1.0, "consumed_samples": 998144, "global_step/max_steps": "3899/6350"}
{"lm loss": 4.88387489, "grad_norm": 0.5560118, "learning_rate": 3.74e-05, "elapsed_time_per_iteration": 4.86707449, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 50s", "remaining_time": "3h 17m 47s", "loss_scale": 1.0, "consumed_samples": 998400, "global_step/max_steps": "3900/6350"}
{"lm loss": 4.91170406, "grad_norm": 0.57682109, "learning_rate": 3.738e-05, "elapsed_time_per_iteration": 4.8034935, "memory(GiB)": 28.03, "elapsed_time": "5h 14m 55s", "remaining_time": "3h 17m 42s", "loss_scale": 1.0, "consumed_samples": 998656, "global_step/max_steps": "3901/6350"}
{"lm loss": 4.89941645, "grad_norm": 0.56707579, "learning_rate": 3.736e-05, "elapsed_time_per_iteration": 4.76162434, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 0s", "remaining_time": "3h 17m 37s", "loss_scale": 1.0, "consumed_samples": 998912, "global_step/max_steps": "3902/6350"}
{"lm loss": 4.89227724, "grad_norm": 0.54900205, "learning_rate": 3.733e-05, "elapsed_time_per_iteration": 4.71307445, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 5s", "remaining_time": "3h 17m 32s", "loss_scale": 1.0, "consumed_samples": 999168, "global_step/max_steps": "3903/6350"}
{"lm loss": 4.89811802, "grad_norm": 0.4563075, "learning_rate": 3.731e-05, "elapsed_time_per_iteration": 4.7208693, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 9s", "remaining_time": "3h 17m 27s", "loss_scale": 1.0, "consumed_samples": 999424, "global_step/max_steps": "3904/6350"}
{"lm loss": 4.90411949, "grad_norm": 0.87877643, "learning_rate": 3.728e-05, "elapsed_time_per_iteration": 5.69307113, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 15s", "remaining_time": "3h 17m 23s", "loss_scale": 1.0, "consumed_samples": 999680, "global_step/max_steps": "3905/6350"}
{"lm loss": 4.90260553, "grad_norm": 0.483789, "learning_rate": 3.726e-05, "elapsed_time_per_iteration": 4.76410198, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 20s", "remaining_time": "3h 17m 18s", "loss_scale": 1.0, "consumed_samples": 999936, "global_step/max_steps": "3906/6350"}
{"lm loss": 4.89088535, "grad_norm": 0.41134429, "learning_rate": 3.724e-05, "elapsed_time_per_iteration": 4.68524718, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 25s", "remaining_time": "3h 17m 13s", "loss_scale": 1.0, "consumed_samples": 1000192, "global_step/max_steps": "3907/6350"}
{"lm loss": 4.89854145, "grad_norm": 0.46411955, "learning_rate": 3.721e-05, "elapsed_time_per_iteration": 4.66735697, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 29s", "remaining_time": "3h 17m 8s", "loss_scale": 1.0, "consumed_samples": 1000448, "global_step/max_steps": "3908/6350"}
{"lm loss": 4.90299511, "grad_norm": 0.45100123, "learning_rate": 3.719e-05, "elapsed_time_per_iteration": 4.65870261, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 34s", "remaining_time": "3h 17m 3s", "loss_scale": 1.0, "consumed_samples": 1000704, "global_step/max_steps": "3909/6350"}
{"lm loss": 4.89378357, "grad_norm": 0.52677703, "learning_rate": 3.716e-05, "elapsed_time_per_iteration": 4.68104482, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 39s", "remaining_time": "3h 16m 58s", "loss_scale": 1.0, "consumed_samples": 1000960, "global_step/max_steps": "3910/6350"}
{"lm loss": 4.88951254, "grad_norm": 0.55334425, "learning_rate": 3.714e-05, "elapsed_time_per_iteration": 4.691679, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 43s", "remaining_time": "3h 16m 53s", "loss_scale": 1.0, "consumed_samples": 1001216, "global_step/max_steps": "3911/6350"}
{"lm loss": 4.8935442, "grad_norm": 0.60678589, "learning_rate": 3.711e-05, "elapsed_time_per_iteration": 4.68086958, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 48s", "remaining_time": "3h 16m 48s", "loss_scale": 1.0, "consumed_samples": 1001472, "global_step/max_steps": "3912/6350"}
{"lm loss": 4.89124632, "grad_norm": 0.69348848, "learning_rate": 3.709e-05, "elapsed_time_per_iteration": 4.78525424, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 53s", "remaining_time": "3h 16m 44s", "loss_scale": 1.0, "consumed_samples": 1001728, "global_step/max_steps": "3913/6350"}
{"lm loss": 4.89733791, "grad_norm": 0.76581752, "learning_rate": 3.707e-05, "elapsed_time_per_iteration": 4.73987937, "memory(GiB)": 28.03, "elapsed_time": "5h 15m 58s", "remaining_time": "3h 16m 39s", "loss_scale": 1.0, "consumed_samples": 1001984, "global_step/max_steps": "3914/6350"}
{"lm loss": 4.91001701, "grad_norm": 0.61747366, "learning_rate": 3.704e-05, "elapsed_time_per_iteration": 4.76765132, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 2s", "remaining_time": "3h 16m 34s", "loss_scale": 1.0, "consumed_samples": 1002240, "global_step/max_steps": "3915/6350"}
{"lm loss": 4.91024971, "grad_norm": 0.55995053, "learning_rate": 3.702e-05, "elapsed_time_per_iteration": 4.63628602, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 7s", "remaining_time": "3h 16m 29s", "loss_scale": 1.0, "consumed_samples": 1002496, "global_step/max_steps": "3916/6350"}
{"lm loss": 4.89556885, "grad_norm": 1.42154753, "learning_rate": 3.699e-05, "elapsed_time_per_iteration": 4.6455636, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 12s", "remaining_time": "3h 16m 24s", "loss_scale": 1.0, "consumed_samples": 1002752, "global_step/max_steps": "3917/6350"}
{"lm loss": 4.86904097, "grad_norm": 0.54681784, "learning_rate": 3.697e-05, "elapsed_time_per_iteration": 4.72846413, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 16s", "remaining_time": "3h 16m 19s", "loss_scale": 1.0, "consumed_samples": 1003008, "global_step/max_steps": "3918/6350"}
{"lm loss": 4.9062438, "grad_norm": 0.61304682, "learning_rate": 3.695e-05, "elapsed_time_per_iteration": 5.65601826, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 22s", "remaining_time": "3h 16m 15s", "loss_scale": 1.0, "consumed_samples": 1003264, "global_step/max_steps": "3919/6350"}
{"lm loss": 4.88073444, "grad_norm": 0.73918843, "learning_rate": 3.692e-05, "elapsed_time_per_iteration": 4.69214869, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 27s", "remaining_time": "3h 16m 10s", "loss_scale": 1.0, "consumed_samples": 1003520, "global_step/max_steps": "3920/6350"}
{"lm loss": 4.87610817, "grad_norm": 0.74421024, "learning_rate": 3.69e-05, "elapsed_time_per_iteration": 4.94816065, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 32s", "remaining_time": "3h 16m 5s", "loss_scale": 1.0, "consumed_samples": 1003776, "global_step/max_steps": "3921/6350"}
{"lm loss": 4.86257792, "grad_norm": 0.56607282, "learning_rate": 3.687e-05, "elapsed_time_per_iteration": 4.61582708, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 36s", "remaining_time": "3h 16m 0s", "loss_scale": 1.0, "consumed_samples": 1004032, "global_step/max_steps": "3922/6350"}
{"lm loss": 4.88331223, "grad_norm": 0.66841567, "learning_rate": 3.685e-05, "elapsed_time_per_iteration": 4.70657396, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 41s", "remaining_time": "3h 15m 55s", "loss_scale": 1.0, "consumed_samples": 1004288, "global_step/max_steps": "3923/6350"}
{"lm loss": 4.88071966, "grad_norm": 0.94713354, "learning_rate": 3.683e-05, "elapsed_time_per_iteration": 4.74271703, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 46s", "remaining_time": "3h 15m 50s", "loss_scale": 1.0, "consumed_samples": 1004544, "global_step/max_steps": "3924/6350"}
{"lm loss": 4.89640522, "grad_norm": 0.63181961, "learning_rate": 3.68e-05, "elapsed_time_per_iteration": 4.74488688, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 50s", "remaining_time": "3h 15m 45s", "loss_scale": 1.0, "consumed_samples": 1004800, "global_step/max_steps": "3925/6350"}
{"lm loss": 4.88129044, "grad_norm": 0.57964361, "learning_rate": 3.678e-05, "elapsed_time_per_iteration": 4.7799871, "memory(GiB)": 28.03, "elapsed_time": "5h 16m 55s", "remaining_time": "3h 15m 40s", "loss_scale": 1.0, "consumed_samples": 1005056, "global_step/max_steps": "3926/6350"}
{"lm loss": 4.88366604, "grad_norm": 0.70455116, "learning_rate": 3.675e-05, "elapsed_time_per_iteration": 4.75685024, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 0s", "remaining_time": "3h 15m 35s", "loss_scale": 1.0, "consumed_samples": 1005312, "global_step/max_steps": "3927/6350"}
{"lm loss": 4.89350414, "grad_norm": 0.66118258, "learning_rate": 3.673e-05, "elapsed_time_per_iteration": 4.69190335, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 5s", "remaining_time": "3h 15m 30s", "loss_scale": 1.0, "consumed_samples": 1005568, "global_step/max_steps": "3928/6350"}
{"lm loss": 4.88316298, "grad_norm": 0.72779012, "learning_rate": 3.67e-05, "elapsed_time_per_iteration": 4.84126329, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 9s", "remaining_time": "3h 15m 26s", "loss_scale": 1.0, "consumed_samples": 1005824, "global_step/max_steps": "3929/6350"}
{"lm loss": 4.91195869, "grad_norm": 0.53571814, "learning_rate": 3.668e-05, "elapsed_time_per_iteration": 4.77050734, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 14s", "remaining_time": "3h 15m 21s", "loss_scale": 1.0, "consumed_samples": 1006080, "global_step/max_steps": "3930/6350"}
{"lm loss": 4.90528679, "grad_norm": 0.66532028, "learning_rate": 3.666e-05, "elapsed_time_per_iteration": 4.69858074, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 19s", "remaining_time": "3h 15m 16s", "loss_scale": 1.0, "consumed_samples": 1006336, "global_step/max_steps": "3931/6350"}
{"lm loss": 4.91760826, "grad_norm": 0.78455192, "learning_rate": 3.663e-05, "elapsed_time_per_iteration": 5.54093838, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 24s", "remaining_time": "3h 15m 11s", "loss_scale": 1.0, "consumed_samples": 1006592, "global_step/max_steps": "3932/6350"}
{"lm loss": 4.90017653, "grad_norm": 0.57645833, "learning_rate": 3.661e-05, "elapsed_time_per_iteration": 4.70409131, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 29s", "remaining_time": "3h 15m 6s", "loss_scale": 1.0, "consumed_samples": 1006848, "global_step/max_steps": "3933/6350"}
{"lm loss": 4.92673063, "grad_norm": 0.54924732, "learning_rate": 3.658e-05, "elapsed_time_per_iteration": 4.81822991, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 34s", "remaining_time": "3h 15m 1s", "loss_scale": 1.0, "consumed_samples": 1007104, "global_step/max_steps": "3934/6350"}
{"lm loss": 4.91254902, "grad_norm": 0.61727214, "learning_rate": 3.656e-05, "elapsed_time_per_iteration": 5.73464298, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 40s", "remaining_time": "3h 14m 57s", "loss_scale": 1.0, "consumed_samples": 1007360, "global_step/max_steps": "3935/6350"}
{"lm loss": 4.89764118, "grad_norm": 0.61676049, "learning_rate": 3.654e-05, "elapsed_time_per_iteration": 5.57452631, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 45s", "remaining_time": "3h 14m 53s", "loss_scale": 1.0, "consumed_samples": 1007616, "global_step/max_steps": "3936/6350"}
{"lm loss": 4.8970418, "grad_norm": 0.58385497, "learning_rate": 3.651e-05, "elapsed_time_per_iteration": 4.74232411, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 50s", "remaining_time": "3h 14m 48s", "loss_scale": 1.0, "consumed_samples": 1007872, "global_step/max_steps": "3937/6350"}
{"lm loss": 4.89587545, "grad_norm": 0.58704704, "learning_rate": 3.649e-05, "elapsed_time_per_iteration": 4.74904466, "memory(GiB)": 28.03, "elapsed_time": "5h 17m 55s", "remaining_time": "3h 14m 43s", "loss_scale": 1.0, "consumed_samples": 1008128, "global_step/max_steps": "3938/6350"}
{"lm loss": 4.87765169, "grad_norm": 0.58705741, "learning_rate": 3.646e-05, "elapsed_time_per_iteration": 4.80901265, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 0s", "remaining_time": "3h 14m 38s", "loss_scale": 1.0, "consumed_samples": 1008384, "global_step/max_steps": "3939/6350"}
{"lm loss": 4.88269138, "grad_norm": 0.53979629, "learning_rate": 3.644e-05, "elapsed_time_per_iteration": 5.1013093, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 5s", "remaining_time": "3h 14m 33s", "loss_scale": 1.0, "consumed_samples": 1008640, "global_step/max_steps": "3940/6350"}
{"lm loss": 4.88057804, "grad_norm": 0.59944123, "learning_rate": 3.642e-05, "elapsed_time_per_iteration": 4.76049876, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 9s", "remaining_time": "3h 14m 29s", "loss_scale": 1.0, "consumed_samples": 1008896, "global_step/max_steps": "3941/6350"}
{"lm loss": 4.8921771, "grad_norm": 0.51665378, "learning_rate": 3.639e-05, "elapsed_time_per_iteration": 4.71841335, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 14s", "remaining_time": "3h 14m 24s", "loss_scale": 1.0, "consumed_samples": 1009152, "global_step/max_steps": "3942/6350"}
{"lm loss": 4.89969587, "grad_norm": 0.53029633, "learning_rate": 3.637e-05, "elapsed_time_per_iteration": 4.70593691, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 19s", "remaining_time": "3h 14m 19s", "loss_scale": 1.0, "consumed_samples": 1009408, "global_step/max_steps": "3943/6350"}
{"lm loss": 4.90048361, "grad_norm": 0.50739741, "learning_rate": 3.634e-05, "elapsed_time_per_iteration": 4.73617744, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 24s", "remaining_time": "3h 14m 14s", "loss_scale": 1.0, "consumed_samples": 1009664, "global_step/max_steps": "3944/6350"}
{"lm loss": 4.8971386, "grad_norm": 0.52177835, "learning_rate": 3.632e-05, "elapsed_time_per_iteration": 4.71503162, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 28s", "remaining_time": "3h 14m 9s", "loss_scale": 1.0, "consumed_samples": 1009920, "global_step/max_steps": "3945/6350"}
{"lm loss": 4.88599825, "grad_norm": 0.51735431, "learning_rate": 3.63e-05, "elapsed_time_per_iteration": 5.30391908, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 34s", "remaining_time": "3h 14m 4s", "loss_scale": 1.0, "consumed_samples": 1010176, "global_step/max_steps": "3946/6350"}
{"lm loss": 4.89011145, "grad_norm": 0.5765658, "learning_rate": 3.627e-05, "elapsed_time_per_iteration": 4.7265594, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 38s", "remaining_time": "3h 13m 59s", "loss_scale": 1.0, "consumed_samples": 1010432, "global_step/max_steps": "3947/6350"}
{"lm loss": 4.89902544, "grad_norm": 0.49444962, "learning_rate": 3.625e-05, "elapsed_time_per_iteration": 4.69521928, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 43s", "remaining_time": "3h 13m 54s", "loss_scale": 1.0, "consumed_samples": 1010688, "global_step/max_steps": "3948/6350"}
{"lm loss": 4.87908888, "grad_norm": 0.58071947, "learning_rate": 3.622e-05, "elapsed_time_per_iteration": 4.71557093, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 48s", "remaining_time": "3h 13m 50s", "loss_scale": 1.0, "consumed_samples": 1010944, "global_step/max_steps": "3949/6350"}
{"lm loss": 4.90559626, "grad_norm": 0.62295103, "learning_rate": 3.62e-05, "elapsed_time_per_iteration": 4.71881771, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 52s", "remaining_time": "3h 13m 45s", "loss_scale": 1.0, "consumed_samples": 1011200, "global_step/max_steps": "3950/6350"}
{"lm loss": 4.89752007, "grad_norm": 0.52342296, "learning_rate": 3.618e-05, "elapsed_time_per_iteration": 4.65993834, "memory(GiB)": 28.03, "elapsed_time": "5h 18m 57s", "remaining_time": "3h 13m 40s", "loss_scale": 1.0, "consumed_samples": 1011456, "global_step/max_steps": "3951/6350"}
{"lm loss": 4.89407349, "grad_norm": 0.57662398, "learning_rate": 3.615e-05, "elapsed_time_per_iteration": 4.79011798, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 2s", "remaining_time": "3h 13m 35s", "loss_scale": 1.0, "consumed_samples": 1011712, "global_step/max_steps": "3952/6350"}
{"lm loss": 4.89563513, "grad_norm": 0.58526361, "learning_rate": 3.613e-05, "elapsed_time_per_iteration": 4.70637107, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 7s", "remaining_time": "3h 13m 30s", "loss_scale": 1.0, "consumed_samples": 1011968, "global_step/max_steps": "3953/6350"}
{"lm loss": 4.88094044, "grad_norm": 0.47300994, "learning_rate": 3.61e-05, "elapsed_time_per_iteration": 4.76931095, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 11s", "remaining_time": "3h 13m 25s", "loss_scale": 1.0, "consumed_samples": 1012224, "global_step/max_steps": "3954/6350"}
{"lm loss": 4.89524841, "grad_norm": 0.63538063, "learning_rate": 3.608e-05, "elapsed_time_per_iteration": 4.69403911, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 16s", "remaining_time": "3h 13m 20s", "loss_scale": 1.0, "consumed_samples": 1012480, "global_step/max_steps": "3955/6350"}
{"lm loss": 4.92311287, "grad_norm": 0.59117872, "learning_rate": 3.606e-05, "elapsed_time_per_iteration": 4.68895197, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 21s", "remaining_time": "3h 13m 15s", "loss_scale": 1.0, "consumed_samples": 1012736, "global_step/max_steps": "3956/6350"}
{"lm loss": 4.88814926, "grad_norm": 0.74190682, "learning_rate": 3.603e-05, "elapsed_time_per_iteration": 4.65123081, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 25s", "remaining_time": "3h 13m 10s", "loss_scale": 1.0, "consumed_samples": 1012992, "global_step/max_steps": "3957/6350"}
{"lm loss": 4.9094348, "grad_norm": 0.68605596, "learning_rate": 3.601e-05, "elapsed_time_per_iteration": 4.70855308, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 30s", "remaining_time": "3h 13m 5s", "loss_scale": 1.0, "consumed_samples": 1013248, "global_step/max_steps": "3958/6350"}
{"lm loss": 4.88868761, "grad_norm": 0.52108359, "learning_rate": 3.599e-05, "elapsed_time_per_iteration": 4.78090692, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 35s", "remaining_time": "3h 13m 0s", "loss_scale": 1.0, "consumed_samples": 1013504, "global_step/max_steps": "3959/6350"}
{"lm loss": 4.90889502, "grad_norm": 0.64282435, "learning_rate": 3.596e-05, "elapsed_time_per_iteration": 5.67974877, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 41s", "remaining_time": "3h 12m 56s", "loss_scale": 1.0, "consumed_samples": 1013760, "global_step/max_steps": "3960/6350"}
{"lm loss": 4.90628242, "grad_norm": 0.55147868, "learning_rate": 3.594e-05, "elapsed_time_per_iteration": 4.65787745, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 45s", "remaining_time": "3h 12m 51s", "loss_scale": 1.0, "consumed_samples": 1014016, "global_step/max_steps": "3961/6350"}
{"lm loss": 4.89745712, "grad_norm": 0.5060609, "learning_rate": 3.591e-05, "elapsed_time_per_iteration": 4.64983082, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 50s", "remaining_time": "3h 12m 46s", "loss_scale": 1.0, "consumed_samples": 1014272, "global_step/max_steps": "3962/6350"}
{"lm loss": 4.90655851, "grad_norm": 0.52504659, "learning_rate": 3.589e-05, "elapsed_time_per_iteration": 4.72251749, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 55s", "remaining_time": "3h 12m 41s", "loss_scale": 1.0, "consumed_samples": 1014528, "global_step/max_steps": "3963/6350"}
{"lm loss": 4.89366913, "grad_norm": 0.4549627, "learning_rate": 3.587e-05, "elapsed_time_per_iteration": 4.68749881, "memory(GiB)": 28.03, "elapsed_time": "5h 19m 59s", "remaining_time": "3h 12m 36s", "loss_scale": 1.0, "consumed_samples": 1014784, "global_step/max_steps": "3964/6350"}
{"lm loss": 4.86787558, "grad_norm": 0.5845418, "learning_rate": 3.584e-05, "elapsed_time_per_iteration": 4.65339756, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 4s", "remaining_time": "3h 12m 31s", "loss_scale": 1.0, "consumed_samples": 1015040, "global_step/max_steps": "3965/6350"}
{"lm loss": 4.90428066, "grad_norm": 0.56620628, "learning_rate": 3.582e-05, "elapsed_time_per_iteration": 5.01702571, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 9s", "remaining_time": "3h 12m 27s", "loss_scale": 1.0, "consumed_samples": 1015296, "global_step/max_steps": "3966/6350"}
{"lm loss": 4.88104486, "grad_norm": 0.68149567, "learning_rate": 3.579e-05, "elapsed_time_per_iteration": 4.80273151, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 14s", "remaining_time": "3h 12m 22s", "loss_scale": 1.0, "consumed_samples": 1015552, "global_step/max_steps": "3967/6350"}
{"lm loss": 4.90487051, "grad_norm": 0.67066258, "learning_rate": 3.577e-05, "elapsed_time_per_iteration": 4.71166945, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 19s", "remaining_time": "3h 12m 17s", "loss_scale": 1.0, "consumed_samples": 1015808, "global_step/max_steps": "3968/6350"}
{"lm loss": 4.89124966, "grad_norm": 0.53801918, "learning_rate": 3.575e-05, "elapsed_time_per_iteration": 4.74522209, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 23s", "remaining_time": "3h 12m 12s", "loss_scale": 1.0, "consumed_samples": 1016064, "global_step/max_steps": "3969/6350"}
{"lm loss": 4.88882875, "grad_norm": 0.56077945, "learning_rate": 3.572e-05, "elapsed_time_per_iteration": 4.75958848, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 28s", "remaining_time": "3h 12m 7s", "loss_scale": 1.0, "consumed_samples": 1016320, "global_step/max_steps": "3970/6350"}
{"lm loss": 4.87568903, "grad_norm": 0.51842988, "learning_rate": 3.57e-05, "elapsed_time_per_iteration": 4.74948096, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 33s", "remaining_time": "3h 12m 2s", "loss_scale": 1.0, "consumed_samples": 1016576, "global_step/max_steps": "3971/6350"}
{"lm loss": 4.89505291, "grad_norm": 0.57180423, "learning_rate": 3.567e-05, "elapsed_time_per_iteration": 4.70079899, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 37s", "remaining_time": "3h 11m 57s", "loss_scale": 1.0, "consumed_samples": 1016832, "global_step/max_steps": "3972/6350"}
{"lm loss": 4.89337969, "grad_norm": 0.54626757, "learning_rate": 3.565e-05, "elapsed_time_per_iteration": 4.82941628, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 42s", "remaining_time": "3h 11m 52s", "loss_scale": 1.0, "consumed_samples": 1017088, "global_step/max_steps": "3973/6350"}
{"lm loss": 4.88628244, "grad_norm": 0.84211564, "learning_rate": 3.563e-05, "elapsed_time_per_iteration": 4.80827904, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 47s", "remaining_time": "3h 11m 47s", "loss_scale": 1.0, "consumed_samples": 1017344, "global_step/max_steps": "3974/6350"}
{"lm loss": 4.89233017, "grad_norm": 0.76315784, "learning_rate": 3.56e-05, "elapsed_time_per_iteration": 4.688375, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 52s", "remaining_time": "3h 11m 42s", "loss_scale": 1.0, "consumed_samples": 1017600, "global_step/max_steps": "3975/6350"}
{"lm loss": 4.89853144, "grad_norm": 0.60765648, "learning_rate": 3.558e-05, "elapsed_time_per_iteration": 4.68238068, "memory(GiB)": 28.03, "elapsed_time": "5h 20m 56s", "remaining_time": "3h 11m 38s", "loss_scale": 1.0, "consumed_samples": 1017856, "global_step/max_steps": "3976/6350"}
{"lm loss": 4.89170456, "grad_norm": 0.48579541, "learning_rate": 3.556e-05, "elapsed_time_per_iteration": 4.70751238, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 1s", "remaining_time": "3h 11m 33s", "loss_scale": 1.0, "consumed_samples": 1018112, "global_step/max_steps": "3977/6350"}
{"lm loss": 4.89510822, "grad_norm": 0.57984334, "learning_rate": 3.553e-05, "elapsed_time_per_iteration": 4.66539407, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 6s", "remaining_time": "3h 11m 28s", "loss_scale": 1.0, "consumed_samples": 1018368, "global_step/max_steps": "3978/6350"}
{"lm loss": 4.90284109, "grad_norm": 0.50021368, "learning_rate": 3.551e-05, "elapsed_time_per_iteration": 4.71024704, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 11s", "remaining_time": "3h 11m 23s", "loss_scale": 1.0, "consumed_samples": 1018624, "global_step/max_steps": "3979/6350"}
{"lm loss": 4.88143444, "grad_norm": 0.55693626, "learning_rate": 3.548e-05, "elapsed_time_per_iteration": 4.61329365, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 15s", "remaining_time": "3h 11m 18s", "loss_scale": 1.0, "consumed_samples": 1018880, "global_step/max_steps": "3980/6350"}
{"lm loss": 4.88324642, "grad_norm": 0.54749811, "learning_rate": 3.546e-05, "elapsed_time_per_iteration": 5.62420011, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 21s", "remaining_time": "3h 11m 13s", "loss_scale": 1.0, "consumed_samples": 1019136, "global_step/max_steps": "3981/6350"}
{"lm loss": 4.89622974, "grad_norm": 0.51405197, "learning_rate": 3.544e-05, "elapsed_time_per_iteration": 4.66874504, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 25s", "remaining_time": "3h 11m 8s", "loss_scale": 1.0, "consumed_samples": 1019392, "global_step/max_steps": "3982/6350"}
{"lm loss": 4.87452316, "grad_norm": 0.56579483, "learning_rate": 3.541e-05, "elapsed_time_per_iteration": 4.78391075, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 30s", "remaining_time": "3h 11m 4s", "loss_scale": 1.0, "consumed_samples": 1019648, "global_step/max_steps": "3983/6350"}
{"lm loss": 4.86241674, "grad_norm": 0.58010966, "learning_rate": 3.539e-05, "elapsed_time_per_iteration": 4.74593306, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 35s", "remaining_time": "3h 10m 59s", "loss_scale": 1.0, "consumed_samples": 1019904, "global_step/max_steps": "3984/6350"}
{"lm loss": 4.90899849, "grad_norm": 0.53515482, "learning_rate": 3.536e-05, "elapsed_time_per_iteration": 4.71723866, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 40s", "remaining_time": "3h 10m 54s", "loss_scale": 1.0, "consumed_samples": 1020160, "global_step/max_steps": "3985/6350"}
{"lm loss": 4.91056395, "grad_norm": 0.5882327, "learning_rate": 3.534e-05, "elapsed_time_per_iteration": 4.69200325, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 44s", "remaining_time": "3h 10m 49s", "loss_scale": 1.0, "consumed_samples": 1020416, "global_step/max_steps": "3986/6350"}
{"lm loss": 4.90717316, "grad_norm": 0.55551219, "learning_rate": 3.532e-05, "elapsed_time_per_iteration": 4.70916224, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 49s", "remaining_time": "3h 10m 44s", "loss_scale": 1.0, "consumed_samples": 1020672, "global_step/max_steps": "3987/6350"}
{"lm loss": 4.87769842, "grad_norm": 0.56043482, "learning_rate": 3.529e-05, "elapsed_time_per_iteration": 4.71964502, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 54s", "remaining_time": "3h 10m 39s", "loss_scale": 1.0, "consumed_samples": 1020928, "global_step/max_steps": "3988/6350"}
{"lm loss": 4.89173508, "grad_norm": 0.7250852, "learning_rate": 3.527e-05, "elapsed_time_per_iteration": 4.66022444, "memory(GiB)": 28.03, "elapsed_time": "5h 21m 59s", "remaining_time": "3h 10m 34s", "loss_scale": 1.0, "consumed_samples": 1021184, "global_step/max_steps": "3989/6350"}
{"lm loss": 4.88178396, "grad_norm": 0.7257961, "learning_rate": 3.525e-05, "elapsed_time_per_iteration": 5.11963749, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 4s", "remaining_time": "3h 10m 29s", "loss_scale": 1.0, "consumed_samples": 1021440, "global_step/max_steps": "3990/6350"}
{"lm loss": 4.88591194, "grad_norm": 0.75288767, "learning_rate": 3.522e-05, "elapsed_time_per_iteration": 5.60823393, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 9s", "remaining_time": "3h 10m 25s", "loss_scale": 1.0, "consumed_samples": 1021696, "global_step/max_steps": "3991/6350"}
{"lm loss": 4.87387037, "grad_norm": 0.62633103, "learning_rate": 3.52e-05, "elapsed_time_per_iteration": 5.5991323, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 15s", "remaining_time": "3h 10m 21s", "loss_scale": 1.0, "consumed_samples": 1021952, "global_step/max_steps": "3992/6350"}
{"lm loss": 4.91050673, "grad_norm": 0.90913826, "learning_rate": 3.517e-05, "elapsed_time_per_iteration": 4.71170974, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 20s", "remaining_time": "3h 10m 16s", "loss_scale": 1.0, "consumed_samples": 1022208, "global_step/max_steps": "3993/6350"}
{"lm loss": 4.91448927, "grad_norm": 0.60025448, "learning_rate": 3.515e-05, "elapsed_time_per_iteration": 4.78602505, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 24s", "remaining_time": "3h 10m 11s", "loss_scale": 1.0, "consumed_samples": 1022464, "global_step/max_steps": "3994/6350"}
{"lm loss": 4.87641573, "grad_norm": 0.53366816, "learning_rate": 3.513e-05, "elapsed_time_per_iteration": 4.66483784, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 29s", "remaining_time": "3h 10m 6s", "loss_scale": 1.0, "consumed_samples": 1022720, "global_step/max_steps": "3995/6350"}
{"lm loss": 4.88636923, "grad_norm": 0.55303556, "learning_rate": 3.51e-05, "elapsed_time_per_iteration": 4.68542981, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 34s", "remaining_time": "3h 10m 1s", "loss_scale": 1.0, "consumed_samples": 1022976, "global_step/max_steps": "3996/6350"}
{"lm loss": 4.89184856, "grad_norm": 0.60946286, "learning_rate": 3.508e-05, "elapsed_time_per_iteration": 4.74184561, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 38s", "remaining_time": "3h 9m 56s", "loss_scale": 1.0, "consumed_samples": 1023232, "global_step/max_steps": "3997/6350"}
{"lm loss": 4.87746239, "grad_norm": 0.51173782, "learning_rate": 3.506e-05, "elapsed_time_per_iteration": 4.74859738, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 43s", "remaining_time": "3h 9m 51s", "loss_scale": 1.0, "consumed_samples": 1023488, "global_step/max_steps": "3998/6350"}
{"lm loss": 4.90034723, "grad_norm": 0.62102216, "learning_rate": 3.503e-05, "elapsed_time_per_iteration": 4.68835044, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 48s", "remaining_time": "3h 9m 46s", "loss_scale": 1.0, "consumed_samples": 1023744, "global_step/max_steps": "3999/6350"}
{"lm loss": 4.87511158, "grad_norm": 0.49346226, "learning_rate": 3.501e-05, "elapsed_time_per_iteration": 4.71992517, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 53s", "remaining_time": "3h 9m 41s", "loss_scale": 1.0, "consumed_samples": 1024000, "global_step/max_steps": "4000/6350"}
{"lm loss": 4.89627218, "grad_norm": 0.58649361, "learning_rate": 3.498e-05, "elapsed_time_per_iteration": 4.66269135, "memory(GiB)": 28.03, "elapsed_time": "5h 22m 57s", "remaining_time": "3h 9m 36s", "loss_scale": 1.0, "consumed_samples": 1024256, "global_step/max_steps": "4001/6350"}
{"lm loss": 4.9244132, "grad_norm": 0.52609682, "learning_rate": 3.496e-05, "elapsed_time_per_iteration": 4.73699832, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 2s", "remaining_time": "3h 9m 31s", "loss_scale": 1.0, "consumed_samples": 1024512, "global_step/max_steps": "4002/6350"}
{"lm loss": 4.88321257, "grad_norm": 0.55795884, "learning_rate": 3.494e-05, "elapsed_time_per_iteration": 4.71430397, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 7s", "remaining_time": "3h 9m 26s", "loss_scale": 1.0, "consumed_samples": 1024768, "global_step/max_steps": "4003/6350"}
{"lm loss": 4.87804794, "grad_norm": 0.52853072, "learning_rate": 3.491e-05, "elapsed_time_per_iteration": 5.47254109, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 12s", "remaining_time": "3h 9m 22s", "loss_scale": 1.0, "consumed_samples": 1025024, "global_step/max_steps": "4004/6350"}
{"lm loss": 4.89228964, "grad_norm": 0.52099901, "learning_rate": 3.489e-05, "elapsed_time_per_iteration": 4.73703122, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 17s", "remaining_time": "3h 9m 17s", "loss_scale": 1.0, "consumed_samples": 1025280, "global_step/max_steps": "4005/6350"}
{"lm loss": 4.90772772, "grad_norm": 0.52561933, "learning_rate": 3.487e-05, "elapsed_time_per_iteration": 4.77184725, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 22s", "remaining_time": "3h 9m 12s", "loss_scale": 1.0, "consumed_samples": 1025536, "global_step/max_steps": "4006/6350"}
{"lm loss": 4.85981321, "grad_norm": 0.54153121, "learning_rate": 3.484e-05, "elapsed_time_per_iteration": 4.73162341, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 26s", "remaining_time": "3h 9m 7s", "loss_scale": 1.0, "consumed_samples": 1025792, "global_step/max_steps": "4007/6350"}
{"lm loss": 4.89951849, "grad_norm": 0.51376182, "learning_rate": 3.482e-05, "elapsed_time_per_iteration": 4.75515366, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 31s", "remaining_time": "3h 9m 2s", "loss_scale": 1.0, "consumed_samples": 1026048, "global_step/max_steps": "4008/6350"}
{"lm loss": 4.8943553, "grad_norm": 0.49399135, "learning_rate": 3.479e-05, "elapsed_time_per_iteration": 4.69047165, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 36s", "remaining_time": "3h 8m 57s", "loss_scale": 1.0, "consumed_samples": 1026304, "global_step/max_steps": "4009/6350"}
{"lm loss": 4.89345074, "grad_norm": 1.14653623, "learning_rate": 3.477e-05, "elapsed_time_per_iteration": 4.68190455, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 41s", "remaining_time": "3h 8m 52s", "loss_scale": 1.0, "consumed_samples": 1026560, "global_step/max_steps": "4010/6350"}
{"lm loss": 4.8730526, "grad_norm": 0.48721209, "learning_rate": 3.475e-05, "elapsed_time_per_iteration": 4.64548922, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 45s", "remaining_time": "3h 8m 48s", "loss_scale": 1.0, "consumed_samples": 1026816, "global_step/max_steps": "4011/6350"}
{"lm loss": 4.88230181, "grad_norm": 0.56973481, "learning_rate": 3.472e-05, "elapsed_time_per_iteration": 5.67101121, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 51s", "remaining_time": "3h 8m 43s", "loss_scale": 1.0, "consumed_samples": 1027072, "global_step/max_steps": "4012/6350"}
{"lm loss": 4.89749432, "grad_norm": 0.66320384, "learning_rate": 3.47e-05, "elapsed_time_per_iteration": 4.64987445, "memory(GiB)": 28.03, "elapsed_time": "5h 23m 56s", "remaining_time": "3h 8m 38s", "loss_scale": 1.0, "consumed_samples": 1027328, "global_step/max_steps": "4013/6350"}
{"lm loss": 4.90575314, "grad_norm": 0.63170874, "learning_rate": 3.468e-05, "elapsed_time_per_iteration": 4.69211316, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 0s", "remaining_time": "3h 8m 33s", "loss_scale": 1.0, "consumed_samples": 1027584, "global_step/max_steps": "4014/6350"}
{"lm loss": 4.89981508, "grad_norm": 0.58207953, "learning_rate": 3.465e-05, "elapsed_time_per_iteration": 4.66785336, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 5s", "remaining_time": "3h 8m 28s", "loss_scale": 1.0, "consumed_samples": 1027840, "global_step/max_steps": "4015/6350"}
{"lm loss": 4.90780783, "grad_norm": 0.52054971, "learning_rate": 3.463e-05, "elapsed_time_per_iteration": 4.69337988, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 10s", "remaining_time": "3h 8m 23s", "loss_scale": 1.0, "consumed_samples": 1028096, "global_step/max_steps": "4016/6350"}
{"lm loss": 4.89515018, "grad_norm": 0.95078802, "learning_rate": 3.46e-05, "elapsed_time_per_iteration": 4.69437242, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 14s", "remaining_time": "3h 8m 18s", "loss_scale": 1.0, "consumed_samples": 1028352, "global_step/max_steps": "4017/6350"}
{"lm loss": 4.89812183, "grad_norm": 0.50797099, "learning_rate": 3.458e-05, "elapsed_time_per_iteration": 4.72163582, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 19s", "remaining_time": "3h 8m 14s", "loss_scale": 1.0, "consumed_samples": 1028608, "global_step/max_steps": "4018/6350"}
{"lm loss": 4.89441681, "grad_norm": 0.65157348, "learning_rate": 3.456e-05, "elapsed_time_per_iteration": 4.69913888, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 24s", "remaining_time": "3h 8m 9s", "loss_scale": 1.0, "consumed_samples": 1028864, "global_step/max_steps": "4019/6350"}
{"lm loss": 4.90410042, "grad_norm": 0.57541281, "learning_rate": 3.453e-05, "elapsed_time_per_iteration": 4.69833112, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 28s", "remaining_time": "3h 8m 4s", "loss_scale": 1.0, "consumed_samples": 1029120, "global_step/max_steps": "4020/6350"}
{"lm loss": 4.88760853, "grad_norm": 0.46688268, "learning_rate": 3.451e-05, "elapsed_time_per_iteration": 4.71503186, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 33s", "remaining_time": "3h 7m 59s", "loss_scale": 1.0, "consumed_samples": 1029376, "global_step/max_steps": "4021/6350"}
{"lm loss": 4.90498924, "grad_norm": 0.54689258, "learning_rate": 3.449e-05, "elapsed_time_per_iteration": 4.66994762, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 38s", "remaining_time": "3h 7m 54s", "loss_scale": 1.0, "consumed_samples": 1029632, "global_step/max_steps": "4022/6350"}
{"lm loss": 4.89040613, "grad_norm": 0.48215717, "learning_rate": 3.446e-05, "elapsed_time_per_iteration": 4.72982955, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 42s", "remaining_time": "3h 7m 49s", "loss_scale": 1.0, "consumed_samples": 1029888, "global_step/max_steps": "4023/6350"}
{"lm loss": 4.91573524, "grad_norm": 0.53462434, "learning_rate": 3.444e-05, "elapsed_time_per_iteration": 4.7961719, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 47s", "remaining_time": "3h 7m 44s", "loss_scale": 1.0, "consumed_samples": 1030144, "global_step/max_steps": "4024/6350"}
{"lm loss": 4.88021564, "grad_norm": 0.63708413, "learning_rate": 3.442e-05, "elapsed_time_per_iteration": 4.69866896, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 52s", "remaining_time": "3h 7m 39s", "loss_scale": 1.0, "consumed_samples": 1030400, "global_step/max_steps": "4025/6350"}
{"lm loss": 4.89268303, "grad_norm": 0.79110736, "learning_rate": 3.439e-05, "elapsed_time_per_iteration": 4.7747004, "memory(GiB)": 28.03, "elapsed_time": "5h 24m 57s", "remaining_time": "3h 7m 34s", "loss_scale": 1.0, "consumed_samples": 1030656, "global_step/max_steps": "4026/6350"}
{"lm loss": 4.88768053, "grad_norm": 0.81599426, "learning_rate": 3.437e-05, "elapsed_time_per_iteration": 4.71137524, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 1s", "remaining_time": "3h 7m 29s", "loss_scale": 1.0, "consumed_samples": 1030912, "global_step/max_steps": "4027/6350"}
{"lm loss": 4.87936211, "grad_norm": 0.5109573, "learning_rate": 3.434e-05, "elapsed_time_per_iteration": 4.65659308, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 6s", "remaining_time": "3h 7m 24s", "loss_scale": 1.0, "consumed_samples": 1031168, "global_step/max_steps": "4028/6350"}
{"lm loss": 4.90462399, "grad_norm": 0.50962698, "learning_rate": 3.432e-05, "elapsed_time_per_iteration": 4.69914556, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 11s", "remaining_time": "3h 7m 19s", "loss_scale": 1.0, "consumed_samples": 1031424, "global_step/max_steps": "4029/6350"}
{"lm loss": 4.9004879, "grad_norm": 0.5415749, "learning_rate": 3.43e-05, "elapsed_time_per_iteration": 4.69846439, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 16s", "remaining_time": "3h 7m 15s", "loss_scale": 1.0, "consumed_samples": 1031680, "global_step/max_steps": "4030/6350"}
{"lm loss": 4.88514137, "grad_norm": 0.59661472, "learning_rate": 3.427e-05, "elapsed_time_per_iteration": 4.76316047, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 20s", "remaining_time": "3h 7m 10s", "loss_scale": 1.0, "consumed_samples": 1031936, "global_step/max_steps": "4031/6350"}
{"lm loss": 4.88539839, "grad_norm": 0.54443616, "learning_rate": 3.425e-05, "elapsed_time_per_iteration": 4.68149805, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 25s", "remaining_time": "3h 7m 5s", "loss_scale": 1.0, "consumed_samples": 1032192, "global_step/max_steps": "4032/6350"}
{"lm loss": 4.89518404, "grad_norm": 2.47644615, "learning_rate": 3.423e-05, "elapsed_time_per_iteration": 5.56553268, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 31s", "remaining_time": "3h 7m 0s", "loss_scale": 1.0, "consumed_samples": 1032448, "global_step/max_steps": "4033/6350"}
{"lm loss": 4.89423752, "grad_norm": 0.67425209, "learning_rate": 3.42e-05, "elapsed_time_per_iteration": 4.71226048, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 35s", "remaining_time": "3h 6m 55s", "loss_scale": 1.0, "consumed_samples": 1032704, "global_step/max_steps": "4034/6350"}
{"lm loss": 4.89987993, "grad_norm": 0.57208312, "learning_rate": 3.418e-05, "elapsed_time_per_iteration": 4.71632957, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 40s", "remaining_time": "3h 6m 50s", "loss_scale": 1.0, "consumed_samples": 1032960, "global_step/max_steps": "4035/6350"}
{"lm loss": 4.90704918, "grad_norm": 0.60553277, "learning_rate": 3.416e-05, "elapsed_time_per_iteration": 4.67458129, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 45s", "remaining_time": "3h 6m 46s", "loss_scale": 1.0, "consumed_samples": 1033216, "global_step/max_steps": "4036/6350"}
{"lm loss": 4.84202814, "grad_norm": 0.55748385, "learning_rate": 3.413e-05, "elapsed_time_per_iteration": 4.71105456, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 49s", "remaining_time": "3h 6m 41s", "loss_scale": 1.0, "consumed_samples": 1033472, "global_step/max_steps": "4037/6350"}
{"lm loss": 4.89068937, "grad_norm": 0.57098931, "learning_rate": 3.411e-05, "elapsed_time_per_iteration": 4.69026566, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 54s", "remaining_time": "3h 6m 36s", "loss_scale": 1.0, "consumed_samples": 1033728, "global_step/max_steps": "4038/6350"}
{"lm loss": 4.89468336, "grad_norm": 0.62480313, "learning_rate": 3.408e-05, "elapsed_time_per_iteration": 4.77986145, "memory(GiB)": 28.03, "elapsed_time": "5h 25m 59s", "remaining_time": "3h 6m 31s", "loss_scale": 1.0, "consumed_samples": 1033984, "global_step/max_steps": "4039/6350"}
{"lm loss": 4.87078094, "grad_norm": 0.57440317, "learning_rate": 3.406e-05, "elapsed_time_per_iteration": 5.63930988, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 4s", "remaining_time": "3h 6m 26s", "loss_scale": 1.0, "consumed_samples": 1034240, "global_step/max_steps": "4040/6350"}
{"lm loss": 4.87494755, "grad_norm": 0.53598905, "learning_rate": 3.404e-05, "elapsed_time_per_iteration": 4.74800849, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 9s", "remaining_time": "3h 6m 21s", "loss_scale": 1.0, "consumed_samples": 1034496, "global_step/max_steps": "4041/6350"}
{"lm loss": 4.90740108, "grad_norm": 0.48869127, "learning_rate": 3.401e-05, "elapsed_time_per_iteration": 4.68496203, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 14s", "remaining_time": "3h 6m 17s", "loss_scale": 1.0, "consumed_samples": 1034752, "global_step/max_steps": "4042/6350"}
{"lm loss": 4.91397905, "grad_norm": 0.57627398, "learning_rate": 3.399e-05, "elapsed_time_per_iteration": 5.05592346, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 19s", "remaining_time": "3h 6m 12s", "loss_scale": 1.0, "consumed_samples": 1035008, "global_step/max_steps": "4043/6350"}
{"lm loss": 4.88332272, "grad_norm": 0.54675174, "learning_rate": 3.397e-05, "elapsed_time_per_iteration": 5.71658397, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 25s", "remaining_time": "3h 6m 7s", "loss_scale": 1.0, "consumed_samples": 1035264, "global_step/max_steps": "4044/6350"}
{"lm loss": 4.87628269, "grad_norm": 0.65260983, "learning_rate": 3.394e-05, "elapsed_time_per_iteration": 4.76701045, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 29s", "remaining_time": "3h 6m 3s", "loss_scale": 1.0, "consumed_samples": 1035520, "global_step/max_steps": "4045/6350"}
{"lm loss": 4.89445305, "grad_norm": 0.56201202, "learning_rate": 3.392e-05, "elapsed_time_per_iteration": 4.75857186, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 34s", "remaining_time": "3h 5m 58s", "loss_scale": 1.0, "consumed_samples": 1035776, "global_step/max_steps": "4046/6350"}
{"lm loss": 4.89105844, "grad_norm": 0.65027392, "learning_rate": 3.39e-05, "elapsed_time_per_iteration": 4.77703023, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 39s", "remaining_time": "3h 5m 53s", "loss_scale": 1.0, "consumed_samples": 1036032, "global_step/max_steps": "4047/6350"}
{"lm loss": 4.8760972, "grad_norm": 0.53908145, "learning_rate": 3.387e-05, "elapsed_time_per_iteration": 5.5436933, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 45s", "remaining_time": "3h 5m 48s", "loss_scale": 1.0, "consumed_samples": 1036288, "global_step/max_steps": "4048/6350"}
{"lm loss": 4.87457705, "grad_norm": 0.54362518, "learning_rate": 3.385e-05, "elapsed_time_per_iteration": 4.79323196, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 49s", "remaining_time": "3h 5m 44s", "loss_scale": 1.0, "consumed_samples": 1036544, "global_step/max_steps": "4049/6350"}
{"lm loss": 4.86169863, "grad_norm": 0.56676191, "learning_rate": 3.383e-05, "elapsed_time_per_iteration": 4.82827425, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 54s", "remaining_time": "3h 5m 39s", "loss_scale": 1.0, "consumed_samples": 1036800, "global_step/max_steps": "4050/6350"}
{"lm loss": 4.8903861, "grad_norm": 0.48124108, "learning_rate": 3.38e-05, "elapsed_time_per_iteration": 4.7360909, "memory(GiB)": 28.03, "elapsed_time": "5h 26m 59s", "remaining_time": "3h 5m 34s", "loss_scale": 1.0, "consumed_samples": 1037056, "global_step/max_steps": "4051/6350"}
{"lm loss": 4.86995029, "grad_norm": 0.51896036, "learning_rate": 3.378e-05, "elapsed_time_per_iteration": 4.74456859, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 4s", "remaining_time": "3h 5m 29s", "loss_scale": 1.0, "consumed_samples": 1037312, "global_step/max_steps": "4052/6350"}
{"lm loss": 4.91187572, "grad_norm": 0.43052801, "learning_rate": 3.376e-05, "elapsed_time_per_iteration": 4.70669961, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 8s", "remaining_time": "3h 5m 24s", "loss_scale": 1.0, "consumed_samples": 1037568, "global_step/max_steps": "4053/6350"}
{"lm loss": 4.89561415, "grad_norm": 0.49716818, "learning_rate": 3.373e-05, "elapsed_time_per_iteration": 4.7243278, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 13s", "remaining_time": "3h 5m 19s", "loss_scale": 1.0, "consumed_samples": 1037824, "global_step/max_steps": "4054/6350"}
{"lm loss": 4.88826132, "grad_norm": 0.47697443, "learning_rate": 3.371e-05, "elapsed_time_per_iteration": 4.69407535, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 18s", "remaining_time": "3h 5m 14s", "loss_scale": 1.0, "consumed_samples": 1038080, "global_step/max_steps": "4055/6350"}
{"lm loss": 4.87912464, "grad_norm": 0.55939245, "learning_rate": 3.368e-05, "elapsed_time_per_iteration": 4.77848148, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 23s", "remaining_time": "3h 5m 9s", "loss_scale": 1.0, "consumed_samples": 1038336, "global_step/max_steps": "4056/6350"}
{"lm loss": 4.91333866, "grad_norm": 0.47302452, "learning_rate": 3.366e-05, "elapsed_time_per_iteration": 4.73840356, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 27s", "remaining_time": "3h 5m 4s", "loss_scale": 1.0, "consumed_samples": 1038592, "global_step/max_steps": "4057/6350"}
{"lm loss": 4.90308714, "grad_norm": 0.5280894, "learning_rate": 3.364e-05, "elapsed_time_per_iteration": 4.74696231, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 32s", "remaining_time": "3h 4m 59s", "loss_scale": 1.0, "consumed_samples": 1038848, "global_step/max_steps": "4058/6350"}
{"lm loss": 4.88863325, "grad_norm": 0.47752732, "learning_rate": 3.361e-05, "elapsed_time_per_iteration": 4.7059176, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 37s", "remaining_time": "3h 4m 55s", "loss_scale": 1.0, "consumed_samples": 1039104, "global_step/max_steps": "4059/6350"}
{"lm loss": 4.9183588, "grad_norm": 0.50308043, "learning_rate": 3.359e-05, "elapsed_time_per_iteration": 5.59520745, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 42s", "remaining_time": "3h 4m 50s", "loss_scale": 1.0, "consumed_samples": 1039360, "global_step/max_steps": "4060/6350"}
{"lm loss": 4.8864994, "grad_norm": 0.4904978, "learning_rate": 3.357e-05, "elapsed_time_per_iteration": 4.74239683, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 47s", "remaining_time": "3h 4m 45s", "loss_scale": 1.0, "consumed_samples": 1039616, "global_step/max_steps": "4061/6350"}
{"lm loss": 4.89631033, "grad_norm": 0.55116856, "learning_rate": 3.354e-05, "elapsed_time_per_iteration": 4.81386518, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 52s", "remaining_time": "3h 4m 40s", "loss_scale": 1.0, "consumed_samples": 1039872, "global_step/max_steps": "4062/6350"}
{"lm loss": 4.8995986, "grad_norm": 0.57360286, "learning_rate": 3.352e-05, "elapsed_time_per_iteration": 4.76937222, "memory(GiB)": 28.03, "elapsed_time": "5h 27m 57s", "remaining_time": "3h 4m 35s", "loss_scale": 1.0, "consumed_samples": 1040128, "global_step/max_steps": "4063/6350"}
{"lm loss": 4.89321613, "grad_norm": 0.64208698, "learning_rate": 3.35e-05, "elapsed_time_per_iteration": 4.77383661, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 1s", "remaining_time": "3h 4m 31s", "loss_scale": 1.0, "consumed_samples": 1040384, "global_step/max_steps": "4064/6350"}
{"lm loss": 4.9030242, "grad_norm": 0.56210816, "learning_rate": 3.347e-05, "elapsed_time_per_iteration": 4.73195791, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 6s", "remaining_time": "3h 4m 26s", "loss_scale": 1.0, "consumed_samples": 1040640, "global_step/max_steps": "4065/6350"}
{"lm loss": 4.90447235, "grad_norm": 0.59956747, "learning_rate": 3.345e-05, "elapsed_time_per_iteration": 4.73264742, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 11s", "remaining_time": "3h 4m 21s", "loss_scale": 1.0, "consumed_samples": 1040896, "global_step/max_steps": "4066/6350"}
{"lm loss": 4.88873816, "grad_norm": 0.49670815, "learning_rate": 3.343e-05, "elapsed_time_per_iteration": 5.65478611, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 17s", "remaining_time": "3h 4m 16s", "loss_scale": 1.0, "consumed_samples": 1041152, "global_step/max_steps": "4067/6350"}
{"lm loss": 4.90885258, "grad_norm": 0.59030539, "learning_rate": 3.34e-05, "elapsed_time_per_iteration": 4.74232101, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 21s", "remaining_time": "3h 4m 11s", "loss_scale": 1.0, "consumed_samples": 1041408, "global_step/max_steps": "4068/6350"}
{"lm loss": 4.88402176, "grad_norm": 0.55457073, "learning_rate": 3.338e-05, "elapsed_time_per_iteration": 4.72376013, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 26s", "remaining_time": "3h 4m 7s", "loss_scale": 1.0, "consumed_samples": 1041664, "global_step/max_steps": "4069/6350"}
{"lm loss": 4.89046764, "grad_norm": 0.50394052, "learning_rate": 3.336e-05, "elapsed_time_per_iteration": 4.7259748, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 31s", "remaining_time": "3h 4m 2s", "loss_scale": 1.0, "consumed_samples": 1041920, "global_step/max_steps": "4070/6350"}
{"lm loss": 4.92151642, "grad_norm": 0.61628157, "learning_rate": 3.333e-05, "elapsed_time_per_iteration": 4.76208401, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 35s", "remaining_time": "3h 3m 57s", "loss_scale": 1.0, "consumed_samples": 1042176, "global_step/max_steps": "4071/6350"}
{"lm loss": 4.91010332, "grad_norm": 0.59472245, "learning_rate": 3.331e-05, "elapsed_time_per_iteration": 4.70168042, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 40s", "remaining_time": "3h 3m 52s", "loss_scale": 1.0, "consumed_samples": 1042432, "global_step/max_steps": "4072/6350"}
{"lm loss": 4.90996695, "grad_norm": 0.48129717, "learning_rate": 3.329e-05, "elapsed_time_per_iteration": 4.7057457, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 45s", "remaining_time": "3h 3m 47s", "loss_scale": 1.0, "consumed_samples": 1042688, "global_step/max_steps": "4073/6350"}
{"lm loss": 4.87435579, "grad_norm": 0.52100343, "learning_rate": 3.326e-05, "elapsed_time_per_iteration": 4.73156929, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 50s", "remaining_time": "3h 3m 42s", "loss_scale": 1.0, "consumed_samples": 1042944, "global_step/max_steps": "4074/6350"}
{"lm loss": 4.87456036, "grad_norm": 0.54768872, "learning_rate": 3.324e-05, "elapsed_time_per_iteration": 5.49826956, "memory(GiB)": 28.03, "elapsed_time": "5h 28m 55s", "remaining_time": "3h 3m 38s", "loss_scale": 1.0, "consumed_samples": 1043200, "global_step/max_steps": "4075/6350"}
{"lm loss": 4.87206364, "grad_norm": 0.54421568, "learning_rate": 3.322e-05, "elapsed_time_per_iteration": 4.75287557, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 0s", "remaining_time": "3h 3m 33s", "loss_scale": 1.0, "consumed_samples": 1043456, "global_step/max_steps": "4076/6350"}
{"lm loss": 4.88330698, "grad_norm": 0.6316976, "learning_rate": 3.319e-05, "elapsed_time_per_iteration": 4.71971941, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 5s", "remaining_time": "3h 3m 28s", "loss_scale": 1.0, "consumed_samples": 1043712, "global_step/max_steps": "4077/6350"}
{"lm loss": 4.87768269, "grad_norm": 0.68211782, "learning_rate": 3.317e-05, "elapsed_time_per_iteration": 4.75349236, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 9s", "remaining_time": "3h 3m 23s", "loss_scale": 1.0, "consumed_samples": 1043968, "global_step/max_steps": "4078/6350"}
{"lm loss": 4.87127018, "grad_norm": 0.60936248, "learning_rate": 3.315e-05, "elapsed_time_per_iteration": 4.73649597, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 14s", "remaining_time": "3h 3m 18s", "loss_scale": 1.0, "consumed_samples": 1044224, "global_step/max_steps": "4079/6350"}
{"lm loss": 4.90361071, "grad_norm": 0.67904097, "learning_rate": 3.312e-05, "elapsed_time_per_iteration": 4.68299389, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 19s", "remaining_time": "3h 3m 13s", "loss_scale": 1.0, "consumed_samples": 1044480, "global_step/max_steps": "4080/6350"}
{"lm loss": 4.90263367, "grad_norm": 0.67019767, "learning_rate": 3.31e-05, "elapsed_time_per_iteration": 4.76476741, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 24s", "remaining_time": "3h 3m 8s", "loss_scale": 1.0, "consumed_samples": 1044736, "global_step/max_steps": "4081/6350"}
{"lm loss": 4.87429953, "grad_norm": 0.55012292, "learning_rate": 3.308e-05, "elapsed_time_per_iteration": 4.69257879, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 28s", "remaining_time": "3h 3m 3s", "loss_scale": 1.0, "consumed_samples": 1044992, "global_step/max_steps": "4082/6350"}
{"lm loss": 4.88705492, "grad_norm": 0.61193562, "learning_rate": 3.305e-05, "elapsed_time_per_iteration": 5.54569292, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 34s", "remaining_time": "3h 2m 59s", "loss_scale": 1.0, "consumed_samples": 1045248, "global_step/max_steps": "4083/6350"}
{"lm loss": 4.88487673, "grad_norm": 0.49789783, "learning_rate": 3.303e-05, "elapsed_time_per_iteration": 4.7195375, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 38s", "remaining_time": "3h 2m 54s", "loss_scale": 1.0, "consumed_samples": 1045504, "global_step/max_steps": "4084/6350"}
{"lm loss": 4.8824234, "grad_norm": 0.51253229, "learning_rate": 3.301e-05, "elapsed_time_per_iteration": 5.11187625, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 44s", "remaining_time": "3h 2m 49s", "loss_scale": 1.0, "consumed_samples": 1045760, "global_step/max_steps": "4085/6350"}
{"lm loss": 4.87424231, "grad_norm": 0.64338112, "learning_rate": 3.298e-05, "elapsed_time_per_iteration": 4.75982881, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 48s", "remaining_time": "3h 2m 44s", "loss_scale": 1.0, "consumed_samples": 1046016, "global_step/max_steps": "4086/6350"}
{"lm loss": 4.89339733, "grad_norm": 0.85044962, "learning_rate": 3.296e-05, "elapsed_time_per_iteration": 4.66060567, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 53s", "remaining_time": "3h 2m 39s", "loss_scale": 1.0, "consumed_samples": 1046272, "global_step/max_steps": "4087/6350"}
{"lm loss": 4.89957237, "grad_norm": 0.6381442, "learning_rate": 3.294e-05, "elapsed_time_per_iteration": 5.47697783, "memory(GiB)": 28.03, "elapsed_time": "5h 29m 58s", "remaining_time": "3h 2m 35s", "loss_scale": 1.0, "consumed_samples": 1046528, "global_step/max_steps": "4088/6350"}
{"lm loss": 4.89613867, "grad_norm": 0.4793545, "learning_rate": 3.291e-05, "elapsed_time_per_iteration": 4.74318767, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 3s", "remaining_time": "3h 2m 30s", "loss_scale": 1.0, "consumed_samples": 1046784, "global_step/max_steps": "4089/6350"}
{"lm loss": 4.90187454, "grad_norm": 0.48949355, "learning_rate": 3.289e-05, "elapsed_time_per_iteration": 4.68020916, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 8s", "remaining_time": "3h 2m 25s", "loss_scale": 1.0, "consumed_samples": 1047040, "global_step/max_steps": "4090/6350"}
{"lm loss": 4.89204979, "grad_norm": 0.52341014, "learning_rate": 3.287e-05, "elapsed_time_per_iteration": 4.73056602, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 13s", "remaining_time": "3h 2m 20s", "loss_scale": 1.0, "consumed_samples": 1047296, "global_step/max_steps": "4091/6350"}
{"lm loss": 4.88352633, "grad_norm": 0.50565726, "learning_rate": 3.284e-05, "elapsed_time_per_iteration": 4.74725747, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 17s", "remaining_time": "3h 2m 15s", "loss_scale": 1.0, "consumed_samples": 1047552, "global_step/max_steps": "4092/6350"}
{"lm loss": 4.90909481, "grad_norm": 0.49435374, "learning_rate": 3.282e-05, "elapsed_time_per_iteration": 4.69161201, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 22s", "remaining_time": "3h 2m 10s", "loss_scale": 1.0, "consumed_samples": 1047808, "global_step/max_steps": "4093/6350"}
{"lm loss": 4.87841463, "grad_norm": 0.45341808, "learning_rate": 3.28e-05, "elapsed_time_per_iteration": 6.48635197, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 29s", "remaining_time": "3h 2m 6s", "loss_scale": 1.0, "consumed_samples": 1048064, "global_step/max_steps": "4094/6350"}
{"lm loss": 4.89047003, "grad_norm": 0.47353423, "learning_rate": 3.277e-05, "elapsed_time_per_iteration": 4.63691449, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 33s", "remaining_time": "3h 2m 1s", "loss_scale": 1.0, "consumed_samples": 1048320, "global_step/max_steps": "4095/6350"}
{"lm loss": 4.89861727, "grad_norm": 0.50584561, "learning_rate": 3.275e-05, "elapsed_time_per_iteration": 4.75094366, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 38s", "remaining_time": "3h 1m 56s", "loss_scale": 1.0, "consumed_samples": 1048576, "global_step/max_steps": "4096/6350"}
{"lm loss": 4.89541054, "grad_norm": 0.50954491, "learning_rate": 3.273e-05, "elapsed_time_per_iteration": 4.7512939, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 43s", "remaining_time": "3h 1m 52s", "loss_scale": 1.0, "consumed_samples": 1048832, "global_step/max_steps": "4097/6350"}
{"lm loss": 4.88750792, "grad_norm": 0.4397141, "learning_rate": 3.27e-05, "elapsed_time_per_iteration": 4.7425642, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 47s", "remaining_time": "3h 1m 47s", "loss_scale": 1.0, "consumed_samples": 1049088, "global_step/max_steps": "4098/6350"}
{"lm loss": 4.87757492, "grad_norm": 0.50025725, "learning_rate": 3.268e-05, "elapsed_time_per_iteration": 4.78994727, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 52s", "remaining_time": "3h 1m 42s", "loss_scale": 1.0, "consumed_samples": 1049344, "global_step/max_steps": "4099/6350"}
{"lm loss": 4.88341379, "grad_norm": 0.65283978, "learning_rate": 3.266e-05, "elapsed_time_per_iteration": 4.65962601, "memory(GiB)": 28.03, "elapsed_time": "5h 30m 57s", "remaining_time": "3h 1m 37s", "loss_scale": 1.0, "consumed_samples": 1049600, "global_step/max_steps": "4100/6350"}
{"lm loss": 4.90667582, "grad_norm": 0.62076807, "learning_rate": 3.263e-05, "elapsed_time_per_iteration": 4.75522828, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 2s", "remaining_time": "3h 1m 32s", "loss_scale": 1.0, "consumed_samples": 1049856, "global_step/max_steps": "4101/6350"}
{"lm loss": 4.87555408, "grad_norm": 0.52174747, "learning_rate": 3.261e-05, "elapsed_time_per_iteration": 4.77976131, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 6s", "remaining_time": "3h 1m 27s", "loss_scale": 1.0, "consumed_samples": 1050112, "global_step/max_steps": "4102/6350"}
{"lm loss": 4.90120506, "grad_norm": 0.43070635, "learning_rate": 3.259e-05, "elapsed_time_per_iteration": 4.77845621, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 11s", "remaining_time": "3h 1m 22s", "loss_scale": 1.0, "consumed_samples": 1050368, "global_step/max_steps": "4103/6350"}
{"lm loss": 4.90382576, "grad_norm": 0.52084607, "learning_rate": 3.256e-05, "elapsed_time_per_iteration": 4.93222284, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 16s", "remaining_time": "3h 1m 17s", "loss_scale": 1.0, "consumed_samples": 1050624, "global_step/max_steps": "4104/6350"}
{"lm loss": 4.87433434, "grad_norm": 0.68275386, "learning_rate": 3.254e-05, "elapsed_time_per_iteration": 5.78743672, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 22s", "remaining_time": "3h 1m 13s", "loss_scale": 1.0, "consumed_samples": 1050880, "global_step/max_steps": "4105/6350"}
{"lm loss": 4.86666727, "grad_norm": 0.72435915, "learning_rate": 3.252e-05, "elapsed_time_per_iteration": 4.72760868, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 27s", "remaining_time": "3h 1m 8s", "loss_scale": 1.0, "consumed_samples": 1051136, "global_step/max_steps": "4106/6350"}
{"lm loss": 4.90126181, "grad_norm": 0.5652799, "learning_rate": 3.249e-05, "elapsed_time_per_iteration": 4.72285652, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 31s", "remaining_time": "3h 1m 3s", "loss_scale": 1.0, "consumed_samples": 1051392, "global_step/max_steps": "4107/6350"}
{"lm loss": 4.87688637, "grad_norm": 0.75163835, "learning_rate": 3.247e-05, "elapsed_time_per_iteration": 4.82071066, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 36s", "remaining_time": "3h 0m 58s", "loss_scale": 1.0, "consumed_samples": 1051648, "global_step/max_steps": "4108/6350"}
{"lm loss": 4.86996317, "grad_norm": 0.52345282, "learning_rate": 3.245e-05, "elapsed_time_per_iteration": 4.81200433, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 41s", "remaining_time": "3h 0m 54s", "loss_scale": 1.0, "consumed_samples": 1051904, "global_step/max_steps": "4109/6350"}
{"lm loss": 4.90222073, "grad_norm": 0.54954606, "learning_rate": 3.242e-05, "elapsed_time_per_iteration": 5.76263022, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 47s", "remaining_time": "3h 0m 49s", "loss_scale": 1.0, "consumed_samples": 1052160, "global_step/max_steps": "4110/6350"}
{"lm loss": 4.89670277, "grad_norm": 0.44170508, "learning_rate": 3.24e-05, "elapsed_time_per_iteration": 4.83827519, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 52s", "remaining_time": "3h 0m 44s", "loss_scale": 1.0, "consumed_samples": 1052416, "global_step/max_steps": "4111/6350"}
{"lm loss": 4.90922928, "grad_norm": 0.64007026, "learning_rate": 3.238e-05, "elapsed_time_per_iteration": 4.72699761, "memory(GiB)": 28.03, "elapsed_time": "5h 31m 56s", "remaining_time": "3h 0m 39s", "loss_scale": 1.0, "consumed_samples": 1052672, "global_step/max_steps": "4112/6350"}
{"lm loss": 4.88184309, "grad_norm": 0.73524809, "learning_rate": 3.235e-05, "elapsed_time_per_iteration": 4.77096605, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 1s", "remaining_time": "3h 0m 35s", "loss_scale": 1.0, "consumed_samples": 1052928, "global_step/max_steps": "4113/6350"}
{"lm loss": 4.85841513, "grad_norm": 0.51579314, "learning_rate": 3.233e-05, "elapsed_time_per_iteration": 4.7066443, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 6s", "remaining_time": "3h 0m 30s", "loss_scale": 1.0, "consumed_samples": 1053184, "global_step/max_steps": "4114/6350"}
{"lm loss": 4.87132788, "grad_norm": 0.53784621, "learning_rate": 3.231e-05, "elapsed_time_per_iteration": 4.76828647, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 11s", "remaining_time": "3h 0m 25s", "loss_scale": 1.0, "consumed_samples": 1053440, "global_step/max_steps": "4115/6350"}
{"lm loss": 4.87320471, "grad_norm": 0.58910394, "learning_rate": 3.228e-05, "elapsed_time_per_iteration": 4.73490334, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 15s", "remaining_time": "3h 0m 20s", "loss_scale": 1.0, "consumed_samples": 1053696, "global_step/max_steps": "4116/6350"}
{"lm loss": 4.89511204, "grad_norm": 0.5618245, "learning_rate": 3.226e-05, "elapsed_time_per_iteration": 4.83038497, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 20s", "remaining_time": "3h 0m 15s", "loss_scale": 1.0, "consumed_samples": 1053952, "global_step/max_steps": "4117/6350"}
{"lm loss": 4.89348125, "grad_norm": 0.48675206, "learning_rate": 3.224e-05, "elapsed_time_per_iteration": 4.76143646, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 25s", "remaining_time": "3h 0m 10s", "loss_scale": 1.0, "consumed_samples": 1054208, "global_step/max_steps": "4118/6350"}
{"lm loss": 4.87150526, "grad_norm": 0.50090843, "learning_rate": 3.221e-05, "elapsed_time_per_iteration": 4.74940658, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 30s", "remaining_time": "3h 0m 5s", "loss_scale": 1.0, "consumed_samples": 1054464, "global_step/max_steps": "4119/6350"}
{"lm loss": 4.89783525, "grad_norm": 0.44670507, "learning_rate": 3.219e-05, "elapsed_time_per_iteration": 4.72467208, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 34s", "remaining_time": "3h 0m 0s", "loss_scale": 1.0, "consumed_samples": 1054720, "global_step/max_steps": "4120/6350"}
{"lm loss": 4.90788269, "grad_norm": 0.64219761, "learning_rate": 3.217e-05, "elapsed_time_per_iteration": 4.85566616, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 39s", "remaining_time": "2h 59m 55s", "loss_scale": 1.0, "consumed_samples": 1054976, "global_step/max_steps": "4121/6350"}
{"lm loss": 4.90393877, "grad_norm": 0.58952224, "learning_rate": 3.215e-05, "elapsed_time_per_iteration": 4.76773024, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 44s", "remaining_time": "2h 59m 51s", "loss_scale": 1.0, "consumed_samples": 1055232, "global_step/max_steps": "4122/6350"}
{"lm loss": 4.88746071, "grad_norm": 0.47483975, "learning_rate": 3.212e-05, "elapsed_time_per_iteration": 4.74787688, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 49s", "remaining_time": "2h 59m 46s", "loss_scale": 1.0, "consumed_samples": 1055488, "global_step/max_steps": "4123/6350"}
{"lm loss": 4.83880997, "grad_norm": 0.539626, "learning_rate": 3.21e-05, "elapsed_time_per_iteration": 4.76204348, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 54s", "remaining_time": "2h 59m 41s", "loss_scale": 1.0, "consumed_samples": 1055744, "global_step/max_steps": "4124/6350"}
{"lm loss": 4.87757015, "grad_norm": 0.56865656, "learning_rate": 3.208e-05, "elapsed_time_per_iteration": 4.81742001, "memory(GiB)": 28.03, "elapsed_time": "5h 32m 58s", "remaining_time": "2h 59m 36s", "loss_scale": 1.0, "consumed_samples": 1056000, "global_step/max_steps": "4125/6350"}
{"lm loss": 4.87809467, "grad_norm": 0.52269965, "learning_rate": 3.205e-05, "elapsed_time_per_iteration": 5.63981056, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 4s", "remaining_time": "2h 59m 32s", "loss_scale": 1.0, "consumed_samples": 1056256, "global_step/max_steps": "4126/6350"}
{"lm loss": 4.89058208, "grad_norm": 0.48697409, "learning_rate": 3.203e-05, "elapsed_time_per_iteration": 4.6777091, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 9s", "remaining_time": "2h 59m 27s", "loss_scale": 1.0, "consumed_samples": 1056512, "global_step/max_steps": "4127/6350"}
{"lm loss": 4.85420704, "grad_norm": 0.47083732, "learning_rate": 3.201e-05, "elapsed_time_per_iteration": 4.68976426, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 13s", "remaining_time": "2h 59m 22s", "loss_scale": 1.0, "consumed_samples": 1056768, "global_step/max_steps": "4128/6350"}
{"lm loss": 4.87628794, "grad_norm": 0.56184995, "learning_rate": 3.198e-05, "elapsed_time_per_iteration": 4.65492511, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 18s", "remaining_time": "2h 59m 17s", "loss_scale": 1.0, "consumed_samples": 1057024, "global_step/max_steps": "4129/6350"}
{"lm loss": 4.88514042, "grad_norm": 0.62818837, "learning_rate": 3.196e-05, "elapsed_time_per_iteration": 4.70492196, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 23s", "remaining_time": "2h 59m 12s", "loss_scale": 1.0, "consumed_samples": 1057280, "global_step/max_steps": "4130/6350"}
{"lm loss": 4.85982704, "grad_norm": 0.56328988, "learning_rate": 3.194e-05, "elapsed_time_per_iteration": 4.73897672, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 27s", "remaining_time": "2h 59m 7s", "loss_scale": 1.0, "consumed_samples": 1057536, "global_step/max_steps": "4131/6350"}
{"lm loss": 4.89320087, "grad_norm": 0.4916105, "learning_rate": 3.191e-05, "elapsed_time_per_iteration": 5.47964787, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 33s", "remaining_time": "2h 59m 2s", "loss_scale": 1.0, "consumed_samples": 1057792, "global_step/max_steps": "4132/6350"}
{"lm loss": 4.89629316, "grad_norm": 0.4936595, "learning_rate": 3.189e-05, "elapsed_time_per_iteration": 4.75195837, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 38s", "remaining_time": "2h 58m 58s", "loss_scale": 1.0, "consumed_samples": 1058048, "global_step/max_steps": "4133/6350"}
{"lm loss": 4.88550282, "grad_norm": 2.39692044, "learning_rate": 3.187e-05, "elapsed_time_per_iteration": 4.7621491, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 42s", "remaining_time": "2h 58m 53s", "loss_scale": 1.0, "consumed_samples": 1058304, "global_step/max_steps": "4134/6350"}
{"lm loss": 4.88312197, "grad_norm": 0.6873638, "learning_rate": 3.184e-05, "elapsed_time_per_iteration": 4.81183243, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 47s", "remaining_time": "2h 58m 48s", "loss_scale": 1.0, "consumed_samples": 1058560, "global_step/max_steps": "4135/6350"}
{"lm loss": 4.87321854, "grad_norm": 0.83855939, "learning_rate": 3.182e-05, "elapsed_time_per_iteration": 4.68545818, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 52s", "remaining_time": "2h 58m 43s", "loss_scale": 1.0, "consumed_samples": 1058816, "global_step/max_steps": "4136/6350"}
{"lm loss": 4.89487934, "grad_norm": 0.77456415, "learning_rate": 3.18e-05, "elapsed_time_per_iteration": 4.67481017, "memory(GiB)": 28.03, "elapsed_time": "5h 33m 57s", "remaining_time": "2h 58m 38s", "loss_scale": 1.0, "consumed_samples": 1059072, "global_step/max_steps": "4137/6350"}
{"lm loss": 4.9108305, "grad_norm": 0.57364506, "learning_rate": 3.178e-05, "elapsed_time_per_iteration": 4.66769576, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 1s", "remaining_time": "2h 58m 33s", "loss_scale": 1.0, "consumed_samples": 1059328, "global_step/max_steps": "4138/6350"}
{"lm loss": 4.90079212, "grad_norm": 0.5470106, "learning_rate": 3.175e-05, "elapsed_time_per_iteration": 4.69668078, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 6s", "remaining_time": "2h 58m 28s", "loss_scale": 1.0, "consumed_samples": 1059584, "global_step/max_steps": "4139/6350"}
{"lm loss": 4.87802505, "grad_norm": 0.74580956, "learning_rate": 3.173e-05, "elapsed_time_per_iteration": 4.81835818, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 11s", "remaining_time": "2h 58m 23s", "loss_scale": 1.0, "consumed_samples": 1059840, "global_step/max_steps": "4140/6350"}
{"lm loss": 4.88458586, "grad_norm": 0.68214262, "learning_rate": 3.171e-05, "elapsed_time_per_iteration": 4.7890532, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 16s", "remaining_time": "2h 58m 18s", "loss_scale": 1.0, "consumed_samples": 1060096, "global_step/max_steps": "4141/6350"}
{"lm loss": 4.88001442, "grad_norm": 0.58138007, "learning_rate": 3.168e-05, "elapsed_time_per_iteration": 4.7266674, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 20s", "remaining_time": "2h 58m 13s", "loss_scale": 1.0, "consumed_samples": 1060352, "global_step/max_steps": "4142/6350"}
{"lm loss": 4.89322615, "grad_norm": 0.52416682, "learning_rate": 3.166e-05, "elapsed_time_per_iteration": 4.71529984, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 25s", "remaining_time": "2h 58m 9s", "loss_scale": 1.0, "consumed_samples": 1060608, "global_step/max_steps": "4143/6350"}
{"lm loss": 4.892416, "grad_norm": 0.60254878, "learning_rate": 3.164e-05, "elapsed_time_per_iteration": 4.79170942, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 30s", "remaining_time": "2h 58m 4s", "loss_scale": 1.0, "consumed_samples": 1060864, "global_step/max_steps": "4144/6350"}
{"lm loss": 4.89906406, "grad_norm": 0.49089649, "learning_rate": 3.161e-05, "elapsed_time_per_iteration": 4.74311352, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 35s", "remaining_time": "2h 57m 59s", "loss_scale": 1.0, "consumed_samples": 1061120, "global_step/max_steps": "4145/6350"}
{"lm loss": 4.8947854, "grad_norm": 0.53138274, "learning_rate": 3.159e-05, "elapsed_time_per_iteration": 4.72097659, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 39s", "remaining_time": "2h 57m 54s", "loss_scale": 1.0, "consumed_samples": 1061376, "global_step/max_steps": "4146/6350"}
{"lm loss": 4.87035418, "grad_norm": 0.53045577, "learning_rate": 3.157e-05, "elapsed_time_per_iteration": 4.78123188, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 44s", "remaining_time": "2h 57m 49s", "loss_scale": 1.0, "consumed_samples": 1061632, "global_step/max_steps": "4147/6350"}
{"lm loss": 4.87495708, "grad_norm": 0.49302119, "learning_rate": 3.154e-05, "elapsed_time_per_iteration": 4.75395465, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 49s", "remaining_time": "2h 57m 44s", "loss_scale": 1.0, "consumed_samples": 1061888, "global_step/max_steps": "4148/6350"}
{"lm loss": 4.86916113, "grad_norm": 0.55863202, "learning_rate": 3.152e-05, "elapsed_time_per_iteration": 5.66672945, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 54s", "remaining_time": "2h 57m 40s", "loss_scale": 1.0, "consumed_samples": 1062144, "global_step/max_steps": "4149/6350"}
{"lm loss": 4.88804483, "grad_norm": 0.49845016, "learning_rate": 3.15e-05, "elapsed_time_per_iteration": 4.76154113, "memory(GiB)": 28.03, "elapsed_time": "5h 34m 59s", "remaining_time": "2h 57m 35s", "loss_scale": 1.0, "consumed_samples": 1062400, "global_step/max_steps": "4150/6350"}
{"lm loss": 4.8893218, "grad_norm": 0.54679739, "learning_rate": 3.148e-05, "elapsed_time_per_iteration": 4.72179532, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 4s", "remaining_time": "2h 57m 30s", "loss_scale": 1.0, "consumed_samples": 1062656, "global_step/max_steps": "4151/6350"}
{"lm loss": 4.9086318, "grad_norm": 0.53034627, "learning_rate": 3.145e-05, "elapsed_time_per_iteration": 5.00210118, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 9s", "remaining_time": "2h 57m 25s", "loss_scale": 1.0, "consumed_samples": 1062912, "global_step/max_steps": "4152/6350"}
{"lm loss": 4.90099859, "grad_norm": 0.50427204, "learning_rate": 3.143e-05, "elapsed_time_per_iteration": 4.74747705, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 14s", "remaining_time": "2h 57m 20s", "loss_scale": 1.0, "consumed_samples": 1063168, "global_step/max_steps": "4153/6350"}
{"lm loss": 4.89459801, "grad_norm": 0.51942837, "learning_rate": 3.141e-05, "elapsed_time_per_iteration": 4.78743935, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 19s", "remaining_time": "2h 57m 15s", "loss_scale": 1.0, "consumed_samples": 1063424, "global_step/max_steps": "4154/6350"}
{"lm loss": 4.89760685, "grad_norm": 0.4834111, "learning_rate": 3.138e-05, "elapsed_time_per_iteration": 4.73183966, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 23s", "remaining_time": "2h 57m 10s", "loss_scale": 1.0, "consumed_samples": 1063680, "global_step/max_steps": "4155/6350"}
{"lm loss": 4.89494085, "grad_norm": 0.55686814, "learning_rate": 3.136e-05, "elapsed_time_per_iteration": 4.82885242, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 28s", "remaining_time": "2h 57m 6s", "loss_scale": 1.0, "consumed_samples": 1063936, "global_step/max_steps": "4156/6350"}
{"lm loss": 4.88020134, "grad_norm": 0.65587533, "learning_rate": 3.134e-05, "elapsed_time_per_iteration": 4.69735074, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 33s", "remaining_time": "2h 57m 1s", "loss_scale": 1.0, "consumed_samples": 1064192, "global_step/max_steps": "4157/6350"}
{"lm loss": 4.88486385, "grad_norm": 0.53324294, "learning_rate": 3.131e-05, "elapsed_time_per_iteration": 5.61690497, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 38s", "remaining_time": "2h 56m 56s", "loss_scale": 1.0, "consumed_samples": 1064448, "global_step/max_steps": "4158/6350"}
{"lm loss": 4.88766575, "grad_norm": 0.63036364, "learning_rate": 3.129e-05, "elapsed_time_per_iteration": 4.76358438, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 43s", "remaining_time": "2h 56m 51s", "loss_scale": 1.0, "consumed_samples": 1064704, "global_step/max_steps": "4159/6350"}
{"lm loss": 4.90016603, "grad_norm": 0.66343552, "learning_rate": 3.127e-05, "elapsed_time_per_iteration": 4.72592902, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 48s", "remaining_time": "2h 56m 46s", "loss_scale": 1.0, "consumed_samples": 1064960, "global_step/max_steps": "4160/6350"}
{"lm loss": 4.87921381, "grad_norm": 0.95049846, "learning_rate": 3.125e-05, "elapsed_time_per_iteration": 4.7975502, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 53s", "remaining_time": "2h 56m 42s", "loss_scale": 1.0, "consumed_samples": 1065216, "global_step/max_steps": "4161/6350"}
{"lm loss": 4.87599802, "grad_norm": 0.53007418, "learning_rate": 3.122e-05, "elapsed_time_per_iteration": 4.7718029, "memory(GiB)": 28.03, "elapsed_time": "5h 35m 57s", "remaining_time": "2h 56m 37s", "loss_scale": 1.0, "consumed_samples": 1065472, "global_step/max_steps": "4162/6350"}
{"lm loss": 4.87311935, "grad_norm": 0.54378903, "learning_rate": 3.12e-05, "elapsed_time_per_iteration": 5.73335981, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 3s", "remaining_time": "2h 56m 32s", "loss_scale": 1.0, "consumed_samples": 1065728, "global_step/max_steps": "4163/6350"}
{"lm loss": 4.87927771, "grad_norm": 0.7005375, "learning_rate": 3.118e-05, "elapsed_time_per_iteration": 4.80417943, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 8s", "remaining_time": "2h 56m 27s", "loss_scale": 1.0, "consumed_samples": 1065984, "global_step/max_steps": "4164/6350"}
{"lm loss": 4.89889622, "grad_norm": 0.77762026, "learning_rate": 3.115e-05, "elapsed_time_per_iteration": 4.81193566, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 13s", "remaining_time": "2h 56m 23s", "loss_scale": 1.0, "consumed_samples": 1066240, "global_step/max_steps": "4165/6350"}
{"lm loss": 4.89147139, "grad_norm": 0.63218641, "learning_rate": 3.113e-05, "elapsed_time_per_iteration": 4.72502065, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 18s", "remaining_time": "2h 56m 18s", "loss_scale": 1.0, "consumed_samples": 1066496, "global_step/max_steps": "4166/6350"}
{"lm loss": 4.89431763, "grad_norm": 0.58571649, "learning_rate": 3.111e-05, "elapsed_time_per_iteration": 4.77489281, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 22s", "remaining_time": "2h 56m 13s", "loss_scale": 1.0, "consumed_samples": 1066752, "global_step/max_steps": "4167/6350"}
{"lm loss": 4.90327072, "grad_norm": 0.72668618, "learning_rate": 3.109e-05, "elapsed_time_per_iteration": 4.7323761, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 27s", "remaining_time": "2h 56m 8s", "loss_scale": 1.0, "consumed_samples": 1067008, "global_step/max_steps": "4168/6350"}
{"lm loss": 4.85213041, "grad_norm": 0.72539711, "learning_rate": 3.106e-05, "elapsed_time_per_iteration": 4.78886032, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 32s", "remaining_time": "2h 56m 3s", "loss_scale": 1.0, "consumed_samples": 1067264, "global_step/max_steps": "4169/6350"}
{"lm loss": 4.8922472, "grad_norm": 0.56345862, "learning_rate": 3.104e-05, "elapsed_time_per_iteration": 5.59654784, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 37s", "remaining_time": "2h 55m 59s", "loss_scale": 1.0, "consumed_samples": 1067520, "global_step/max_steps": "4170/6350"}
{"lm loss": 4.87295294, "grad_norm": 0.58700585, "learning_rate": 3.102e-05, "elapsed_time_per_iteration": 4.81506228, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 42s", "remaining_time": "2h 55m 54s", "loss_scale": 1.0, "consumed_samples": 1067776, "global_step/max_steps": "4171/6350"}
{"lm loss": 4.88832569, "grad_norm": 0.76252484, "learning_rate": 3.099e-05, "elapsed_time_per_iteration": 4.90073848, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 47s", "remaining_time": "2h 55m 49s", "loss_scale": 1.0, "consumed_samples": 1068032, "global_step/max_steps": "4172/6350"}
{"lm loss": 4.88781023, "grad_norm": 0.75024301, "learning_rate": 3.097e-05, "elapsed_time_per_iteration": 4.85170102, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 52s", "remaining_time": "2h 55m 44s", "loss_scale": 1.0, "consumed_samples": 1068288, "global_step/max_steps": "4173/6350"}
{"lm loss": 4.88718462, "grad_norm": 0.47339085, "learning_rate": 3.095e-05, "elapsed_time_per_iteration": 4.75221777, "memory(GiB)": 28.03, "elapsed_time": "5h 36m 57s", "remaining_time": "2h 55m 39s", "loss_scale": 1.0, "consumed_samples": 1068544, "global_step/max_steps": "4174/6350"}
{"lm loss": 4.88252163, "grad_norm": 0.6895234, "learning_rate": 3.093e-05, "elapsed_time_per_iteration": 4.7413187, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 1s", "remaining_time": "2h 55m 34s", "loss_scale": 1.0, "consumed_samples": 1068800, "global_step/max_steps": "4175/6350"}
{"lm loss": 4.89056873, "grad_norm": 1.48154914, "learning_rate": 3.09e-05, "elapsed_time_per_iteration": 4.79817748, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 6s", "remaining_time": "2h 55m 29s", "loss_scale": 1.0, "consumed_samples": 1069056, "global_step/max_steps": "4176/6350"}
{"lm loss": 4.87728834, "grad_norm": 0.64990294, "learning_rate": 3.088e-05, "elapsed_time_per_iteration": 4.73479104, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 11s", "remaining_time": "2h 55m 25s", "loss_scale": 1.0, "consumed_samples": 1069312, "global_step/max_steps": "4177/6350"}
{"lm loss": 4.88992262, "grad_norm": 0.91223592, "learning_rate": 3.086e-05, "elapsed_time_per_iteration": 4.75696969, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 16s", "remaining_time": "2h 55m 20s", "loss_scale": 1.0, "consumed_samples": 1069568, "global_step/max_steps": "4178/6350"}
{"lm loss": 4.87706757, "grad_norm": 0.75552106, "learning_rate": 3.083e-05, "elapsed_time_per_iteration": 4.81128359, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 21s", "remaining_time": "2h 55m 15s", "loss_scale": 1.0, "consumed_samples": 1069824, "global_step/max_steps": "4179/6350"}
{"lm loss": 4.88969851, "grad_norm": 0.56390399, "learning_rate": 3.081e-05, "elapsed_time_per_iteration": 4.79797149, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 25s", "remaining_time": "2h 55m 10s", "loss_scale": 1.0, "consumed_samples": 1070080, "global_step/max_steps": "4180/6350"}
{"lm loss": 4.88204479, "grad_norm": 0.68167299, "learning_rate": 3.079e-05, "elapsed_time_per_iteration": 4.77310824, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 30s", "remaining_time": "2h 55m 5s", "loss_scale": 1.0, "consumed_samples": 1070336, "global_step/max_steps": "4181/6350"}
{"lm loss": 4.86853838, "grad_norm": 0.61575484, "learning_rate": 3.077e-05, "elapsed_time_per_iteration": 5.18177009, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 35s", "remaining_time": "2h 55m 0s", "loss_scale": 1.0, "consumed_samples": 1070592, "global_step/max_steps": "4182/6350"}
{"lm loss": 4.88186741, "grad_norm": 0.51860708, "learning_rate": 3.074e-05, "elapsed_time_per_iteration": 4.78996444, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 40s", "remaining_time": "2h 54m 55s", "loss_scale": 1.0, "consumed_samples": 1070848, "global_step/max_steps": "4183/6350"}
{"lm loss": 4.87910318, "grad_norm": 0.53407663, "learning_rate": 3.072e-05, "elapsed_time_per_iteration": 4.83208108, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 45s", "remaining_time": "2h 54m 51s", "loss_scale": 1.0, "consumed_samples": 1071104, "global_step/max_steps": "4184/6350"}
{"lm loss": 4.8976717, "grad_norm": 0.62013221, "learning_rate": 3.07e-05, "elapsed_time_per_iteration": 4.74548197, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 50s", "remaining_time": "2h 54m 46s", "loss_scale": 1.0, "consumed_samples": 1071360, "global_step/max_steps": "4185/6350"}
{"lm loss": 4.89900398, "grad_norm": 0.51348311, "learning_rate": 3.067e-05, "elapsed_time_per_iteration": 4.76884317, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 54s", "remaining_time": "2h 54m 41s", "loss_scale": 1.0, "consumed_samples": 1071616, "global_step/max_steps": "4186/6350"}
{"lm loss": 4.88120985, "grad_norm": 0.71751249, "learning_rate": 3.065e-05, "elapsed_time_per_iteration": 4.77770233, "memory(GiB)": 28.03, "elapsed_time": "5h 37m 59s", "remaining_time": "2h 54m 36s", "loss_scale": 1.0, "consumed_samples": 1071872, "global_step/max_steps": "4187/6350"}
{"lm loss": 4.89568138, "grad_norm": 0.48281565, "learning_rate": 3.063e-05, "elapsed_time_per_iteration": 4.76886988, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 4s", "remaining_time": "2h 54m 31s", "loss_scale": 1.0, "consumed_samples": 1072128, "global_step/max_steps": "4188/6350"}
{"lm loss": 4.88158083, "grad_norm": 0.52327979, "learning_rate": 3.061e-05, "elapsed_time_per_iteration": 5.66885424, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 10s", "remaining_time": "2h 54m 27s", "loss_scale": 1.0, "consumed_samples": 1072384, "global_step/max_steps": "4189/6350"}
{"lm loss": 4.89522505, "grad_norm": 0.44963717, "learning_rate": 3.058e-05, "elapsed_time_per_iteration": 4.7935257, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 14s", "remaining_time": "2h 54m 22s", "loss_scale": 1.0, "consumed_samples": 1072640, "global_step/max_steps": "4190/6350"}
{"lm loss": 4.90164375, "grad_norm": 0.54203779, "learning_rate": 3.056e-05, "elapsed_time_per_iteration": 4.70803952, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 19s", "remaining_time": "2h 54m 17s", "loss_scale": 1.0, "consumed_samples": 1072896, "global_step/max_steps": "4191/6350"}
{"lm loss": 4.89469194, "grad_norm": 0.50167882, "learning_rate": 3.054e-05, "elapsed_time_per_iteration": 4.82627702, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 24s", "remaining_time": "2h 54m 12s", "loss_scale": 1.0, "consumed_samples": 1073152, "global_step/max_steps": "4192/6350"}
{"lm loss": 4.8911252, "grad_norm": 0.48530373, "learning_rate": 3.051e-05, "elapsed_time_per_iteration": 4.80454898, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 29s", "remaining_time": "2h 54m 7s", "loss_scale": 1.0, "consumed_samples": 1073408, "global_step/max_steps": "4193/6350"}
{"lm loss": 4.88340569, "grad_norm": 0.54293996, "learning_rate": 3.049e-05, "elapsed_time_per_iteration": 4.75279522, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 34s", "remaining_time": "2h 54m 2s", "loss_scale": 1.0, "consumed_samples": 1073664, "global_step/max_steps": "4194/6350"}
{"lm loss": 4.87846518, "grad_norm": 1.783656, "learning_rate": 3.047e-05, "elapsed_time_per_iteration": 5.52689219, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 39s", "remaining_time": "2h 53m 58s", "loss_scale": 1.0, "consumed_samples": 1073920, "global_step/max_steps": "4195/6350"}
{"lm loss": 4.90778637, "grad_norm": 0.57491946, "learning_rate": 3.045e-05, "elapsed_time_per_iteration": 4.75564265, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 44s", "remaining_time": "2h 53m 53s", "loss_scale": 1.0, "consumed_samples": 1074176, "global_step/max_steps": "4196/6350"}
{"lm loss": 4.86959362, "grad_norm": 0.61245054, "learning_rate": 3.042e-05, "elapsed_time_per_iteration": 5.72098827, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 50s", "remaining_time": "2h 53m 49s", "loss_scale": 1.0, "consumed_samples": 1074432, "global_step/max_steps": "4197/6350"}
{"lm loss": 4.89690351, "grad_norm": 0.56339675, "learning_rate": 3.04e-05, "elapsed_time_per_iteration": 4.71280932, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 54s", "remaining_time": "2h 53m 44s", "loss_scale": 1.0, "consumed_samples": 1074688, "global_step/max_steps": "4198/6350"}
{"lm loss": 4.88685894, "grad_norm": 0.45208731, "learning_rate": 3.038e-05, "elapsed_time_per_iteration": 4.766716, "memory(GiB)": 28.03, "elapsed_time": "5h 38m 59s", "remaining_time": "2h 53m 39s", "loss_scale": 1.0, "consumed_samples": 1074944, "global_step/max_steps": "4199/6350"}
{"lm loss": 4.88688612, "grad_norm": 0.49634349, "learning_rate": 3.036e-05, "elapsed_time_per_iteration": 4.68722248, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 4s", "remaining_time": "2h 53m 34s", "loss_scale": 1.0, "consumed_samples": 1075200, "global_step/max_steps": "4200/6350"}
{"lm loss": 4.91374111, "grad_norm": 0.46719337, "learning_rate": 3.033e-05, "elapsed_time_per_iteration": 4.71163535, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 8s", "remaining_time": "2h 53m 29s", "loss_scale": 1.0, "consumed_samples": 1075456, "global_step/max_steps": "4201/6350"}
{"lm loss": 4.88170624, "grad_norm": 0.46888709, "learning_rate": 3.031e-05, "elapsed_time_per_iteration": 4.70250511, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 13s", "remaining_time": "2h 53m 24s", "loss_scale": 1.0, "consumed_samples": 1075712, "global_step/max_steps": "4202/6350"}
{"lm loss": 4.89505291, "grad_norm": 0.49919406, "learning_rate": 3.029e-05, "elapsed_time_per_iteration": 4.75665927, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 18s", "remaining_time": "2h 53m 19s", "loss_scale": 1.0, "consumed_samples": 1075968, "global_step/max_steps": "4203/6350"}
{"lm loss": 4.86702538, "grad_norm": 0.42360067, "learning_rate": 3.026e-05, "elapsed_time_per_iteration": 4.72929573, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 23s", "remaining_time": "2h 53m 14s", "loss_scale": 1.0, "consumed_samples": 1076224, "global_step/max_steps": "4204/6350"}
{"lm loss": 4.89065886, "grad_norm": 0.46437719, "learning_rate": 3.024e-05, "elapsed_time_per_iteration": 5.00922036, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 28s", "remaining_time": "2h 53m 9s", "loss_scale": 1.0, "consumed_samples": 1076480, "global_step/max_steps": "4205/6350"}
{"lm loss": 4.87091684, "grad_norm": 0.43972462, "learning_rate": 3.022e-05, "elapsed_time_per_iteration": 4.7348876, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 32s", "remaining_time": "2h 53m 5s", "loss_scale": 1.0, "consumed_samples": 1076736, "global_step/max_steps": "4206/6350"}
{"lm loss": 4.88937044, "grad_norm": 0.53899014, "learning_rate": 3.02e-05, "elapsed_time_per_iteration": 4.73231697, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 37s", "remaining_time": "2h 53m 0s", "loss_scale": 1.0, "consumed_samples": 1076992, "global_step/max_steps": "4207/6350"}
{"lm loss": 4.870718, "grad_norm": 0.51133537, "learning_rate": 3.017e-05, "elapsed_time_per_iteration": 4.6977458, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 42s", "remaining_time": "2h 52m 55s", "loss_scale": 1.0, "consumed_samples": 1077248, "global_step/max_steps": "4208/6350"}
{"lm loss": 4.88981867, "grad_norm": 0.50324678, "learning_rate": 3.015e-05, "elapsed_time_per_iteration": 4.7030828, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 47s", "remaining_time": "2h 52m 50s", "loss_scale": 1.0, "consumed_samples": 1077504, "global_step/max_steps": "4209/6350"}
{"lm loss": 4.88933182, "grad_norm": 0.46803546, "learning_rate": 3.013e-05, "elapsed_time_per_iteration": 4.69867468, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 51s", "remaining_time": "2h 52m 45s", "loss_scale": 1.0, "consumed_samples": 1077760, "global_step/max_steps": "4210/6350"}
{"lm loss": 4.87865734, "grad_norm": 0.4602406, "learning_rate": 3.011e-05, "elapsed_time_per_iteration": 5.57091999, "memory(GiB)": 28.03, "elapsed_time": "5h 39m 57s", "remaining_time": "2h 52m 40s", "loss_scale": 1.0, "consumed_samples": 1078016, "global_step/max_steps": "4211/6350"}
{"lm loss": 4.89082289, "grad_norm": 0.45484573, "learning_rate": 3.008e-05, "elapsed_time_per_iteration": 4.80672574, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 2s", "remaining_time": "2h 52m 36s", "loss_scale": 1.0, "consumed_samples": 1078272, "global_step/max_steps": "4212/6350"}
{"lm loss": 4.86929607, "grad_norm": 0.48767072, "learning_rate": 3.006e-05, "elapsed_time_per_iteration": 4.71382475, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 6s", "remaining_time": "2h 52m 31s", "loss_scale": 1.0, "consumed_samples": 1078528, "global_step/max_steps": "4213/6350"}
{"lm loss": 4.8986907, "grad_norm": 0.46257406, "learning_rate": 3.004e-05, "elapsed_time_per_iteration": 4.72704816, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 11s", "remaining_time": "2h 52m 26s", "loss_scale": 1.0, "consumed_samples": 1078784, "global_step/max_steps": "4214/6350"}
{"lm loss": 4.89746952, "grad_norm": 0.45135874, "learning_rate": 3.001e-05, "elapsed_time_per_iteration": 4.75979877, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 16s", "remaining_time": "2h 52m 21s", "loss_scale": 1.0, "consumed_samples": 1079040, "global_step/max_steps": "4215/6350"}
{"lm loss": 4.86677027, "grad_norm": 0.44628596, "learning_rate": 2.999e-05, "elapsed_time_per_iteration": 5.46297383, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 21s", "remaining_time": "2h 52m 16s", "loss_scale": 1.0, "consumed_samples": 1079296, "global_step/max_steps": "4216/6350"}
{"lm loss": 4.88736916, "grad_norm": 0.46026745, "learning_rate": 2.997e-05, "elapsed_time_per_iteration": 4.83083963, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 26s", "remaining_time": "2h 52m 11s", "loss_scale": 1.0, "consumed_samples": 1079552, "global_step/max_steps": "4217/6350"}
{"lm loss": 4.88790941, "grad_norm": 0.53468686, "learning_rate": 2.995e-05, "elapsed_time_per_iteration": 4.79276538, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 31s", "remaining_time": "2h 52m 7s", "loss_scale": 1.0, "consumed_samples": 1079808, "global_step/max_steps": "4218/6350"}
{"lm loss": 4.88588381, "grad_norm": 0.57029766, "learning_rate": 2.992e-05, "elapsed_time_per_iteration": 4.72072029, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 36s", "remaining_time": "2h 52m 2s", "loss_scale": 1.0, "consumed_samples": 1080064, "global_step/max_steps": "4219/6350"}
{"lm loss": 4.90250492, "grad_norm": 0.66762096, "learning_rate": 2.99e-05, "elapsed_time_per_iteration": 4.70387173, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 40s", "remaining_time": "2h 51m 57s", "loss_scale": 1.0, "consumed_samples": 1080320, "global_step/max_steps": "4220/6350"}
{"lm loss": 4.88595295, "grad_norm": 0.4941479, "learning_rate": 2.988e-05, "elapsed_time_per_iteration": 4.71658397, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 45s", "remaining_time": "2h 51m 52s", "loss_scale": 1.0, "consumed_samples": 1080576, "global_step/max_steps": "4221/6350"}
{"lm loss": 4.87782383, "grad_norm": 0.83509135, "learning_rate": 2.986e-05, "elapsed_time_per_iteration": 4.6431787, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 50s", "remaining_time": "2h 51m 47s", "loss_scale": 1.0, "consumed_samples": 1080832, "global_step/max_steps": "4222/6350"}
{"lm loss": 4.89678955, "grad_norm": 0.49446306, "learning_rate": 2.983e-05, "elapsed_time_per_iteration": 4.72078061, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 54s", "remaining_time": "2h 51m 42s", "loss_scale": 1.0, "consumed_samples": 1081088, "global_step/max_steps": "4223/6350"}
{"lm loss": 4.87281799, "grad_norm": 0.56147295, "learning_rate": 2.981e-05, "elapsed_time_per_iteration": 4.67728639, "memory(GiB)": 28.03, "elapsed_time": "5h 40m 59s", "remaining_time": "2h 51m 37s", "loss_scale": 1.0, "consumed_samples": 1081344, "global_step/max_steps": "4224/6350"}
{"lm loss": 4.91765785, "grad_norm": 0.62093782, "learning_rate": 2.979e-05, "elapsed_time_per_iteration": 4.67052269, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 4s", "remaining_time": "2h 51m 32s", "loss_scale": 1.0, "consumed_samples": 1081600, "global_step/max_steps": "4225/6350"}
{"lm loss": 4.88021421, "grad_norm": 0.52229875, "learning_rate": 2.977e-05, "elapsed_time_per_iteration": 4.7522254, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 8s", "remaining_time": "2h 51m 27s", "loss_scale": 1.0, "consumed_samples": 1081856, "global_step/max_steps": "4226/6350"}
{"lm loss": 4.89088392, "grad_norm": 0.50361121, "learning_rate": 2.974e-05, "elapsed_time_per_iteration": 4.7551136, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 13s", "remaining_time": "2h 51m 22s", "loss_scale": 1.0, "consumed_samples": 1082112, "global_step/max_steps": "4227/6350"}
{"lm loss": 4.907969, "grad_norm": 0.47557127, "learning_rate": 2.972e-05, "elapsed_time_per_iteration": 4.77224517, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 18s", "remaining_time": "2h 51m 17s", "loss_scale": 1.0, "consumed_samples": 1082368, "global_step/max_steps": "4228/6350"}
{"lm loss": 4.90222025, "grad_norm": 0.47240528, "learning_rate": 2.97e-05, "elapsed_time_per_iteration": 4.78213978, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 23s", "remaining_time": "2h 51m 13s", "loss_scale": 1.0, "consumed_samples": 1082624, "global_step/max_steps": "4229/6350"}
{"lm loss": 4.89590168, "grad_norm": 0.47266316, "learning_rate": 2.968e-05, "elapsed_time_per_iteration": 4.69611073, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 27s", "remaining_time": "2h 51m 8s", "loss_scale": 1.0, "consumed_samples": 1082880, "global_step/max_steps": "4230/6350"}
{"lm loss": 4.90696335, "grad_norm": 0.43182936, "learning_rate": 2.965e-05, "elapsed_time_per_iteration": 5.50319695, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 33s", "remaining_time": "2h 51m 3s", "loss_scale": 1.0, "consumed_samples": 1083136, "global_step/max_steps": "4231/6350"}
{"lm loss": 4.89635706, "grad_norm": 0.47750342, "learning_rate": 2.963e-05, "elapsed_time_per_iteration": 4.73657417, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 38s", "remaining_time": "2h 50m 58s", "loss_scale": 1.0, "consumed_samples": 1083392, "global_step/max_steps": "4232/6350"}
{"lm loss": 4.90169477, "grad_norm": 0.56830293, "learning_rate": 2.961e-05, "elapsed_time_per_iteration": 4.74326491, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 42s", "remaining_time": "2h 50m 53s", "loss_scale": 1.0, "consumed_samples": 1083648, "global_step/max_steps": "4233/6350"}
{"lm loss": 4.89605761, "grad_norm": 0.5561952, "learning_rate": 2.959e-05, "elapsed_time_per_iteration": 4.70130444, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 47s", "remaining_time": "2h 50m 48s", "loss_scale": 1.0, "consumed_samples": 1083904, "global_step/max_steps": "4234/6350"}
{"lm loss": 4.87258768, "grad_norm": 0.56637949, "learning_rate": 2.956e-05, "elapsed_time_per_iteration": 4.67957592, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 52s", "remaining_time": "2h 50m 44s", "loss_scale": 1.0, "consumed_samples": 1084160, "global_step/max_steps": "4235/6350"}
{"lm loss": 4.88352394, "grad_norm": 0.62919819, "learning_rate": 2.954e-05, "elapsed_time_per_iteration": 5.39639831, "memory(GiB)": 28.03, "elapsed_time": "5h 41m 57s", "remaining_time": "2h 50m 39s", "loss_scale": 1.0, "consumed_samples": 1084416, "global_step/max_steps": "4236/6350"}
{"lm loss": 4.88745689, "grad_norm": 0.60043883, "learning_rate": 2.952e-05, "elapsed_time_per_iteration": 4.70086789, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 2s", "remaining_time": "2h 50m 34s", "loss_scale": 1.0, "consumed_samples": 1084672, "global_step/max_steps": "4237/6350"}
{"lm loss": 4.87282419, "grad_norm": 0.51344329, "learning_rate": 2.95e-05, "elapsed_time_per_iteration": 4.68314242, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 7s", "remaining_time": "2h 50m 29s", "loss_scale": 1.0, "consumed_samples": 1084928, "global_step/max_steps": "4238/6350"}
{"lm loss": 4.90092325, "grad_norm": 0.62557292, "learning_rate": 2.947e-05, "elapsed_time_per_iteration": 4.64042974, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 11s", "remaining_time": "2h 50m 24s", "loss_scale": 1.0, "consumed_samples": 1085184, "global_step/max_steps": "4239/6350"}
{"lm loss": 4.86841774, "grad_norm": 0.73985791, "learning_rate": 2.945e-05, "elapsed_time_per_iteration": 5.79210997, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 17s", "remaining_time": "2h 50m 20s", "loss_scale": 1.0, "consumed_samples": 1085440, "global_step/max_steps": "4240/6350"}
{"lm loss": 4.88121557, "grad_norm": 0.76125282, "learning_rate": 2.943e-05, "elapsed_time_per_iteration": 5.4758594, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 23s", "remaining_time": "2h 50m 15s", "loss_scale": 1.0, "consumed_samples": 1085696, "global_step/max_steps": "4241/6350"}
{"lm loss": 4.89361572, "grad_norm": 0.55927491, "learning_rate": 2.941e-05, "elapsed_time_per_iteration": 4.70393682, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 27s", "remaining_time": "2h 50m 10s", "loss_scale": 1.0, "consumed_samples": 1085952, "global_step/max_steps": "4242/6350"}
{"lm loss": 4.89246988, "grad_norm": 0.48400822, "learning_rate": 2.938e-05, "elapsed_time_per_iteration": 4.73872828, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 32s", "remaining_time": "2h 50m 6s", "loss_scale": 1.0, "consumed_samples": 1086208, "global_step/max_steps": "4243/6350"}
{"lm loss": 4.89385271, "grad_norm": 0.70664233, "learning_rate": 2.936e-05, "elapsed_time_per_iteration": 4.71383333, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 37s", "remaining_time": "2h 50m 1s", "loss_scale": 1.0, "consumed_samples": 1086464, "global_step/max_steps": "4244/6350"}
{"lm loss": 4.87984514, "grad_norm": 0.64907587, "learning_rate": 2.934e-05, "elapsed_time_per_iteration": 4.71289492, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 41s", "remaining_time": "2h 49m 56s", "loss_scale": 1.0, "consumed_samples": 1086720, "global_step/max_steps": "4245/6350"}
{"lm loss": 4.88776588, "grad_norm": 0.49742678, "learning_rate": 2.932e-05, "elapsed_time_per_iteration": 4.7115984, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 46s", "remaining_time": "2h 49m 51s", "loss_scale": 1.0, "consumed_samples": 1086976, "global_step/max_steps": "4246/6350"}
{"lm loss": 4.8692112, "grad_norm": 0.47398409, "learning_rate": 2.929e-05, "elapsed_time_per_iteration": 4.72469568, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 51s", "remaining_time": "2h 49m 46s", "loss_scale": 1.0, "consumed_samples": 1087232, "global_step/max_steps": "4247/6350"}
{"lm loss": 4.88391018, "grad_norm": 0.54250431, "learning_rate": 2.927e-05, "elapsed_time_per_iteration": 4.67756534, "memory(GiB)": 28.03, "elapsed_time": "5h 42m 56s", "remaining_time": "2h 49m 41s", "loss_scale": 1.0, "consumed_samples": 1087488, "global_step/max_steps": "4248/6350"}
{"lm loss": 4.85813522, "grad_norm": 0.44907859, "learning_rate": 2.925e-05, "elapsed_time_per_iteration": 4.808038, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 0s", "remaining_time": "2h 49m 36s", "loss_scale": 1.0, "consumed_samples": 1087744, "global_step/max_steps": "4249/6350"}
{"lm loss": 4.88977861, "grad_norm": 0.56476521, "learning_rate": 2.923e-05, "elapsed_time_per_iteration": 5.40924311, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 6s", "remaining_time": "2h 49m 32s", "loss_scale": 1.0, "consumed_samples": 1088000, "global_step/max_steps": "4250/6350"}
{"lm loss": 4.86708689, "grad_norm": 0.52100396, "learning_rate": 2.92e-05, "elapsed_time_per_iteration": 4.75326443, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 10s", "remaining_time": "2h 49m 27s", "loss_scale": 1.0, "consumed_samples": 1088256, "global_step/max_steps": "4251/6350"}
{"lm loss": 4.88486242, "grad_norm": 0.5006693, "learning_rate": 2.918e-05, "elapsed_time_per_iteration": 4.59213161, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 15s", "remaining_time": "2h 49m 22s", "loss_scale": 1.0, "consumed_samples": 1088512, "global_step/max_steps": "4252/6350"}
{"lm loss": 4.88937283, "grad_norm": 0.51341063, "learning_rate": 2.916e-05, "elapsed_time_per_iteration": 4.80030251, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 20s", "remaining_time": "2h 49m 17s", "loss_scale": 1.0, "consumed_samples": 1088768, "global_step/max_steps": "4253/6350"}
{"lm loss": 4.84726858, "grad_norm": 0.50118256, "learning_rate": 2.914e-05, "elapsed_time_per_iteration": 4.68669367, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 25s", "remaining_time": "2h 49m 12s", "loss_scale": 1.0, "consumed_samples": 1089024, "global_step/max_steps": "4254/6350"}
{"lm loss": 4.87601376, "grad_norm": 0.51892608, "learning_rate": 2.911e-05, "elapsed_time_per_iteration": 4.66832185, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 29s", "remaining_time": "2h 49m 7s", "loss_scale": 1.0, "consumed_samples": 1089280, "global_step/max_steps": "4255/6350"}
{"lm loss": 4.88391542, "grad_norm": 0.47345436, "learning_rate": 2.909e-05, "elapsed_time_per_iteration": 5.39383483, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 35s", "remaining_time": "2h 49m 2s", "loss_scale": 1.0, "consumed_samples": 1089536, "global_step/max_steps": "4256/6350"}
{"lm loss": 4.89986849, "grad_norm": 0.52499151, "learning_rate": 2.907e-05, "elapsed_time_per_iteration": 4.68353367, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 39s", "remaining_time": "2h 48m 57s", "loss_scale": 1.0, "consumed_samples": 1089792, "global_step/max_steps": "4257/6350"}
{"lm loss": 4.89201212, "grad_norm": 0.498, "learning_rate": 2.905e-05, "elapsed_time_per_iteration": 4.75117445, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 44s", "remaining_time": "2h 48m 53s", "loss_scale": 1.0, "consumed_samples": 1090048, "global_step/max_steps": "4258/6350"}
{"lm loss": 4.89838409, "grad_norm": 0.59491307, "learning_rate": 2.902e-05, "elapsed_time_per_iteration": 4.74117446, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 49s", "remaining_time": "2h 48m 48s", "loss_scale": 1.0, "consumed_samples": 1090304, "global_step/max_steps": "4259/6350"}
{"lm loss": 4.88308525, "grad_norm": 0.55176741, "learning_rate": 2.9e-05, "elapsed_time_per_iteration": 4.76479006, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 54s", "remaining_time": "2h 48m 43s", "loss_scale": 1.0, "consumed_samples": 1090560, "global_step/max_steps": "4260/6350"}
{"lm loss": 4.87545109, "grad_norm": 0.47897196, "learning_rate": 2.898e-05, "elapsed_time_per_iteration": 5.40419316, "memory(GiB)": 28.03, "elapsed_time": "5h 43m 59s", "remaining_time": "2h 48m 38s", "loss_scale": 1.0, "consumed_samples": 1090816, "global_step/max_steps": "4261/6350"}
{"lm loss": 4.8956337, "grad_norm": 0.47034261, "learning_rate": 2.896e-05, "elapsed_time_per_iteration": 4.70725656, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 4s", "remaining_time": "2h 48m 33s", "loss_scale": 1.0, "consumed_samples": 1091072, "global_step/max_steps": "4262/6350"}
{"lm loss": 4.9151988, "grad_norm": 0.54484707, "learning_rate": 2.893e-05, "elapsed_time_per_iteration": 4.73994303, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 8s", "remaining_time": "2h 48m 28s", "loss_scale": 1.0, "consumed_samples": 1091328, "global_step/max_steps": "4263/6350"}
{"lm loss": 4.89126158, "grad_norm": 0.5285188, "learning_rate": 2.891e-05, "elapsed_time_per_iteration": 4.77714992, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 13s", "remaining_time": "2h 48m 24s", "loss_scale": 1.0, "consumed_samples": 1091584, "global_step/max_steps": "4264/6350"}
{"lm loss": 4.90121746, "grad_norm": 0.49383309, "learning_rate": 2.889e-05, "elapsed_time_per_iteration": 4.71495819, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 18s", "remaining_time": "2h 48m 19s", "loss_scale": 1.0, "consumed_samples": 1091840, "global_step/max_steps": "4265/6350"}
{"lm loss": 4.88385296, "grad_norm": 0.50704718, "learning_rate": 2.887e-05, "elapsed_time_per_iteration": 4.72213411, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 23s", "remaining_time": "2h 48m 14s", "loss_scale": 1.0, "consumed_samples": 1092096, "global_step/max_steps": "4266/6350"}
{"lm loss": 4.88683605, "grad_norm": 0.47812521, "learning_rate": 2.885e-05, "elapsed_time_per_iteration": 4.74692702, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 27s", "remaining_time": "2h 48m 9s", "loss_scale": 1.0, "consumed_samples": 1092352, "global_step/max_steps": "4267/6350"}
{"lm loss": 4.88027859, "grad_norm": 0.46514225, "learning_rate": 2.882e-05, "elapsed_time_per_iteration": 4.72638464, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 32s", "remaining_time": "2h 48m 4s", "loss_scale": 1.0, "consumed_samples": 1092608, "global_step/max_steps": "4268/6350"}
{"lm loss": 4.88617516, "grad_norm": 0.46994224, "learning_rate": 2.88e-05, "elapsed_time_per_iteration": 4.70489717, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 37s", "remaining_time": "2h 47m 59s", "loss_scale": 1.0, "consumed_samples": 1092864, "global_step/max_steps": "4269/6350"}
{"lm loss": 4.87912941, "grad_norm": 0.53203183, "learning_rate": 2.878e-05, "elapsed_time_per_iteration": 4.7446804, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 42s", "remaining_time": "2h 47m 54s", "loss_scale": 1.0, "consumed_samples": 1093120, "global_step/max_steps": "4270/6350"}
{"lm loss": 4.88706875, "grad_norm": 0.66002071, "learning_rate": 2.876e-05, "elapsed_time_per_iteration": 4.75565934, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 46s", "remaining_time": "2h 47m 49s", "loss_scale": 1.0, "consumed_samples": 1093376, "global_step/max_steps": "4271/6350"}
{"lm loss": 4.89632463, "grad_norm": 0.68478549, "learning_rate": 2.873e-05, "elapsed_time_per_iteration": 4.70729256, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 51s", "remaining_time": "2h 47m 44s", "loss_scale": 1.0, "consumed_samples": 1093632, "global_step/max_steps": "4272/6350"}
{"lm loss": 4.88086748, "grad_norm": 0.57725978, "learning_rate": 2.871e-05, "elapsed_time_per_iteration": 4.77702117, "memory(GiB)": 28.03, "elapsed_time": "5h 44m 56s", "remaining_time": "2h 47m 39s", "loss_scale": 1.0, "consumed_samples": 1093888, "global_step/max_steps": "4273/6350"}
{"lm loss": 4.8883543, "grad_norm": 0.42242712, "learning_rate": 2.869e-05, "elapsed_time_per_iteration": 4.68822002, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 0s", "remaining_time": "2h 47m 35s", "loss_scale": 1.0, "consumed_samples": 1094144, "global_step/max_steps": "4274/6350"}
{"lm loss": 4.87225103, "grad_norm": 0.55249226, "learning_rate": 2.867e-05, "elapsed_time_per_iteration": 4.69630957, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 5s", "remaining_time": "2h 47m 30s", "loss_scale": 1.0, "consumed_samples": 1094400, "global_step/max_steps": "4275/6350"}
{"lm loss": 4.88960838, "grad_norm": 0.71587229, "learning_rate": 2.864e-05, "elapsed_time_per_iteration": 4.77250791, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 10s", "remaining_time": "2h 47m 25s", "loss_scale": 1.0, "consumed_samples": 1094656, "global_step/max_steps": "4276/6350"}
{"lm loss": 4.87530851, "grad_norm": 0.71445435, "learning_rate": 2.862e-05, "elapsed_time_per_iteration": 4.75184131, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 15s", "remaining_time": "2h 47m 20s", "loss_scale": 1.0, "consumed_samples": 1094912, "global_step/max_steps": "4277/6350"}
{"lm loss": 4.8787775, "grad_norm": 0.44617268, "learning_rate": 2.86e-05, "elapsed_time_per_iteration": 4.69999623, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 19s", "remaining_time": "2h 47m 15s", "loss_scale": 1.0, "consumed_samples": 1095168, "global_step/max_steps": "4278/6350"}
{"lm loss": 4.8724103, "grad_norm": 0.74293202, "learning_rate": 2.858e-05, "elapsed_time_per_iteration": 4.74147534, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 24s", "remaining_time": "2h 47m 10s", "loss_scale": 1.0, "consumed_samples": 1095424, "global_step/max_steps": "4279/6350"}
{"lm loss": 4.89357185, "grad_norm": 0.64710188, "learning_rate": 2.856e-05, "elapsed_time_per_iteration": 4.76903224, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 29s", "remaining_time": "2h 47m 5s", "loss_scale": 1.0, "consumed_samples": 1095680, "global_step/max_steps": "4280/6350"}
{"lm loss": 4.88837671, "grad_norm": 0.53071678, "learning_rate": 2.853e-05, "elapsed_time_per_iteration": 4.74950695, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 34s", "remaining_time": "2h 47m 0s", "loss_scale": 1.0, "consumed_samples": 1095936, "global_step/max_steps": "4281/6350"}
{"lm loss": 4.91394997, "grad_norm": 0.48595887, "learning_rate": 2.851e-05, "elapsed_time_per_iteration": 5.56099033, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 39s", "remaining_time": "2h 46m 56s", "loss_scale": 1.0, "consumed_samples": 1096192, "global_step/max_steps": "4282/6350"}
{"lm loss": 4.92316389, "grad_norm": 0.50197661, "learning_rate": 2.849e-05, "elapsed_time_per_iteration": 4.77220201, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 44s", "remaining_time": "2h 46m 51s", "loss_scale": 1.0, "consumed_samples": 1096448, "global_step/max_steps": "4283/6350"}
{"lm loss": 4.87129736, "grad_norm": 0.52215058, "learning_rate": 2.847e-05, "elapsed_time_per_iteration": 4.6669333, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 49s", "remaining_time": "2h 46m 46s", "loss_scale": 1.0, "consumed_samples": 1096704, "global_step/max_steps": "4284/6350"}
{"lm loss": 4.8835268, "grad_norm": 0.50473469, "learning_rate": 2.844e-05, "elapsed_time_per_iteration": 4.70055604, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 53s", "remaining_time": "2h 46m 41s", "loss_scale": 1.0, "consumed_samples": 1096960, "global_step/max_steps": "4285/6350"}
{"lm loss": 4.87154961, "grad_norm": 1.43540549, "learning_rate": 2.842e-05, "elapsed_time_per_iteration": 4.7639339, "memory(GiB)": 28.03, "elapsed_time": "5h 45m 58s", "remaining_time": "2h 46m 36s", "loss_scale": 1.0, "consumed_samples": 1097216, "global_step/max_steps": "4286/6350"}
{"lm loss": 4.88261986, "grad_norm": 0.5040248, "learning_rate": 2.84e-05, "elapsed_time_per_iteration": 5.45340729, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 4s", "remaining_time": "2h 46m 32s", "loss_scale": 1.0, "consumed_samples": 1097472, "global_step/max_steps": "4287/6350"}
{"lm loss": 4.87395, "grad_norm": 0.45120209, "learning_rate": 2.838e-05, "elapsed_time_per_iteration": 4.71955132, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 8s", "remaining_time": "2h 46m 27s", "loss_scale": 1.0, "consumed_samples": 1097728, "global_step/max_steps": "4288/6350"}
{"lm loss": 4.88118839, "grad_norm": 0.54173446, "learning_rate": 2.836e-05, "elapsed_time_per_iteration": 4.7363863, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 13s", "remaining_time": "2h 46m 22s", "loss_scale": 1.0, "consumed_samples": 1097984, "global_step/max_steps": "4289/6350"}
{"lm loss": 4.89862537, "grad_norm": 0.48778126, "learning_rate": 2.833e-05, "elapsed_time_per_iteration": 5.65463614, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 19s", "remaining_time": "2h 46m 17s", "loss_scale": 1.0, "consumed_samples": 1098240, "global_step/max_steps": "4290/6350"}
{"lm loss": 4.88668919, "grad_norm": 0.43566597, "learning_rate": 2.831e-05, "elapsed_time_per_iteration": 4.79206061, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 23s", "remaining_time": "2h 46m 13s", "loss_scale": 1.0, "consumed_samples": 1098496, "global_step/max_steps": "4291/6350"}
{"lm loss": 4.88651752, "grad_norm": 0.5025605, "learning_rate": 2.829e-05, "elapsed_time_per_iteration": 4.67615104, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 28s", "remaining_time": "2h 46m 8s", "loss_scale": 1.0, "consumed_samples": 1098752, "global_step/max_steps": "4292/6350"}
{"lm loss": 4.8794136, "grad_norm": 0.58805698, "learning_rate": 2.827e-05, "elapsed_time_per_iteration": 4.6511488, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 33s", "remaining_time": "2h 46m 3s", "loss_scale": 1.0, "consumed_samples": 1099008, "global_step/max_steps": "4293/6350"}
{"lm loss": 4.88073015, "grad_norm": 0.52188462, "learning_rate": 2.824e-05, "elapsed_time_per_iteration": 4.68852496, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 38s", "remaining_time": "2h 45m 58s", "loss_scale": 1.0, "consumed_samples": 1099264, "global_step/max_steps": "4294/6350"}
{"lm loss": 4.89716053, "grad_norm": 0.45654452, "learning_rate": 2.822e-05, "elapsed_time_per_iteration": 4.7026813, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 42s", "remaining_time": "2h 45m 53s", "loss_scale": 1.0, "consumed_samples": 1099520, "global_step/max_steps": "4295/6350"}
{"lm loss": 4.89478064, "grad_norm": 0.57228279, "learning_rate": 2.82e-05, "elapsed_time_per_iteration": 5.30958962, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 48s", "remaining_time": "2h 45m 48s", "loss_scale": 1.0, "consumed_samples": 1099776, "global_step/max_steps": "4296/6350"}
{"lm loss": 4.89619398, "grad_norm": 0.674779, "learning_rate": 2.818e-05, "elapsed_time_per_iteration": 4.69298148, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 52s", "remaining_time": "2h 45m 43s", "loss_scale": 1.0, "consumed_samples": 1100032, "global_step/max_steps": "4297/6350"}
{"lm loss": 4.8619647, "grad_norm": 0.50598133, "learning_rate": 2.816e-05, "elapsed_time_per_iteration": 4.73475099, "memory(GiB)": 28.03, "elapsed_time": "5h 46m 57s", "remaining_time": "2h 45m 38s", "loss_scale": 1.0, "consumed_samples": 1100288, "global_step/max_steps": "4298/6350"}
{"lm loss": 4.86246538, "grad_norm": 0.60011697, "learning_rate": 2.813e-05, "elapsed_time_per_iteration": 4.68580389, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 2s", "remaining_time": "2h 45m 33s", "loss_scale": 1.0, "consumed_samples": 1100544, "global_step/max_steps": "4299/6350"}
{"lm loss": 4.88551903, "grad_norm": 0.75866961, "learning_rate": 2.811e-05, "elapsed_time_per_iteration": 4.71913719, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 6s", "remaining_time": "2h 45m 29s", "loss_scale": 1.0, "consumed_samples": 1100800, "global_step/max_steps": "4300/6350"}
{"lm loss": 4.89279509, "grad_norm": 0.54168481, "learning_rate": 2.809e-05, "elapsed_time_per_iteration": 4.69050241, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 11s", "remaining_time": "2h 45m 24s", "loss_scale": 1.0, "consumed_samples": 1101056, "global_step/max_steps": "4301/6350"}
{"lm loss": 4.89617062, "grad_norm": 0.58297104, "learning_rate": 2.807e-05, "elapsed_time_per_iteration": 4.68770599, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 16s", "remaining_time": "2h 45m 19s", "loss_scale": 1.0, "consumed_samples": 1101312, "global_step/max_steps": "4302/6350"}
{"lm loss": 4.89066172, "grad_norm": 0.59297591, "learning_rate": 2.805e-05, "elapsed_time_per_iteration": 4.76088333, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 20s", "remaining_time": "2h 45m 14s", "loss_scale": 1.0, "consumed_samples": 1101568, "global_step/max_steps": "4303/6350"}
{"lm loss": 4.87367964, "grad_norm": 0.53074086, "learning_rate": 2.802e-05, "elapsed_time_per_iteration": 4.73105073, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 25s", "remaining_time": "2h 45m 9s", "loss_scale": 1.0, "consumed_samples": 1101824, "global_step/max_steps": "4304/6350"}
{"lm loss": 4.87405825, "grad_norm": 0.49625105, "learning_rate": 2.8e-05, "elapsed_time_per_iteration": 4.7257638, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 30s", "remaining_time": "2h 45m 4s", "loss_scale": 1.0, "consumed_samples": 1102080, "global_step/max_steps": "4305/6350"}
{"lm loss": 4.88940954, "grad_norm": 0.492587, "learning_rate": 2.798e-05, "elapsed_time_per_iteration": 4.74085522, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 35s", "remaining_time": "2h 44m 59s", "loss_scale": 1.0, "consumed_samples": 1102336, "global_step/max_steps": "4306/6350"}
{"lm loss": 4.88491869, "grad_norm": 0.5008803, "learning_rate": 2.796e-05, "elapsed_time_per_iteration": 4.73164153, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 39s", "remaining_time": "2h 44m 54s", "loss_scale": 1.0, "consumed_samples": 1102592, "global_step/max_steps": "4307/6350"}
{"lm loss": 4.87884951, "grad_norm": 0.48657426, "learning_rate": 2.793e-05, "elapsed_time_per_iteration": 4.68589711, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 44s", "remaining_time": "2h 44m 49s", "loss_scale": 1.0, "consumed_samples": 1102848, "global_step/max_steps": "4308/6350"}
{"lm loss": 4.87511444, "grad_norm": 0.52981418, "learning_rate": 2.791e-05, "elapsed_time_per_iteration": 5.18821383, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 49s", "remaining_time": "2h 44m 45s", "loss_scale": 1.0, "consumed_samples": 1103104, "global_step/max_steps": "4309/6350"}
{"lm loss": 4.87327766, "grad_norm": 0.44449967, "learning_rate": 2.789e-05, "elapsed_time_per_iteration": 4.78487468, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 54s", "remaining_time": "2h 44m 40s", "loss_scale": 1.0, "consumed_samples": 1103360, "global_step/max_steps": "4310/6350"}
{"lm loss": 4.88424969, "grad_norm": 0.5195421, "learning_rate": 2.787e-05, "elapsed_time_per_iteration": 4.75282788, "memory(GiB)": 28.03, "elapsed_time": "5h 47m 59s", "remaining_time": "2h 44m 35s", "loss_scale": 1.0, "consumed_samples": 1103616, "global_step/max_steps": "4311/6350"}
{"lm loss": 4.87047911, "grad_norm": 0.54728198, "learning_rate": 2.785e-05, "elapsed_time_per_iteration": 4.73818278, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 4s", "remaining_time": "2h 44m 30s", "loss_scale": 1.0, "consumed_samples": 1103872, "global_step/max_steps": "4312/6350"}
{"lm loss": 4.91223955, "grad_norm": 0.57445467, "learning_rate": 2.782e-05, "elapsed_time_per_iteration": 4.64804959, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 8s", "remaining_time": "2h 44m 25s", "loss_scale": 1.0, "consumed_samples": 1104128, "global_step/max_steps": "4313/6350"}
{"lm loss": 4.860744, "grad_norm": 0.45964, "learning_rate": 2.78e-05, "elapsed_time_per_iteration": 4.72591352, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 13s", "remaining_time": "2h 44m 20s", "loss_scale": 1.0, "consumed_samples": 1104384, "global_step/max_steps": "4314/6350"}
{"lm loss": 4.89005852, "grad_norm": 0.5455696, "learning_rate": 2.778e-05, "elapsed_time_per_iteration": 4.68819737, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 18s", "remaining_time": "2h 44m 15s", "loss_scale": 1.0, "consumed_samples": 1104640, "global_step/max_steps": "4315/6350"}
{"lm loss": 4.87988663, "grad_norm": 0.44829154, "learning_rate": 2.776e-05, "elapsed_time_per_iteration": 4.70591593, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 22s", "remaining_time": "2h 44m 10s", "loss_scale": 1.0, "consumed_samples": 1104896, "global_step/max_steps": "4316/6350"}
{"lm loss": 4.85327101, "grad_norm": 0.50715435, "learning_rate": 2.774e-05, "elapsed_time_per_iteration": 4.63668275, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 27s", "remaining_time": "2h 44m 5s", "loss_scale": 1.0, "consumed_samples": 1105152, "global_step/max_steps": "4317/6350"}
{"lm loss": 4.86928892, "grad_norm": 0.52437776, "learning_rate": 2.771e-05, "elapsed_time_per_iteration": 4.74865484, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 32s", "remaining_time": "2h 44m 1s", "loss_scale": 1.0, "consumed_samples": 1105408, "global_step/max_steps": "4318/6350"}
{"lm loss": 4.86209297, "grad_norm": 0.51161402, "learning_rate": 2.769e-05, "elapsed_time_per_iteration": 4.83493853, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 37s", "remaining_time": "2h 43m 56s", "loss_scale": 1.0, "consumed_samples": 1105664, "global_step/max_steps": "4319/6350"}
{"lm loss": 4.87725592, "grad_norm": 0.47764733, "learning_rate": 2.767e-05, "elapsed_time_per_iteration": 5.52899528, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 42s", "remaining_time": "2h 43m 51s", "loss_scale": 1.0, "consumed_samples": 1105920, "global_step/max_steps": "4320/6350"}
{"lm loss": 4.88609362, "grad_norm": 0.47429526, "learning_rate": 2.765e-05, "elapsed_time_per_iteration": 4.66083097, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 47s", "remaining_time": "2h 43m 46s", "loss_scale": 1.0, "consumed_samples": 1106176, "global_step/max_steps": "4321/6350"}
{"lm loss": 4.86790228, "grad_norm": 0.50807863, "learning_rate": 2.763e-05, "elapsed_time_per_iteration": 4.73044443, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 51s", "remaining_time": "2h 43m 41s", "loss_scale": 1.0, "consumed_samples": 1106432, "global_step/max_steps": "4322/6350"}
{"lm loss": 4.87861443, "grad_norm": 0.4817864, "learning_rate": 2.76e-05, "elapsed_time_per_iteration": 4.67018986, "memory(GiB)": 28.03, "elapsed_time": "5h 48m 56s", "remaining_time": "2h 43m 36s", "loss_scale": 1.0, "consumed_samples": 1106688, "global_step/max_steps": "4323/6350"}
{"lm loss": 4.89114523, "grad_norm": 0.44903186, "learning_rate": 2.758e-05, "elapsed_time_per_iteration": 4.70760512, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 1s", "remaining_time": "2h 43m 32s", "loss_scale": 1.0, "consumed_samples": 1106944, "global_step/max_steps": "4324/6350"}
{"lm loss": 4.91265011, "grad_norm": 0.48540342, "learning_rate": 2.756e-05, "elapsed_time_per_iteration": 5.12140799, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 6s", "remaining_time": "2h 43m 27s", "loss_scale": 1.0, "consumed_samples": 1107200, "global_step/max_steps": "4325/6350"}
{"lm loss": 4.88437605, "grad_norm": 0.46000773, "learning_rate": 2.754e-05, "elapsed_time_per_iteration": 4.73085713, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 11s", "remaining_time": "2h 43m 22s", "loss_scale": 1.0, "consumed_samples": 1107456, "global_step/max_steps": "4326/6350"}
{"lm loss": 4.85468197, "grad_norm": 0.44873145, "learning_rate": 2.752e-05, "elapsed_time_per_iteration": 4.69751954, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 15s", "remaining_time": "2h 43m 17s", "loss_scale": 1.0, "consumed_samples": 1107712, "global_step/max_steps": "4327/6350"}
{"lm loss": 4.88706017, "grad_norm": 0.49667683, "learning_rate": 2.749e-05, "elapsed_time_per_iteration": 4.67089653, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 20s", "remaining_time": "2h 43m 12s", "loss_scale": 1.0, "consumed_samples": 1107968, "global_step/max_steps": "4328/6350"}
{"lm loss": 4.88608456, "grad_norm": 0.41235808, "learning_rate": 2.747e-05, "elapsed_time_per_iteration": 4.6504252, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 25s", "remaining_time": "2h 43m 7s", "loss_scale": 1.0, "consumed_samples": 1108224, "global_step/max_steps": "4329/6350"}
{"lm loss": 4.88380289, "grad_norm": 0.51839399, "learning_rate": 2.745e-05, "elapsed_time_per_iteration": 5.65254164, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 30s", "remaining_time": "2h 43m 3s", "loss_scale": 1.0, "consumed_samples": 1108480, "global_step/max_steps": "4330/6350"}
{"lm loss": 4.87794447, "grad_norm": 0.440992, "learning_rate": 2.743e-05, "elapsed_time_per_iteration": 4.72395849, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 35s", "remaining_time": "2h 42m 58s", "loss_scale": 1.0, "consumed_samples": 1108736, "global_step/max_steps": "4331/6350"}
{"lm loss": 4.89856339, "grad_norm": 0.57761228, "learning_rate": 2.741e-05, "elapsed_time_per_iteration": 4.73317599, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 40s", "remaining_time": "2h 42m 53s", "loss_scale": 1.0, "consumed_samples": 1108992, "global_step/max_steps": "4332/6350"}
{"lm loss": 4.87969208, "grad_norm": 0.46057466, "learning_rate": 2.739e-05, "elapsed_time_per_iteration": 4.64336324, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 44s", "remaining_time": "2h 42m 48s", "loss_scale": 1.0, "consumed_samples": 1109248, "global_step/max_steps": "4333/6350"}
{"lm loss": 4.88921309, "grad_norm": 0.52448303, "learning_rate": 2.736e-05, "elapsed_time_per_iteration": 4.64981055, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 49s", "remaining_time": "2h 42m 43s", "loss_scale": 1.0, "consumed_samples": 1109504, "global_step/max_steps": "4334/6350"}
{"lm loss": 4.86707783, "grad_norm": 0.48895431, "learning_rate": 2.734e-05, "elapsed_time_per_iteration": 4.69138789, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 54s", "remaining_time": "2h 42m 38s", "loss_scale": 1.0, "consumed_samples": 1109760, "global_step/max_steps": "4335/6350"}
{"lm loss": 4.88746643, "grad_norm": 0.44773167, "learning_rate": 2.732e-05, "elapsed_time_per_iteration": 4.70457602, "memory(GiB)": 28.03, "elapsed_time": "5h 49m 59s", "remaining_time": "2h 42m 33s", "loss_scale": 1.0, "consumed_samples": 1110016, "global_step/max_steps": "4336/6350"}
{"lm loss": 4.88017511, "grad_norm": 0.49241006, "learning_rate": 2.73e-05, "elapsed_time_per_iteration": 4.76933765, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 3s", "remaining_time": "2h 42m 28s", "loss_scale": 1.0, "consumed_samples": 1110272, "global_step/max_steps": "4337/6350"}
{"lm loss": 4.88861656, "grad_norm": 0.46407777, "learning_rate": 2.728e-05, "elapsed_time_per_iteration": 4.73726392, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 8s", "remaining_time": "2h 42m 23s", "loss_scale": 1.0, "consumed_samples": 1110528, "global_step/max_steps": "4338/6350"}
{"lm loss": 4.91286707, "grad_norm": 0.46707398, "learning_rate": 2.725e-05, "elapsed_time_per_iteration": 4.74034452, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 13s", "remaining_time": "2h 42m 19s", "loss_scale": 1.0, "consumed_samples": 1110784, "global_step/max_steps": "4339/6350"}
{"lm loss": 4.86001873, "grad_norm": 0.4395698, "learning_rate": 2.723e-05, "elapsed_time_per_iteration": 4.88502622, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 18s", "remaining_time": "2h 42m 14s", "loss_scale": 1.0, "consumed_samples": 1111040, "global_step/max_steps": "4340/6350"}
{"lm loss": 4.87141275, "grad_norm": 0.48183337, "learning_rate": 2.721e-05, "elapsed_time_per_iteration": 4.81802845, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 22s", "remaining_time": "2h 42m 9s", "loss_scale": 1.0, "consumed_samples": 1111296, "global_step/max_steps": "4341/6350"}
{"lm loss": 4.8894453, "grad_norm": 0.48540777, "learning_rate": 2.719e-05, "elapsed_time_per_iteration": 4.7385633, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 27s", "remaining_time": "2h 42m 4s", "loss_scale": 1.0, "consumed_samples": 1111552, "global_step/max_steps": "4342/6350"}
{"lm loss": 4.87172747, "grad_norm": 0.46306324, "learning_rate": 2.717e-05, "elapsed_time_per_iteration": 5.71674132, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 33s", "remaining_time": "2h 42m 0s", "loss_scale": 1.0, "consumed_samples": 1111808, "global_step/max_steps": "4343/6350"}
{"lm loss": 4.89455891, "grad_norm": 0.43426239, "learning_rate": 2.714e-05, "elapsed_time_per_iteration": 4.80109715, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 38s", "remaining_time": "2h 41m 55s", "loss_scale": 1.0, "consumed_samples": 1112064, "global_step/max_steps": "4344/6350"}
{"lm loss": 4.86856031, "grad_norm": 0.45713359, "learning_rate": 2.712e-05, "elapsed_time_per_iteration": 4.83460212, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 43s", "remaining_time": "2h 41m 50s", "loss_scale": 1.0, "consumed_samples": 1112320, "global_step/max_steps": "4345/6350"}
{"lm loss": 4.90381622, "grad_norm": 0.4349727, "learning_rate": 2.71e-05, "elapsed_time_per_iteration": 4.83828735, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 47s", "remaining_time": "2h 41m 45s", "loss_scale": 1.0, "consumed_samples": 1112576, "global_step/max_steps": "4346/6350"}
{"lm loss": 4.88776636, "grad_norm": 0.45515999, "learning_rate": 2.708e-05, "elapsed_time_per_iteration": 4.79363942, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 52s", "remaining_time": "2h 41m 40s", "loss_scale": 1.0, "consumed_samples": 1112832, "global_step/max_steps": "4347/6350"}
{"lm loss": 4.86505938, "grad_norm": 0.45256293, "learning_rate": 2.706e-05, "elapsed_time_per_iteration": 4.72550058, "memory(GiB)": 28.03, "elapsed_time": "5h 50m 57s", "remaining_time": "2h 41m 35s", "loss_scale": 1.0, "consumed_samples": 1113088, "global_step/max_steps": "4348/6350"}
{"lm loss": 4.86382675, "grad_norm": 0.46267, "learning_rate": 2.704e-05, "elapsed_time_per_iteration": 4.71966457, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 2s", "remaining_time": "2h 41m 30s", "loss_scale": 1.0, "consumed_samples": 1113344, "global_step/max_steps": "4349/6350"}
{"lm loss": 4.87503004, "grad_norm": 0.4829424, "learning_rate": 2.701e-05, "elapsed_time_per_iteration": 4.73197508, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 6s", "remaining_time": "2h 41m 25s", "loss_scale": 1.0, "consumed_samples": 1113600, "global_step/max_steps": "4350/6350"}
{"lm loss": 4.90382719, "grad_norm": 0.43423882, "learning_rate": 2.699e-05, "elapsed_time_per_iteration": 5.26134586, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 12s", "remaining_time": "2h 41m 21s", "loss_scale": 1.0, "consumed_samples": 1113856, "global_step/max_steps": "4351/6350"}
{"lm loss": 4.85428667, "grad_norm": 0.57633489, "learning_rate": 2.697e-05, "elapsed_time_per_iteration": 4.68107486, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 16s", "remaining_time": "2h 41m 16s", "loss_scale": 1.0, "consumed_samples": 1114112, "global_step/max_steps": "4352/6350"}
{"lm loss": 4.87078476, "grad_norm": 0.72372752, "learning_rate": 2.695e-05, "elapsed_time_per_iteration": 4.75054216, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 21s", "remaining_time": "2h 41m 11s", "loss_scale": 1.0, "consumed_samples": 1114368, "global_step/max_steps": "4353/6350"}
{"lm loss": 4.87903929, "grad_norm": 0.69029844, "learning_rate": 2.693e-05, "elapsed_time_per_iteration": 4.84208751, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 26s", "remaining_time": "2h 41m 6s", "loss_scale": 1.0, "consumed_samples": 1114624, "global_step/max_steps": "4354/6350"}
{"lm loss": 4.85704947, "grad_norm": 0.53358138, "learning_rate": 2.69e-05, "elapsed_time_per_iteration": 4.69892168, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 31s", "remaining_time": "2h 41m 1s", "loss_scale": 1.0, "consumed_samples": 1114880, "global_step/max_steps": "4355/6350"}
{"lm loss": 4.87643623, "grad_norm": 0.45201418, "learning_rate": 2.688e-05, "elapsed_time_per_iteration": 4.74131465, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 35s", "remaining_time": "2h 40m 56s", "loss_scale": 1.0, "consumed_samples": 1115136, "global_step/max_steps": "4356/6350"}
{"lm loss": 4.88402987, "grad_norm": 0.49029338, "learning_rate": 2.686e-05, "elapsed_time_per_iteration": 4.8433187, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 40s", "remaining_time": "2h 40m 51s", "loss_scale": 1.0, "consumed_samples": 1115392, "global_step/max_steps": "4357/6350"}
{"lm loss": 4.89004707, "grad_norm": 0.48720941, "learning_rate": 2.684e-05, "elapsed_time_per_iteration": 5.69427943, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 46s", "remaining_time": "2h 40m 47s", "loss_scale": 1.0, "consumed_samples": 1115648, "global_step/max_steps": "4358/6350"}
{"lm loss": 4.86589336, "grad_norm": 0.51957268, "learning_rate": 2.682e-05, "elapsed_time_per_iteration": 5.32013059, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 51s", "remaining_time": "2h 40m 42s", "loss_scale": 1.0, "consumed_samples": 1115904, "global_step/max_steps": "4359/6350"}
{"lm loss": 4.87238216, "grad_norm": 0.48480028, "learning_rate": 2.68e-05, "elapsed_time_per_iteration": 4.70228672, "memory(GiB)": 28.03, "elapsed_time": "5h 51m 56s", "remaining_time": "2h 40m 37s", "loss_scale": 1.0, "consumed_samples": 1116160, "global_step/max_steps": "4360/6350"}
{"lm loss": 4.90008354, "grad_norm": 0.42699495, "learning_rate": 2.677e-05, "elapsed_time_per_iteration": 4.72503519, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 1s", "remaining_time": "2h 40m 33s", "loss_scale": 1.0, "consumed_samples": 1116416, "global_step/max_steps": "4361/6350"}
{"lm loss": 4.86260462, "grad_norm": 0.50358772, "learning_rate": 2.675e-05, "elapsed_time_per_iteration": 4.78746915, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 5s", "remaining_time": "2h 40m 28s", "loss_scale": 1.0, "consumed_samples": 1116672, "global_step/max_steps": "4362/6350"}
{"lm loss": 4.89719391, "grad_norm": 0.44938016, "learning_rate": 2.673e-05, "elapsed_time_per_iteration": 4.72646379, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 10s", "remaining_time": "2h 40m 23s", "loss_scale": 1.0, "consumed_samples": 1116928, "global_step/max_steps": "4363/6350"}
{"lm loss": 4.88430977, "grad_norm": 0.44720116, "learning_rate": 2.671e-05, "elapsed_time_per_iteration": 4.72260976, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 15s", "remaining_time": "2h 40m 18s", "loss_scale": 1.0, "consumed_samples": 1117184, "global_step/max_steps": "4364/6350"}
{"lm loss": 4.88357115, "grad_norm": 3.03505778, "learning_rate": 2.669e-05, "elapsed_time_per_iteration": 4.71537042, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 20s", "remaining_time": "2h 40m 13s", "loss_scale": 1.0, "consumed_samples": 1117440, "global_step/max_steps": "4365/6350"}
{"lm loss": 4.90097618, "grad_norm": 0.68680733, "learning_rate": 2.667e-05, "elapsed_time_per_iteration": 4.70231104, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 24s", "remaining_time": "2h 40m 8s", "loss_scale": 1.0, "consumed_samples": 1117696, "global_step/max_steps": "4366/6350"}
{"lm loss": 4.90162659, "grad_norm": 0.60977048, "learning_rate": 2.664e-05, "elapsed_time_per_iteration": 4.72755051, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 29s", "remaining_time": "2h 40m 3s", "loss_scale": 1.0, "consumed_samples": 1117952, "global_step/max_steps": "4367/6350"}
{"lm loss": 4.87702847, "grad_norm": 0.53645301, "learning_rate": 2.662e-05, "elapsed_time_per_iteration": 4.70890951, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 34s", "remaining_time": "2h 39m 58s", "loss_scale": 1.0, "consumed_samples": 1118208, "global_step/max_steps": "4368/6350"}
{"lm loss": 4.89990807, "grad_norm": 0.57766026, "learning_rate": 2.66e-05, "elapsed_time_per_iteration": 4.78672767, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 39s", "remaining_time": "2h 39m 53s", "loss_scale": 1.0, "consumed_samples": 1118464, "global_step/max_steps": "4369/6350"}
{"lm loss": 4.88000345, "grad_norm": 0.51373881, "learning_rate": 2.658e-05, "elapsed_time_per_iteration": 4.76371193, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 43s", "remaining_time": "2h 39m 49s", "loss_scale": 1.0, "consumed_samples": 1118720, "global_step/max_steps": "4370/6350"}
{"lm loss": 4.9061408, "grad_norm": 0.61254609, "learning_rate": 2.656e-05, "elapsed_time_per_iteration": 4.7803812, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 48s", "remaining_time": "2h 39m 44s", "loss_scale": 1.0, "consumed_samples": 1118976, "global_step/max_steps": "4371/6350"}
{"lm loss": 4.88418293, "grad_norm": 0.57152635, "learning_rate": 2.654e-05, "elapsed_time_per_iteration": 4.75953746, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 53s", "remaining_time": "2h 39m 39s", "loss_scale": 1.0, "consumed_samples": 1119232, "global_step/max_steps": "4372/6350"}
{"lm loss": 4.86041212, "grad_norm": 0.50367635, "learning_rate": 2.651e-05, "elapsed_time_per_iteration": 4.68617201, "memory(GiB)": 28.03, "elapsed_time": "5h 52m 57s", "remaining_time": "2h 39m 34s", "loss_scale": 1.0, "consumed_samples": 1119488, "global_step/max_steps": "4373/6350"}
{"lm loss": 4.86625195, "grad_norm": 0.65937996, "learning_rate": 2.649e-05, "elapsed_time_per_iteration": 5.010885, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 3s", "remaining_time": "2h 39m 29s", "loss_scale": 1.0, "consumed_samples": 1119744, "global_step/max_steps": "4374/6350"}
{"lm loss": 4.88781071, "grad_norm": 0.46644691, "learning_rate": 2.647e-05, "elapsed_time_per_iteration": 4.71495509, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 7s", "remaining_time": "2h 39m 24s", "loss_scale": 1.0, "consumed_samples": 1120000, "global_step/max_steps": "4375/6350"}
{"lm loss": 4.89483643, "grad_norm": 0.50814044, "learning_rate": 2.645e-05, "elapsed_time_per_iteration": 4.70637345, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 12s", "remaining_time": "2h 39m 19s", "loss_scale": 1.0, "consumed_samples": 1120256, "global_step/max_steps": "4376/6350"}
{"lm loss": 4.86721992, "grad_norm": 0.45690891, "learning_rate": 2.643e-05, "elapsed_time_per_iteration": 4.71316504, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 17s", "remaining_time": "2h 39m 14s", "loss_scale": 1.0, "consumed_samples": 1120512, "global_step/max_steps": "4377/6350"}
{"lm loss": 4.87562466, "grad_norm": 0.50121355, "learning_rate": 2.641e-05, "elapsed_time_per_iteration": 4.74982738, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 21s", "remaining_time": "2h 39m 10s", "loss_scale": 1.0, "consumed_samples": 1120768, "global_step/max_steps": "4378/6350"}
{"lm loss": 4.90623426, "grad_norm": 0.57542568, "learning_rate": 2.638e-05, "elapsed_time_per_iteration": 4.77551866, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 26s", "remaining_time": "2h 39m 5s", "loss_scale": 1.0, "consumed_samples": 1121024, "global_step/max_steps": "4379/6350"}
{"lm loss": 4.8801074, "grad_norm": 0.47415286, "learning_rate": 2.636e-05, "elapsed_time_per_iteration": 5.61572146, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 32s", "remaining_time": "2h 39m 0s", "loss_scale": 1.0, "consumed_samples": 1121280, "global_step/max_steps": "4380/6350"}
{"lm loss": 4.88430023, "grad_norm": 0.47959277, "learning_rate": 2.634e-05, "elapsed_time_per_iteration": 4.78858876, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 37s", "remaining_time": "2h 38m 55s", "loss_scale": 1.0, "consumed_samples": 1121536, "global_step/max_steps": "4381/6350"}
{"lm loss": 4.90781879, "grad_norm": 0.416462, "learning_rate": 2.632e-05, "elapsed_time_per_iteration": 4.73321462, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 41s", "remaining_time": "2h 38m 50s", "loss_scale": 1.0, "consumed_samples": 1121792, "global_step/max_steps": "4382/6350"}
{"lm loss": 4.89717531, "grad_norm": 0.47953099, "learning_rate": 2.63e-05, "elapsed_time_per_iteration": 4.78516936, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 46s", "remaining_time": "2h 38m 46s", "loss_scale": 1.0, "consumed_samples": 1122048, "global_step/max_steps": "4383/6350"}
{"lm loss": 4.86943722, "grad_norm": 0.39837024, "learning_rate": 2.628e-05, "elapsed_time_per_iteration": 4.8381629, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 51s", "remaining_time": "2h 38m 41s", "loss_scale": 1.0, "consumed_samples": 1122304, "global_step/max_steps": "4384/6350"}
{"lm loss": 4.88931608, "grad_norm": 0.45177469, "learning_rate": 2.625e-05, "elapsed_time_per_iteration": 5.69745278, "memory(GiB)": 28.03, "elapsed_time": "5h 53m 57s", "remaining_time": "2h 38m 36s", "loss_scale": 1.0, "consumed_samples": 1122560, "global_step/max_steps": "4385/6350"}
{"lm loss": 4.89881134, "grad_norm": 0.45669687, "learning_rate": 2.623e-05, "elapsed_time_per_iteration": 4.81172776, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 1s", "remaining_time": "2h 38m 31s", "loss_scale": 1.0, "consumed_samples": 1122816, "global_step/max_steps": "4386/6350"}
{"lm loss": 4.882792, "grad_norm": 0.47203863, "learning_rate": 2.621e-05, "elapsed_time_per_iteration": 4.8341651, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 6s", "remaining_time": "2h 38m 27s", "loss_scale": 1.0, "consumed_samples": 1123072, "global_step/max_steps": "4387/6350"}
{"lm loss": 4.88870239, "grad_norm": 0.45095047, "learning_rate": 2.619e-05, "elapsed_time_per_iteration": 4.76910162, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 11s", "remaining_time": "2h 38m 22s", "loss_scale": 1.0, "consumed_samples": 1123328, "global_step/max_steps": "4388/6350"}
{"lm loss": 4.88387728, "grad_norm": 0.49577519, "learning_rate": 2.617e-05, "elapsed_time_per_iteration": 4.80153394, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 16s", "remaining_time": "2h 38m 17s", "loss_scale": 1.0, "consumed_samples": 1123584, "global_step/max_steps": "4389/6350"}
{"lm loss": 4.86308813, "grad_norm": 0.5915578, "learning_rate": 2.615e-05, "elapsed_time_per_iteration": 4.78029943, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 21s", "remaining_time": "2h 38m 12s", "loss_scale": 1.0, "consumed_samples": 1123840, "global_step/max_steps": "4390/6350"}
{"lm loss": 4.89323711, "grad_norm": 0.67084247, "learning_rate": 2.613e-05, "elapsed_time_per_iteration": 4.73676944, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 25s", "remaining_time": "2h 38m 7s", "loss_scale": 1.0, "consumed_samples": 1124096, "global_step/max_steps": "4391/6350"}
{"lm loss": 4.87557602, "grad_norm": 0.57599723, "learning_rate": 2.61e-05, "elapsed_time_per_iteration": 4.81839585, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 30s", "remaining_time": "2h 38m 2s", "loss_scale": 1.0, "consumed_samples": 1124352, "global_step/max_steps": "4392/6350"}
{"lm loss": 4.87136269, "grad_norm": 0.47541153, "learning_rate": 2.608e-05, "elapsed_time_per_iteration": 5.53759694, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 36s", "remaining_time": "2h 37m 58s", "loss_scale": 1.0, "consumed_samples": 1124608, "global_step/max_steps": "4393/6350"}
{"lm loss": 4.88568592, "grad_norm": 0.52313966, "learning_rate": 2.606e-05, "elapsed_time_per_iteration": 4.71641254, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 40s", "remaining_time": "2h 37m 53s", "loss_scale": 1.0, "consumed_samples": 1124864, "global_step/max_steps": "4394/6350"}
{"lm loss": 4.89349937, "grad_norm": 0.57595235, "learning_rate": 2.604e-05, "elapsed_time_per_iteration": 4.74185538, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 45s", "remaining_time": "2h 37m 48s", "loss_scale": 1.0, "consumed_samples": 1125120, "global_step/max_steps": "4395/6350"}
{"lm loss": 4.87615347, "grad_norm": 0.58514589, "learning_rate": 2.602e-05, "elapsed_time_per_iteration": 5.09260416, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 50s", "remaining_time": "2h 37m 43s", "loss_scale": 1.0, "consumed_samples": 1125376, "global_step/max_steps": "4396/6350"}
{"lm loss": 4.89540005, "grad_norm": 0.44105503, "learning_rate": 2.6e-05, "elapsed_time_per_iteration": 4.73609567, "memory(GiB)": 28.03, "elapsed_time": "5h 54m 55s", "remaining_time": "2h 37m 38s", "loss_scale": 1.0, "consumed_samples": 1125632, "global_step/max_steps": "4397/6350"}
{"lm loss": 4.89230919, "grad_norm": 0.51558638, "learning_rate": 2.597e-05, "elapsed_time_per_iteration": 4.74555898, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 0s", "remaining_time": "2h 37m 33s", "loss_scale": 1.0, "consumed_samples": 1125888, "global_step/max_steps": "4398/6350"}
{"lm loss": 4.89627886, "grad_norm": 0.60483116, "learning_rate": 2.595e-05, "elapsed_time_per_iteration": 4.77856088, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 5s", "remaining_time": "2h 37m 28s", "loss_scale": 1.0, "consumed_samples": 1126144, "global_step/max_steps": "4399/6350"}
{"lm loss": 4.89362955, "grad_norm": 0.52750319, "learning_rate": 2.593e-05, "elapsed_time_per_iteration": 4.71932101, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 9s", "remaining_time": "2h 37m 24s", "loss_scale": 1.0, "consumed_samples": 1126400, "global_step/max_steps": "4400/6350"}
{"lm loss": 4.88743877, "grad_norm": 0.42149714, "learning_rate": 2.591e-05, "elapsed_time_per_iteration": 4.81842756, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 14s", "remaining_time": "2h 37m 19s", "loss_scale": 1.0, "consumed_samples": 1126656, "global_step/max_steps": "4401/6350"}
{"lm loss": 4.88378286, "grad_norm": 0.64208519, "learning_rate": 2.589e-05, "elapsed_time_per_iteration": 4.80630016, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 19s", "remaining_time": "2h 37m 14s", "loss_scale": 1.0, "consumed_samples": 1126912, "global_step/max_steps": "4402/6350"}
{"lm loss": 4.91761589, "grad_norm": 0.50652117, "learning_rate": 2.587e-05, "elapsed_time_per_iteration": 4.73964405, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 24s", "remaining_time": "2h 37m 9s", "loss_scale": 1.0, "consumed_samples": 1127168, "global_step/max_steps": "4403/6350"}
{"lm loss": 4.87894249, "grad_norm": 0.5323959, "learning_rate": 2.585e-05, "elapsed_time_per_iteration": 4.70319295, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 28s", "remaining_time": "2h 37m 4s", "loss_scale": 1.0, "consumed_samples": 1127424, "global_step/max_steps": "4404/6350"}
{"lm loss": 4.88941669, "grad_norm": 0.62017572, "learning_rate": 2.582e-05, "elapsed_time_per_iteration": 4.727808, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 33s", "remaining_time": "2h 36m 59s", "loss_scale": 1.0, "consumed_samples": 1127680, "global_step/max_steps": "4405/6350"}
{"lm loss": 4.89098978, "grad_norm": 0.60834467, "learning_rate": 2.58e-05, "elapsed_time_per_iteration": 4.73250127, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 38s", "remaining_time": "2h 36m 54s", "loss_scale": 1.0, "consumed_samples": 1127936, "global_step/max_steps": "4406/6350"}
{"lm loss": 4.88111639, "grad_norm": 0.50022995, "learning_rate": 2.578e-05, "elapsed_time_per_iteration": 4.81519628, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 43s", "remaining_time": "2h 36m 49s", "loss_scale": 1.0, "consumed_samples": 1128192, "global_step/max_steps": "4407/6350"}
{"lm loss": 4.90188456, "grad_norm": 0.55300939, "learning_rate": 2.576e-05, "elapsed_time_per_iteration": 4.75875711, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 47s", "remaining_time": "2h 36m 45s", "loss_scale": 1.0, "consumed_samples": 1128448, "global_step/max_steps": "4408/6350"}
{"lm loss": 4.88113976, "grad_norm": 0.55342579, "learning_rate": 2.574e-05, "elapsed_time_per_iteration": 4.77220988, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 52s", "remaining_time": "2h 36m 40s", "loss_scale": 1.0, "consumed_samples": 1128704, "global_step/max_steps": "4409/6350"}
{"lm loss": 4.88042116, "grad_norm": 0.47462443, "learning_rate": 2.572e-05, "elapsed_time_per_iteration": 4.72524238, "memory(GiB)": 28.03, "elapsed_time": "5h 55m 57s", "remaining_time": "2h 36m 35s", "loss_scale": 1.0, "consumed_samples": 1128960, "global_step/max_steps": "4410/6350"}
{"lm loss": 4.86492729, "grad_norm": 0.62772769, "learning_rate": 2.57e-05, "elapsed_time_per_iteration": 5.63566875, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 2s", "remaining_time": "2h 36m 30s", "loss_scale": 1.0, "consumed_samples": 1129216, "global_step/max_steps": "4411/6350"}
{"lm loss": 4.8647666, "grad_norm": 0.58706623, "learning_rate": 2.567e-05, "elapsed_time_per_iteration": 4.8110218, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 7s", "remaining_time": "2h 36m 25s", "loss_scale": 1.0, "consumed_samples": 1129472, "global_step/max_steps": "4412/6350"}
{"lm loss": 4.87375641, "grad_norm": 0.44226676, "learning_rate": 2.565e-05, "elapsed_time_per_iteration": 4.81482577, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 12s", "remaining_time": "2h 36m 21s", "loss_scale": 1.0, "consumed_samples": 1129728, "global_step/max_steps": "4413/6350"}
{"lm loss": 4.86222839, "grad_norm": 0.6477325, "learning_rate": 2.563e-05, "elapsed_time_per_iteration": 4.77975345, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 17s", "remaining_time": "2h 36m 16s", "loss_scale": 1.0, "consumed_samples": 1129984, "global_step/max_steps": "4414/6350"}
{"lm loss": 4.89026213, "grad_norm": 0.50291502, "learning_rate": 2.561e-05, "elapsed_time_per_iteration": 4.81154919, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 22s", "remaining_time": "2h 36m 11s", "loss_scale": 1.0, "consumed_samples": 1130240, "global_step/max_steps": "4415/6350"}
{"lm loss": 4.89636135, "grad_norm": 0.4893592, "learning_rate": 2.559e-05, "elapsed_time_per_iteration": 4.87418985, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 27s", "remaining_time": "2h 36m 6s", "loss_scale": 1.0, "consumed_samples": 1130496, "global_step/max_steps": "4416/6350"}
{"lm loss": 4.8943491, "grad_norm": 0.51145554, "learning_rate": 2.557e-05, "elapsed_time_per_iteration": 4.74634981, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 31s", "remaining_time": "2h 36m 1s", "loss_scale": 1.0, "consumed_samples": 1130752, "global_step/max_steps": "4417/6350"}
{"lm loss": 4.86041021, "grad_norm": 0.52066737, "learning_rate": 2.555e-05, "elapsed_time_per_iteration": 5.00375557, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 36s", "remaining_time": "2h 35m 56s", "loss_scale": 1.0, "consumed_samples": 1131008, "global_step/max_steps": "4418/6350"}
{"lm loss": 4.85527039, "grad_norm": 0.46309572, "learning_rate": 2.553e-05, "elapsed_time_per_iteration": 4.70087028, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 41s", "remaining_time": "2h 35m 51s", "loss_scale": 1.0, "consumed_samples": 1131264, "global_step/max_steps": "4419/6350"}
{"lm loss": 4.860291, "grad_norm": 0.49930325, "learning_rate": 2.55e-05, "elapsed_time_per_iteration": 4.72695494, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 46s", "remaining_time": "2h 35m 47s", "loss_scale": 1.0, "consumed_samples": 1131520, "global_step/max_steps": "4420/6350"}
{"lm loss": 4.85230637, "grad_norm": 0.45791709, "learning_rate": 2.548e-05, "elapsed_time_per_iteration": 5.54938459, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 51s", "remaining_time": "2h 35m 42s", "loss_scale": 1.0, "consumed_samples": 1131776, "global_step/max_steps": "4421/6350"}
{"lm loss": 4.8831172, "grad_norm": 0.47574419, "learning_rate": 2.546e-05, "elapsed_time_per_iteration": 4.73080158, "memory(GiB)": 28.03, "elapsed_time": "5h 56m 56s", "remaining_time": "2h 35m 37s", "loss_scale": 1.0, "consumed_samples": 1132032, "global_step/max_steps": "4422/6350"}
{"lm loss": 4.87732458, "grad_norm": 0.45754924, "learning_rate": 2.544e-05, "elapsed_time_per_iteration": 4.74601531, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 1s", "remaining_time": "2h 35m 32s", "loss_scale": 1.0, "consumed_samples": 1132288, "global_step/max_steps": "4423/6350"}
{"lm loss": 4.87681437, "grad_norm": 0.48428103, "learning_rate": 2.542e-05, "elapsed_time_per_iteration": 4.72546291, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 6s", "remaining_time": "2h 35m 27s", "loss_scale": 1.0, "consumed_samples": 1132544, "global_step/max_steps": "4424/6350"}
{"lm loss": 4.88865948, "grad_norm": 0.45084846, "learning_rate": 2.54e-05, "elapsed_time_per_iteration": 4.85016346, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 10s", "remaining_time": "2h 35m 23s", "loss_scale": 1.0, "consumed_samples": 1132800, "global_step/max_steps": "4425/6350"}
{"lm loss": 4.87643623, "grad_norm": 0.44502252, "learning_rate": 2.538e-05, "elapsed_time_per_iteration": 4.73494744, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 15s", "remaining_time": "2h 35m 18s", "loss_scale": 1.0, "consumed_samples": 1133056, "global_step/max_steps": "4426/6350"}
{"lm loss": 4.8603034, "grad_norm": 0.47027799, "learning_rate": 2.535e-05, "elapsed_time_per_iteration": 4.71789432, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 20s", "remaining_time": "2h 35m 13s", "loss_scale": 1.0, "consumed_samples": 1133312, "global_step/max_steps": "4427/6350"}
{"lm loss": 4.90031576, "grad_norm": 0.45836172, "learning_rate": 2.533e-05, "elapsed_time_per_iteration": 4.80306125, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 25s", "remaining_time": "2h 35m 8s", "loss_scale": 1.0, "consumed_samples": 1133568, "global_step/max_steps": "4428/6350"}
{"lm loss": 4.87574482, "grad_norm": 0.45502216, "learning_rate": 2.531e-05, "elapsed_time_per_iteration": 5.69260025, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 30s", "remaining_time": "2h 35m 3s", "loss_scale": 1.0, "consumed_samples": 1133824, "global_step/max_steps": "4429/6350"}
{"lm loss": 4.86528826, "grad_norm": 0.53834796, "learning_rate": 2.529e-05, "elapsed_time_per_iteration": 4.77848792, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 35s", "remaining_time": "2h 34m 59s", "loss_scale": 1.0, "consumed_samples": 1134080, "global_step/max_steps": "4430/6350"}
{"lm loss": 4.88388491, "grad_norm": 0.45156702, "learning_rate": 2.527e-05, "elapsed_time_per_iteration": 4.80175376, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 40s", "remaining_time": "2h 34m 54s", "loss_scale": 1.0, "consumed_samples": 1134336, "global_step/max_steps": "4431/6350"}
{"lm loss": 4.88565588, "grad_norm": 0.50470781, "learning_rate": 2.525e-05, "elapsed_time_per_iteration": 4.71669126, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 45s", "remaining_time": "2h 34m 49s", "loss_scale": 1.0, "consumed_samples": 1134592, "global_step/max_steps": "4432/6350"}
{"lm loss": 4.86699438, "grad_norm": 0.56196386, "learning_rate": 2.523e-05, "elapsed_time_per_iteration": 4.73074865, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 49s", "remaining_time": "2h 34m 44s", "loss_scale": 1.0, "consumed_samples": 1134848, "global_step/max_steps": "4433/6350"}
{"lm loss": 4.8801055, "grad_norm": 0.41919473, "learning_rate": 2.521e-05, "elapsed_time_per_iteration": 4.75412965, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 54s", "remaining_time": "2h 34m 39s", "loss_scale": 1.0, "consumed_samples": 1135104, "global_step/max_steps": "4434/6350"}
{"lm loss": 4.88349295, "grad_norm": 0.50477827, "learning_rate": 2.518e-05, "elapsed_time_per_iteration": 4.79695249, "memory(GiB)": 28.03, "elapsed_time": "5h 57m 59s", "remaining_time": "2h 34m 34s", "loss_scale": 1.0, "consumed_samples": 1135360, "global_step/max_steps": "4435/6350"}
{"lm loss": 4.87783098, "grad_norm": 0.46565747, "learning_rate": 2.516e-05, "elapsed_time_per_iteration": 4.75115252, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 4s", "remaining_time": "2h 34m 29s", "loss_scale": 1.0, "consumed_samples": 1135616, "global_step/max_steps": "4436/6350"}
{"lm loss": 4.87613678, "grad_norm": 0.53800273, "learning_rate": 2.514e-05, "elapsed_time_per_iteration": 4.78399277, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 8s", "remaining_time": "2h 34m 24s", "loss_scale": 1.0, "consumed_samples": 1135872, "global_step/max_steps": "4437/6350"}
{"lm loss": 4.87699461, "grad_norm": 0.46504721, "learning_rate": 2.512e-05, "elapsed_time_per_iteration": 4.73817182, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 13s", "remaining_time": "2h 34m 19s", "loss_scale": 1.0, "consumed_samples": 1136128, "global_step/max_steps": "4438/6350"}
{"lm loss": 4.8923707, "grad_norm": 0.46555337, "learning_rate": 2.51e-05, "elapsed_time_per_iteration": 4.75851226, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 18s", "remaining_time": "2h 34m 15s", "loss_scale": 1.0, "consumed_samples": 1136384, "global_step/max_steps": "4439/6350"}
{"lm loss": 4.88491249, "grad_norm": 0.54843777, "learning_rate": 2.508e-05, "elapsed_time_per_iteration": 4.74263716, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 23s", "remaining_time": "2h 34m 10s", "loss_scale": 1.0, "consumed_samples": 1136640, "global_step/max_steps": "4440/6350"}
{"lm loss": 4.89050674, "grad_norm": 0.50143814, "learning_rate": 2.506e-05, "elapsed_time_per_iteration": 5.73479795, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 28s", "remaining_time": "2h 34m 5s", "loss_scale": 1.0, "consumed_samples": 1136896, "global_step/max_steps": "4441/6350"}
{"lm loss": 4.84680891, "grad_norm": 0.47003162, "learning_rate": 2.504e-05, "elapsed_time_per_iteration": 4.74790716, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 33s", "remaining_time": "2h 34m 0s", "loss_scale": 1.0, "consumed_samples": 1137152, "global_step/max_steps": "4442/6350"}
{"lm loss": 4.85428905, "grad_norm": 0.47895944, "learning_rate": 2.502e-05, "elapsed_time_per_iteration": 4.74751496, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 38s", "remaining_time": "2h 33m 56s", "loss_scale": 1.0, "consumed_samples": 1137408, "global_step/max_steps": "4443/6350"}
{"lm loss": 4.87976933, "grad_norm": 0.51483721, "learning_rate": 2.499e-05, "elapsed_time_per_iteration": 4.71564865, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 43s", "remaining_time": "2h 33m 51s", "loss_scale": 1.0, "consumed_samples": 1137664, "global_step/max_steps": "4444/6350"}
{"lm loss": 4.86177349, "grad_norm": 0.44918835, "learning_rate": 2.497e-05, "elapsed_time_per_iteration": 4.69940352, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 47s", "remaining_time": "2h 33m 46s", "loss_scale": 1.0, "consumed_samples": 1137920, "global_step/max_steps": "4445/6350"}
{"lm loss": 4.8921876, "grad_norm": 0.4507589, "learning_rate": 2.495e-05, "elapsed_time_per_iteration": 4.83670831, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 52s", "remaining_time": "2h 33m 41s", "loss_scale": 1.0, "consumed_samples": 1138176, "global_step/max_steps": "4446/6350"}
{"lm loss": 4.86382294, "grad_norm": 0.42851332, "learning_rate": 2.493e-05, "elapsed_time_per_iteration": 4.80363536, "memory(GiB)": 28.03, "elapsed_time": "5h 58m 57s", "remaining_time": "2h 33m 36s", "loss_scale": 1.0, "consumed_samples": 1138432, "global_step/max_steps": "4447/6350"}
{"lm loss": 4.84189892, "grad_norm": 0.44990486, "learning_rate": 2.491e-05, "elapsed_time_per_iteration": 4.74117827, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 2s", "remaining_time": "2h 33m 31s", "loss_scale": 1.0, "consumed_samples": 1138688, "global_step/max_steps": "4448/6350"}
{"lm loss": 4.888659, "grad_norm": 0.43076277, "learning_rate": 2.489e-05, "elapsed_time_per_iteration": 4.73546267, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 6s", "remaining_time": "2h 33m 26s", "loss_scale": 1.0, "consumed_samples": 1138944, "global_step/max_steps": "4449/6350"}
{"lm loss": 4.8877697, "grad_norm": 0.41404405, "learning_rate": 2.487e-05, "elapsed_time_per_iteration": 4.70581341, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 11s", "remaining_time": "2h 33m 21s", "loss_scale": 1.0, "consumed_samples": 1139200, "global_step/max_steps": "4450/6350"}
{"lm loss": 4.87515259, "grad_norm": 0.43643638, "learning_rate": 2.485e-05, "elapsed_time_per_iteration": 5.51451755, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 17s", "remaining_time": "2h 33m 17s", "loss_scale": 1.0, "consumed_samples": 1139456, "global_step/max_steps": "4451/6350"}
{"lm loss": 4.88305569, "grad_norm": 0.438023, "learning_rate": 2.483e-05, "elapsed_time_per_iteration": 4.870116, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 22s", "remaining_time": "2h 33m 12s", "loss_scale": 1.0, "consumed_samples": 1139712, "global_step/max_steps": "4452/6350"}
{"lm loss": 4.89437246, "grad_norm": 0.42930952, "learning_rate": 2.48e-05, "elapsed_time_per_iteration": 4.79761815, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 26s", "remaining_time": "2h 33m 7s", "loss_scale": 1.0, "consumed_samples": 1139968, "global_step/max_steps": "4453/6350"}
{"lm loss": 4.86900711, "grad_norm": 0.44597477, "learning_rate": 2.478e-05, "elapsed_time_per_iteration": 4.85766768, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 31s", "remaining_time": "2h 33m 2s", "loss_scale": 1.0, "consumed_samples": 1140224, "global_step/max_steps": "4454/6350"}
{"lm loss": 4.87500238, "grad_norm": 0.42352045, "learning_rate": 2.476e-05, "elapsed_time_per_iteration": 4.7624712, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 36s", "remaining_time": "2h 32m 57s", "loss_scale": 1.0, "consumed_samples": 1140480, "global_step/max_steps": "4455/6350"}
{"lm loss": 4.87162542, "grad_norm": 0.4752773, "learning_rate": 2.474e-05, "elapsed_time_per_iteration": 4.81198597, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 41s", "remaining_time": "2h 32m 52s", "loss_scale": 1.0, "consumed_samples": 1140736, "global_step/max_steps": "4456/6350"}
{"lm loss": 4.90815163, "grad_norm": 0.52854955, "learning_rate": 2.472e-05, "elapsed_time_per_iteration": 5.69437289, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 46s", "remaining_time": "2h 32m 48s", "loss_scale": 1.0, "consumed_samples": 1140992, "global_step/max_steps": "4457/6350"}
{"lm loss": 4.89390039, "grad_norm": 0.57754642, "learning_rate": 2.47e-05, "elapsed_time_per_iteration": 4.81249714, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 51s", "remaining_time": "2h 32m 43s", "loss_scale": 1.0, "consumed_samples": 1141248, "global_step/max_steps": "4458/6350"}
{"lm loss": 4.87493753, "grad_norm": 0.54697424, "learning_rate": 2.468e-05, "elapsed_time_per_iteration": 4.79529977, "memory(GiB)": 28.03, "elapsed_time": "5h 59m 56s", "remaining_time": "2h 32m 38s", "loss_scale": 1.0, "consumed_samples": 1141504, "global_step/max_steps": "4459/6350"}
{"lm loss": 4.89577913, "grad_norm": 0.45222914, "learning_rate": 2.466e-05, "elapsed_time_per_iteration": 4.74888611, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 1s", "remaining_time": "2h 32m 33s", "loss_scale": 1.0, "consumed_samples": 1141760, "global_step/max_steps": "4460/6350"}
{"lm loss": 4.87529469, "grad_norm": 0.6160394, "learning_rate": 2.464e-05, "elapsed_time_per_iteration": 4.77820659, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 6s", "remaining_time": "2h 32m 29s", "loss_scale": 1.0, "consumed_samples": 1142016, "global_step/max_steps": "4461/6350"}
{"lm loss": 4.88618612, "grad_norm": 0.41710183, "learning_rate": 2.461e-05, "elapsed_time_per_iteration": 4.76065826, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 10s", "remaining_time": "2h 32m 24s", "loss_scale": 1.0, "consumed_samples": 1142272, "global_step/max_steps": "4462/6350"}
{"lm loss": 4.87985754, "grad_norm": 0.44079083, "learning_rate": 2.459e-05, "elapsed_time_per_iteration": 4.76115608, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 15s", "remaining_time": "2h 32m 19s", "loss_scale": 1.0, "consumed_samples": 1142528, "global_step/max_steps": "4463/6350"}
{"lm loss": 4.87731171, "grad_norm": 0.41066021, "learning_rate": 2.457e-05, "elapsed_time_per_iteration": 4.74656034, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 20s", "remaining_time": "2h 32m 14s", "loss_scale": 1.0, "consumed_samples": 1142784, "global_step/max_steps": "4464/6350"}
{"lm loss": 4.87590456, "grad_norm": 0.80962354, "learning_rate": 2.455e-05, "elapsed_time_per_iteration": 4.7216239, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 25s", "remaining_time": "2h 32m 9s", "loss_scale": 1.0, "consumed_samples": 1143040, "global_step/max_steps": "4465/6350"}
{"lm loss": 4.86645222, "grad_norm": 0.5001179, "learning_rate": 2.453e-05, "elapsed_time_per_iteration": 5.48204875, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 30s", "remaining_time": "2h 32m 4s", "loss_scale": 1.0, "consumed_samples": 1143296, "global_step/max_steps": "4466/6350"}
{"lm loss": 4.87264347, "grad_norm": 0.53076398, "learning_rate": 2.451e-05, "elapsed_time_per_iteration": 5.37116671, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 35s", "remaining_time": "2h 32m 0s", "loss_scale": 1.0, "consumed_samples": 1143552, "global_step/max_steps": "4467/6350"}
{"lm loss": 4.87352657, "grad_norm": 0.51276362, "learning_rate": 2.449e-05, "elapsed_time_per_iteration": 4.79808974, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 40s", "remaining_time": "2h 31m 55s", "loss_scale": 1.0, "consumed_samples": 1143808, "global_step/max_steps": "4468/6350"}
{"lm loss": 4.89191961, "grad_norm": 0.44834295, "learning_rate": 2.447e-05, "elapsed_time_per_iteration": 4.71196532, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 45s", "remaining_time": "2h 31m 50s", "loss_scale": 1.0, "consumed_samples": 1144064, "global_step/max_steps": "4469/6350"}
{"lm loss": 4.89419842, "grad_norm": 0.57651424, "learning_rate": 2.445e-05, "elapsed_time_per_iteration": 4.71453452, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 50s", "remaining_time": "2h 31m 45s", "loss_scale": 1.0, "consumed_samples": 1144320, "global_step/max_steps": "4470/6350"}
{"lm loss": 4.87046623, "grad_norm": 0.62144899, "learning_rate": 2.443e-05, "elapsed_time_per_iteration": 4.77475834, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 54s", "remaining_time": "2h 31m 40s", "loss_scale": 1.0, "consumed_samples": 1144576, "global_step/max_steps": "4471/6350"}
{"lm loss": 4.88890886, "grad_norm": 0.45773178, "learning_rate": 2.44e-05, "elapsed_time_per_iteration": 4.76803994, "memory(GiB)": 28.03, "elapsed_time": "6h 0m 59s", "remaining_time": "2h 31m 35s", "loss_scale": 1.0, "consumed_samples": 1144832, "global_step/max_steps": "4472/6350"}
{"lm loss": 4.87658978, "grad_norm": 0.47185513, "learning_rate": 2.438e-05, "elapsed_time_per_iteration": 4.75416374, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 4s", "remaining_time": "2h 31m 31s", "loss_scale": 1.0, "consumed_samples": 1145088, "global_step/max_steps": "4473/6350"}
{"lm loss": 4.85373163, "grad_norm": 1.91468358, "learning_rate": 2.436e-05, "elapsed_time_per_iteration": 4.74300957, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 9s", "remaining_time": "2h 31m 26s", "loss_scale": 1.0, "consumed_samples": 1145344, "global_step/max_steps": "4474/6350"}
{"lm loss": 4.8874836, "grad_norm": 0.58327907, "learning_rate": 2.434e-05, "elapsed_time_per_iteration": 5.61942005, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 14s", "remaining_time": "2h 31m 21s", "loss_scale": 1.0, "consumed_samples": 1145600, "global_step/max_steps": "4475/6350"}
{"lm loss": 4.89764214, "grad_norm": 0.80679858, "learning_rate": 2.432e-05, "elapsed_time_per_iteration": 4.79153347, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 19s", "remaining_time": "2h 31m 16s", "loss_scale": 1.0, "consumed_samples": 1145856, "global_step/max_steps": "4476/6350"}
{"lm loss": 4.89698744, "grad_norm": 0.60584152, "learning_rate": 2.43e-05, "elapsed_time_per_iteration": 4.68009496, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 24s", "remaining_time": "2h 31m 11s", "loss_scale": 1.0, "consumed_samples": 1146112, "global_step/max_steps": "4477/6350"}
{"lm loss": 4.87848902, "grad_norm": 0.53778017, "learning_rate": 2.428e-05, "elapsed_time_per_iteration": 4.76281977, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 29s", "remaining_time": "2h 31m 6s", "loss_scale": 1.0, "consumed_samples": 1146368, "global_step/max_steps": "4478/6350"}
{"lm loss": 4.87419367, "grad_norm": 0.58581793, "learning_rate": 2.426e-05, "elapsed_time_per_iteration": 4.72113633, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 33s", "remaining_time": "2h 31m 2s", "loss_scale": 1.0, "consumed_samples": 1146624, "global_step/max_steps": "4479/6350"}
{"lm loss": 4.88773489, "grad_norm": 0.52536559, "learning_rate": 2.424e-05, "elapsed_time_per_iteration": 4.78516126, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 38s", "remaining_time": "2h 30m 57s", "loss_scale": 1.0, "consumed_samples": 1146880, "global_step/max_steps": "4480/6350"}
{"lm loss": 4.85961723, "grad_norm": 0.46602753, "learning_rate": 2.422e-05, "elapsed_time_per_iteration": 4.68191695, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 43s", "remaining_time": "2h 30m 52s", "loss_scale": 1.0, "consumed_samples": 1147136, "global_step/max_steps": "4481/6350"}
{"lm loss": 4.87573528, "grad_norm": 0.63267517, "learning_rate": 2.42e-05, "elapsed_time_per_iteration": 4.72843623, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 47s", "remaining_time": "2h 30m 47s", "loss_scale": 1.0, "consumed_samples": 1147392, "global_step/max_steps": "4482/6350"}
{"lm loss": 4.86627913, "grad_norm": 0.58164799, "learning_rate": 2.417e-05, "elapsed_time_per_iteration": 4.79155183, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 52s", "remaining_time": "2h 30m 42s", "loss_scale": 1.0, "consumed_samples": 1147648, "global_step/max_steps": "4483/6350"}
{"lm loss": 4.89806747, "grad_norm": 0.45780265, "learning_rate": 2.415e-05, "elapsed_time_per_iteration": 4.7343905, "memory(GiB)": 28.03, "elapsed_time": "6h 1m 57s", "remaining_time": "2h 30m 37s", "loss_scale": 1.0, "consumed_samples": 1147904, "global_step/max_steps": "4484/6350"}
{"lm loss": 4.87134981, "grad_norm": 0.59548199, "learning_rate": 2.413e-05, "elapsed_time_per_iteration": 4.83378124, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 2s", "remaining_time": "2h 30m 32s", "loss_scale": 1.0, "consumed_samples": 1148160, "global_step/max_steps": "4485/6350"}
{"lm loss": 4.88566732, "grad_norm": 0.45554057, "learning_rate": 2.411e-05, "elapsed_time_per_iteration": 5.01328754, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 7s", "remaining_time": "2h 30m 28s", "loss_scale": 1.0, "consumed_samples": 1148416, "global_step/max_steps": "4486/6350"}
{"lm loss": 4.86973, "grad_norm": 0.59607983, "learning_rate": 2.409e-05, "elapsed_time_per_iteration": 4.8103745, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 12s", "remaining_time": "2h 30m 23s", "loss_scale": 1.0, "consumed_samples": 1148672, "global_step/max_steps": "4487/6350"}
{"lm loss": 4.90237761, "grad_norm": 0.56615239, "learning_rate": 2.407e-05, "elapsed_time_per_iteration": 4.79128695, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 16s", "remaining_time": "2h 30m 18s", "loss_scale": 1.0, "consumed_samples": 1148928, "global_step/max_steps": "4488/6350"}
{"lm loss": 4.89606619, "grad_norm": 0.46553433, "learning_rate": 2.405e-05, "elapsed_time_per_iteration": 4.75343418, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 21s", "remaining_time": "2h 30m 13s", "loss_scale": 1.0, "consumed_samples": 1149184, "global_step/max_steps": "4489/6350"}
{"lm loss": 4.8681469, "grad_norm": 0.49070084, "learning_rate": 2.403e-05, "elapsed_time_per_iteration": 4.77625728, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 26s", "remaining_time": "2h 30m 8s", "loss_scale": 1.0, "consumed_samples": 1149440, "global_step/max_steps": "4490/6350"}
{"lm loss": 4.89568996, "grad_norm": 0.53436458, "learning_rate": 2.401e-05, "elapsed_time_per_iteration": 4.72429967, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 31s", "remaining_time": "2h 30m 3s", "loss_scale": 1.0, "consumed_samples": 1149696, "global_step/max_steps": "4491/6350"}
{"lm loss": 4.86455965, "grad_norm": 0.42137155, "learning_rate": 2.399e-05, "elapsed_time_per_iteration": 4.68618512, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 35s", "remaining_time": "2h 29m 58s", "loss_scale": 1.0, "consumed_samples": 1149952, "global_step/max_steps": "4492/6350"}
{"lm loss": 4.85826778, "grad_norm": 0.48649052, "learning_rate": 2.397e-05, "elapsed_time_per_iteration": 4.81699014, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 40s", "remaining_time": "2h 29m 53s", "loss_scale": 1.0, "consumed_samples": 1150208, "global_step/max_steps": "4493/6350"}
{"lm loss": 4.87532473, "grad_norm": 0.4937515, "learning_rate": 2.395e-05, "elapsed_time_per_iteration": 5.14675045, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 45s", "remaining_time": "2h 29m 49s", "loss_scale": 1.0, "consumed_samples": 1150464, "global_step/max_steps": "4494/6350"}
{"lm loss": 4.86718655, "grad_norm": 0.47134733, "learning_rate": 2.392e-05, "elapsed_time_per_iteration": 4.73265219, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 50s", "remaining_time": "2h 29m 44s", "loss_scale": 1.0, "consumed_samples": 1150720, "global_step/max_steps": "4495/6350"}
{"lm loss": 4.87330627, "grad_norm": 0.54529351, "learning_rate": 2.39e-05, "elapsed_time_per_iteration": 4.66607499, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 55s", "remaining_time": "2h 29m 39s", "loss_scale": 1.0, "consumed_samples": 1150976, "global_step/max_steps": "4496/6350"}
{"lm loss": 4.8736434, "grad_norm": 0.50529158, "learning_rate": 2.388e-05, "elapsed_time_per_iteration": 4.72705317, "memory(GiB)": 28.03, "elapsed_time": "6h 2m 59s", "remaining_time": "2h 29m 34s", "loss_scale": 1.0, "consumed_samples": 1151232, "global_step/max_steps": "4497/6350"}
{"lm loss": 4.8827858, "grad_norm": 0.43498796, "learning_rate": 2.386e-05, "elapsed_time_per_iteration": 4.65365338, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 4s", "remaining_time": "2h 29m 29s", "loss_scale": 1.0, "consumed_samples": 1151488, "global_step/max_steps": "4498/6350"}
{"lm loss": 4.88873768, "grad_norm": 0.49856827, "learning_rate": 2.384e-05, "elapsed_time_per_iteration": 4.71956587, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 9s", "remaining_time": "2h 29m 24s", "loss_scale": 1.0, "consumed_samples": 1151744, "global_step/max_steps": "4499/6350"}
{"lm loss": 4.880404, "grad_norm": 0.43479621, "learning_rate": 2.382e-05, "elapsed_time_per_iteration": 4.7059474, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 14s", "remaining_time": "2h 29m 19s", "loss_scale": 1.0, "consumed_samples": 1152000, "global_step/max_steps": "4500/6350"}
{"lm loss": 4.89866734, "grad_norm": 0.45631349, "learning_rate": 2.38e-05, "elapsed_time_per_iteration": 4.68832064, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 18s", "remaining_time": "2h 29m 14s", "loss_scale": 1.0, "consumed_samples": 1152256, "global_step/max_steps": "4501/6350"}
{"lm loss": 4.86321926, "grad_norm": 0.44051865, "learning_rate": 2.378e-05, "elapsed_time_per_iteration": 4.7731576, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 23s", "remaining_time": "2h 29m 9s", "loss_scale": 1.0, "consumed_samples": 1152512, "global_step/max_steps": "4502/6350"}
{"lm loss": 4.88617468, "grad_norm": 0.44091892, "learning_rate": 2.376e-05, "elapsed_time_per_iteration": 4.71699429, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 28s", "remaining_time": "2h 29m 5s", "loss_scale": 1.0, "consumed_samples": 1152768, "global_step/max_steps": "4503/6350"}
{"lm loss": 4.87895012, "grad_norm": 0.47206959, "learning_rate": 2.374e-05, "elapsed_time_per_iteration": 4.71137238, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 32s", "remaining_time": "2h 29m 0s", "loss_scale": 1.0, "consumed_samples": 1153024, "global_step/max_steps": "4504/6350"}
{"lm loss": 4.85949421, "grad_norm": 0.44807592, "learning_rate": 2.372e-05, "elapsed_time_per_iteration": 4.67993808, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 37s", "remaining_time": "2h 28m 55s", "loss_scale": 1.0, "consumed_samples": 1153280, "global_step/max_steps": "4505/6350"}
{"lm loss": 4.87522602, "grad_norm": 0.49689433, "learning_rate": 2.37e-05, "elapsed_time_per_iteration": 4.91767621, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 42s", "remaining_time": "2h 28m 50s", "loss_scale": 1.0, "consumed_samples": 1153536, "global_step/max_steps": "4506/6350"}
{"lm loss": 4.85878658, "grad_norm": 0.50069374, "learning_rate": 2.368e-05, "elapsed_time_per_iteration": 4.65693092, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 47s", "remaining_time": "2h 28m 45s", "loss_scale": 1.0, "consumed_samples": 1153792, "global_step/max_steps": "4507/6350"}
{"lm loss": 4.86419106, "grad_norm": 0.45057765, "learning_rate": 2.366e-05, "elapsed_time_per_iteration": 5.45727777, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 52s", "remaining_time": "2h 28m 40s", "loss_scale": 1.0, "consumed_samples": 1154048, "global_step/max_steps": "4508/6350"}
{"lm loss": 4.88577175, "grad_norm": 0.93295038, "learning_rate": 2.363e-05, "elapsed_time_per_iteration": 5.4418292, "memory(GiB)": 28.03, "elapsed_time": "6h 3m 58s", "remaining_time": "2h 28m 36s", "loss_scale": 1.0, "consumed_samples": 1154304, "global_step/max_steps": "4509/6350"}
{"lm loss": 4.86190414, "grad_norm": 0.44521019, "learning_rate": 2.361e-05, "elapsed_time_per_iteration": 4.71717739, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 2s", "remaining_time": "2h 28m 31s", "loss_scale": 1.0, "consumed_samples": 1154560, "global_step/max_steps": "4510/6350"}
{"lm loss": 4.88016462, "grad_norm": 0.84598637, "learning_rate": 2.359e-05, "elapsed_time_per_iteration": 5.6686275, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 8s", "remaining_time": "2h 28m 26s", "loss_scale": 1.0, "consumed_samples": 1154816, "global_step/max_steps": "4511/6350"}
{"lm loss": 4.91409302, "grad_norm": 0.45638052, "learning_rate": 2.357e-05, "elapsed_time_per_iteration": 4.65656877, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 13s", "remaining_time": "2h 28m 22s", "loss_scale": 1.0, "consumed_samples": 1155072, "global_step/max_steps": "4512/6350"}
{"lm loss": 4.89256859, "grad_norm": 0.68976033, "learning_rate": 2.355e-05, "elapsed_time_per_iteration": 4.71132088, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 17s", "remaining_time": "2h 28m 17s", "loss_scale": 1.0, "consumed_samples": 1155328, "global_step/max_steps": "4513/6350"}
{"lm loss": 4.9044466, "grad_norm": 0.46773061, "learning_rate": 2.353e-05, "elapsed_time_per_iteration": 4.72184253, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 22s", "remaining_time": "2h 28m 12s", "loss_scale": 1.0, "consumed_samples": 1155584, "global_step/max_steps": "4514/6350"}
{"lm loss": 4.88419819, "grad_norm": 0.53641242, "learning_rate": 2.351e-05, "elapsed_time_per_iteration": 4.6808362, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 27s", "remaining_time": "2h 28m 7s", "loss_scale": 1.0, "consumed_samples": 1155840, "global_step/max_steps": "4515/6350"}
{"lm loss": 4.88240051, "grad_norm": 0.560058, "learning_rate": 2.349e-05, "elapsed_time_per_iteration": 4.72504497, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 31s", "remaining_time": "2h 28m 2s", "loss_scale": 1.0, "consumed_samples": 1156096, "global_step/max_steps": "4516/6350"}
{"lm loss": 4.88234949, "grad_norm": 0.46007916, "learning_rate": 2.347e-05, "elapsed_time_per_iteration": 4.70537853, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 36s", "remaining_time": "2h 27m 57s", "loss_scale": 1.0, "consumed_samples": 1156352, "global_step/max_steps": "4517/6350"}
{"lm loss": 4.89041615, "grad_norm": 0.43265462, "learning_rate": 2.345e-05, "elapsed_time_per_iteration": 4.77650547, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 41s", "remaining_time": "2h 27m 52s", "loss_scale": 1.0, "consumed_samples": 1156608, "global_step/max_steps": "4518/6350"}
{"lm loss": 4.88817453, "grad_norm": 0.47067913, "learning_rate": 2.343e-05, "elapsed_time_per_iteration": 5.73010945, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 47s", "remaining_time": "2h 27m 48s", "loss_scale": 1.0, "consumed_samples": 1156864, "global_step/max_steps": "4519/6350"}
{"lm loss": 4.89706087, "grad_norm": 0.44793791, "learning_rate": 2.341e-05, "elapsed_time_per_iteration": 5.51517868, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 52s", "remaining_time": "2h 27m 43s", "loss_scale": 1.0, "consumed_samples": 1157120, "global_step/max_steps": "4520/6350"}
{"lm loss": 4.88537359, "grad_norm": 0.43795988, "learning_rate": 2.339e-05, "elapsed_time_per_iteration": 4.69693351, "memory(GiB)": 28.03, "elapsed_time": "6h 4m 57s", "remaining_time": "2h 27m 38s", "loss_scale": 1.0, "consumed_samples": 1157376, "global_step/max_steps": "4521/6350"}
{"lm loss": 4.8717227, "grad_norm": 0.46941674, "learning_rate": 2.337e-05, "elapsed_time_per_iteration": 4.87113023, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 2s", "remaining_time": "2h 27m 33s", "loss_scale": 1.0, "consumed_samples": 1157632, "global_step/max_steps": "4522/6350"}
{"lm loss": 4.88586712, "grad_norm": 0.41968277, "learning_rate": 2.335e-05, "elapsed_time_per_iteration": 4.74105859, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 6s", "remaining_time": "2h 27m 29s", "loss_scale": 1.0, "consumed_samples": 1157888, "global_step/max_steps": "4523/6350"}
{"lm loss": 4.88862658, "grad_norm": 0.46649319, "learning_rate": 2.333e-05, "elapsed_time_per_iteration": 4.7224431, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 11s", "remaining_time": "2h 27m 24s", "loss_scale": 1.0, "consumed_samples": 1158144, "global_step/max_steps": "4524/6350"}
{"lm loss": 4.87123346, "grad_norm": 0.44571212, "learning_rate": 2.33e-05, "elapsed_time_per_iteration": 4.66685939, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 16s", "remaining_time": "2h 27m 19s", "loss_scale": 1.0, "consumed_samples": 1158400, "global_step/max_steps": "4525/6350"}
{"lm loss": 4.89432716, "grad_norm": 0.49731824, "learning_rate": 2.328e-05, "elapsed_time_per_iteration": 4.76176119, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 21s", "remaining_time": "2h 27m 14s", "loss_scale": 1.0, "consumed_samples": 1158656, "global_step/max_steps": "4526/6350"}
{"lm loss": 4.86051035, "grad_norm": 0.45739883, "learning_rate": 2.326e-05, "elapsed_time_per_iteration": 4.71515656, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 25s", "remaining_time": "2h 27m 9s", "loss_scale": 1.0, "consumed_samples": 1158912, "global_step/max_steps": "4527/6350"}
{"lm loss": 4.89502192, "grad_norm": 0.45838937, "learning_rate": 2.324e-05, "elapsed_time_per_iteration": 4.7504108, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 30s", "remaining_time": "2h 27m 4s", "loss_scale": 1.0, "consumed_samples": 1159168, "global_step/max_steps": "4528/6350"}
{"lm loss": 4.88327265, "grad_norm": 0.46843418, "learning_rate": 2.322e-05, "elapsed_time_per_iteration": 4.75698471, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 35s", "remaining_time": "2h 26m 59s", "loss_scale": 1.0, "consumed_samples": 1159424, "global_step/max_steps": "4529/6350"}
{"lm loss": 4.86848593, "grad_norm": 0.44743761, "learning_rate": 2.32e-05, "elapsed_time_per_iteration": 4.70915079, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 40s", "remaining_time": "2h 26m 54s", "loss_scale": 1.0, "consumed_samples": 1159680, "global_step/max_steps": "4530/6350"}
{"lm loss": 4.85170746, "grad_norm": 0.44763517, "learning_rate": 2.318e-05, "elapsed_time_per_iteration": 4.70622063, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 44s", "remaining_time": "2h 26m 49s", "loss_scale": 1.0, "consumed_samples": 1159936, "global_step/max_steps": "4531/6350"}
{"lm loss": 4.88851976, "grad_norm": 0.43150327, "learning_rate": 2.316e-05, "elapsed_time_per_iteration": 4.75147128, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 49s", "remaining_time": "2h 26m 44s", "loss_scale": 1.0, "consumed_samples": 1160192, "global_step/max_steps": "4532/6350"}
{"lm loss": 4.87648964, "grad_norm": 0.44617566, "learning_rate": 2.314e-05, "elapsed_time_per_iteration": 4.66538668, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 54s", "remaining_time": "2h 26m 40s", "loss_scale": 1.0, "consumed_samples": 1160448, "global_step/max_steps": "4533/6350"}
{"lm loss": 4.86829281, "grad_norm": 0.45475259, "learning_rate": 2.312e-05, "elapsed_time_per_iteration": 4.71645117, "memory(GiB)": 28.03, "elapsed_time": "6h 5m 58s", "remaining_time": "2h 26m 35s", "loss_scale": 1.0, "consumed_samples": 1160704, "global_step/max_steps": "4534/6350"}
{"lm loss": 4.88316965, "grad_norm": 0.46292356, "learning_rate": 2.31e-05, "elapsed_time_per_iteration": 4.71122742, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 3s", "remaining_time": "2h 26m 30s", "loss_scale": 1.0, "consumed_samples": 1160960, "global_step/max_steps": "4535/6350"}
{"lm loss": 4.84988213, "grad_norm": 0.420472, "learning_rate": 2.308e-05, "elapsed_time_per_iteration": 4.62661171, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 8s", "remaining_time": "2h 26m 25s", "loss_scale": 1.0, "consumed_samples": 1161216, "global_step/max_steps": "4536/6350"}
{"lm loss": 4.88013792, "grad_norm": 0.4596813, "learning_rate": 2.306e-05, "elapsed_time_per_iteration": 5.38461757, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 13s", "remaining_time": "2h 26m 20s", "loss_scale": 1.0, "consumed_samples": 1161472, "global_step/max_steps": "4537/6350"}
{"lm loss": 4.86663771, "grad_norm": 0.48314878, "learning_rate": 2.304e-05, "elapsed_time_per_iteration": 4.68186951, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 18s", "remaining_time": "2h 26m 15s", "loss_scale": 1.0, "consumed_samples": 1161728, "global_step/max_steps": "4538/6350"}
{"lm loss": 4.88673115, "grad_norm": 0.56728059, "learning_rate": 2.302e-05, "elapsed_time_per_iteration": 4.73369026, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 23s", "remaining_time": "2h 26m 10s", "loss_scale": 1.0, "consumed_samples": 1161984, "global_step/max_steps": "4539/6350"}
{"lm loss": 4.86604881, "grad_norm": 0.4364475, "learning_rate": 2.3e-05, "elapsed_time_per_iteration": 4.71720576, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 27s", "remaining_time": "2h 26m 6s", "loss_scale": 1.0, "consumed_samples": 1162240, "global_step/max_steps": "4540/6350"}
{"lm loss": 4.88449717, "grad_norm": 0.4794243, "learning_rate": 2.298e-05, "elapsed_time_per_iteration": 4.72833419, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 32s", "remaining_time": "2h 26m 1s", "loss_scale": 1.0, "consumed_samples": 1162496, "global_step/max_steps": "4541/6350"}
{"lm loss": 4.9105978, "grad_norm": 0.50839245, "learning_rate": 2.296e-05, "elapsed_time_per_iteration": 4.78656769, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 37s", "remaining_time": "2h 25m 56s", "loss_scale": 1.0, "consumed_samples": 1162752, "global_step/max_steps": "4542/6350"}
{"lm loss": 4.88896465, "grad_norm": 0.41120568, "learning_rate": 2.294e-05, "elapsed_time_per_iteration": 4.74351716, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 42s", "remaining_time": "2h 25m 51s", "loss_scale": 1.0, "consumed_samples": 1163008, "global_step/max_steps": "4543/6350"}
{"lm loss": 4.89042521, "grad_norm": 0.49303907, "learning_rate": 2.292e-05, "elapsed_time_per_iteration": 4.70525384, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 46s", "remaining_time": "2h 25m 46s", "loss_scale": 1.0, "consumed_samples": 1163264, "global_step/max_steps": "4544/6350"}
{"lm loss": 4.88625813, "grad_norm": 0.53866357, "learning_rate": 2.29e-05, "elapsed_time_per_iteration": 4.67342877, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 51s", "remaining_time": "2h 25m 41s", "loss_scale": 1.0, "consumed_samples": 1163520, "global_step/max_steps": "4545/6350"}
{"lm loss": 4.87633467, "grad_norm": 0.4873175, "learning_rate": 2.288e-05, "elapsed_time_per_iteration": 4.86812639, "memory(GiB)": 28.03, "elapsed_time": "6h 6m 56s", "remaining_time": "2h 25m 36s", "loss_scale": 1.0, "consumed_samples": 1163776, "global_step/max_steps": "4546/6350"}
{"lm loss": 4.85968828, "grad_norm": 0.4384976, "learning_rate": 2.285e-05, "elapsed_time_per_iteration": 5.64580965, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 1s", "remaining_time": "2h 25m 32s", "loss_scale": 1.0, "consumed_samples": 1164032, "global_step/max_steps": "4547/6350"}
{"lm loss": 4.8867054, "grad_norm": 0.41753224, "learning_rate": 2.283e-05, "elapsed_time_per_iteration": 4.7278583, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 6s", "remaining_time": "2h 25m 27s", "loss_scale": 1.0, "consumed_samples": 1164288, "global_step/max_steps": "4548/6350"}
{"lm loss": 4.89888477, "grad_norm": 0.56191182, "learning_rate": 2.281e-05, "elapsed_time_per_iteration": 4.75315094, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 11s", "remaining_time": "2h 25m 22s", "loss_scale": 1.0, "consumed_samples": 1164544, "global_step/max_steps": "4549/6350"}
{"lm loss": 4.88073301, "grad_norm": 0.50741827, "learning_rate": 2.279e-05, "elapsed_time_per_iteration": 4.73775434, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 16s", "remaining_time": "2h 25m 17s", "loss_scale": 1.0, "consumed_samples": 1164800, "global_step/max_steps": "4550/6350"}
{"lm loss": 4.85094452, "grad_norm": 0.4167479, "learning_rate": 2.277e-05, "elapsed_time_per_iteration": 4.73076272, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 20s", "remaining_time": "2h 25m 12s", "loss_scale": 1.0, "consumed_samples": 1165056, "global_step/max_steps": "4551/6350"}
{"lm loss": 4.86706161, "grad_norm": 0.66366374, "learning_rate": 2.275e-05, "elapsed_time_per_iteration": 4.72197199, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 25s", "remaining_time": "2h 25m 7s", "loss_scale": 1.0, "consumed_samples": 1165312, "global_step/max_steps": "4552/6350"}
{"lm loss": 4.86396503, "grad_norm": 0.59602529, "learning_rate": 2.273e-05, "elapsed_time_per_iteration": 4.78491116, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 30s", "remaining_time": "2h 25m 2s", "loss_scale": 1.0, "consumed_samples": 1165568, "global_step/max_steps": "4553/6350"}
{"lm loss": 4.87884665, "grad_norm": 0.48019531, "learning_rate": 2.271e-05, "elapsed_time_per_iteration": 4.75152516, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 35s", "remaining_time": "2h 24m 58s", "loss_scale": 1.0, "consumed_samples": 1165824, "global_step/max_steps": "4554/6350"}
{"lm loss": 4.88633871, "grad_norm": 0.46155691, "learning_rate": 2.269e-05, "elapsed_time_per_iteration": 4.71002054, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 39s", "remaining_time": "2h 24m 53s", "loss_scale": 1.0, "consumed_samples": 1166080, "global_step/max_steps": "4555/6350"}
{"lm loss": 4.86665249, "grad_norm": 0.41723919, "learning_rate": 2.267e-05, "elapsed_time_per_iteration": 6.05575848, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 45s", "remaining_time": "2h 24m 48s", "loss_scale": 1.0, "consumed_samples": 1166336, "global_step/max_steps": "4556/6350"}
{"lm loss": 4.89875603, "grad_norm": 0.44317684, "learning_rate": 2.265e-05, "elapsed_time_per_iteration": 5.68078828, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 51s", "remaining_time": "2h 24m 44s", "loss_scale": 1.0, "consumed_samples": 1166592, "global_step/max_steps": "4557/6350"}
{"lm loss": 4.87499428, "grad_norm": 0.46257567, "learning_rate": 2.263e-05, "elapsed_time_per_iteration": 4.66393709, "memory(GiB)": 28.03, "elapsed_time": "6h 7m 56s", "remaining_time": "2h 24m 39s", "loss_scale": 1.0, "consumed_samples": 1166848, "global_step/max_steps": "4558/6350"}
{"lm loss": 4.86514187, "grad_norm": 0.4105542, "learning_rate": 2.261e-05, "elapsed_time_per_iteration": 4.75630021, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 0s", "remaining_time": "2h 24m 34s", "loss_scale": 1.0, "consumed_samples": 1167104, "global_step/max_steps": "4559/6350"}
{"lm loss": 4.86945486, "grad_norm": 0.4611057, "learning_rate": 2.259e-05, "elapsed_time_per_iteration": 5.46260357, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 6s", "remaining_time": "2h 24m 29s", "loss_scale": 1.0, "consumed_samples": 1167360, "global_step/max_steps": "4560/6350"}
{"lm loss": 4.85509539, "grad_norm": 0.66252905, "learning_rate": 2.257e-05, "elapsed_time_per_iteration": 4.67372632, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 11s", "remaining_time": "2h 24m 24s", "loss_scale": 1.0, "consumed_samples": 1167616, "global_step/max_steps": "4561/6350"}
{"lm loss": 4.87742853, "grad_norm": 0.4351368, "learning_rate": 2.255e-05, "elapsed_time_per_iteration": 4.69875026, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 15s", "remaining_time": "2h 24m 20s", "loss_scale": 1.0, "consumed_samples": 1167872, "global_step/max_steps": "4562/6350"}
{"lm loss": 4.86483002, "grad_norm": 0.44521028, "learning_rate": 2.253e-05, "elapsed_time_per_iteration": 4.81186056, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 20s", "remaining_time": "2h 24m 15s", "loss_scale": 1.0, "consumed_samples": 1168128, "global_step/max_steps": "4563/6350"}
{"lm loss": 4.89327908, "grad_norm": 0.44149727, "learning_rate": 2.251e-05, "elapsed_time_per_iteration": 5.54841304, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 26s", "remaining_time": "2h 24m 10s", "loss_scale": 1.0, "consumed_samples": 1168384, "global_step/max_steps": "4564/6350"}
{"lm loss": 4.86656666, "grad_norm": 0.48463941, "learning_rate": 2.249e-05, "elapsed_time_per_iteration": 4.72271776, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 30s", "remaining_time": "2h 24m 5s", "loss_scale": 1.0, "consumed_samples": 1168640, "global_step/max_steps": "4565/6350"}
{"lm loss": 4.86204529, "grad_norm": 0.43850708, "learning_rate": 2.247e-05, "elapsed_time_per_iteration": 4.80458975, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 35s", "remaining_time": "2h 24m 0s", "loss_scale": 1.0, "consumed_samples": 1168896, "global_step/max_steps": "4566/6350"}
{"lm loss": 4.8752861, "grad_norm": 0.45578966, "learning_rate": 2.245e-05, "elapsed_time_per_iteration": 4.72317982, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 40s", "remaining_time": "2h 23m 56s", "loss_scale": 1.0, "consumed_samples": 1169152, "global_step/max_steps": "4567/6350"}
{"lm loss": 4.89945602, "grad_norm": 0.44049174, "learning_rate": 2.243e-05, "elapsed_time_per_iteration": 4.71494365, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 45s", "remaining_time": "2h 23m 51s", "loss_scale": 1.0, "consumed_samples": 1169408, "global_step/max_steps": "4568/6350"}
{"lm loss": 4.87373543, "grad_norm": 0.4197441, "learning_rate": 2.241e-05, "elapsed_time_per_iteration": 4.74020863, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 49s", "remaining_time": "2h 23m 46s", "loss_scale": 1.0, "consumed_samples": 1169664, "global_step/max_steps": "4569/6350"}
{"lm loss": 4.87484884, "grad_norm": 0.45245072, "learning_rate": 2.239e-05, "elapsed_time_per_iteration": 4.76837969, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 54s", "remaining_time": "2h 23m 41s", "loss_scale": 1.0, "consumed_samples": 1169920, "global_step/max_steps": "4570/6350"}
{"lm loss": 4.89093781, "grad_norm": 0.44951075, "learning_rate": 2.237e-05, "elapsed_time_per_iteration": 4.73407698, "memory(GiB)": 28.03, "elapsed_time": "6h 8m 59s", "remaining_time": "2h 23m 36s", "loss_scale": 1.0, "consumed_samples": 1170176, "global_step/max_steps": "4571/6350"}
{"lm loss": 4.87562943, "grad_norm": 0.42219266, "learning_rate": 2.235e-05, "elapsed_time_per_iteration": 4.67264557, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 4s", "remaining_time": "2h 23m 31s", "loss_scale": 1.0, "consumed_samples": 1170432, "global_step/max_steps": "4572/6350"}
{"lm loss": 4.88157892, "grad_norm": 0.51322186, "learning_rate": 2.233e-05, "elapsed_time_per_iteration": 4.71918344, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 8s", "remaining_time": "2h 23m 26s", "loss_scale": 1.0, "consumed_samples": 1170688, "global_step/max_steps": "4573/6350"}
{"lm loss": 4.91331577, "grad_norm": 0.47865525, "learning_rate": 2.231e-05, "elapsed_time_per_iteration": 4.90881777, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 13s", "remaining_time": "2h 23m 21s", "loss_scale": 1.0, "consumed_samples": 1170944, "global_step/max_steps": "4574/6350"}
{"lm loss": 4.8792963, "grad_norm": 0.42762369, "learning_rate": 2.229e-05, "elapsed_time_per_iteration": 4.68155146, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 18s", "remaining_time": "2h 23m 16s", "loss_scale": 1.0, "consumed_samples": 1171200, "global_step/max_steps": "4575/6350"}
{"lm loss": 4.89882135, "grad_norm": 0.44108886, "learning_rate": 2.227e-05, "elapsed_time_per_iteration": 4.76747847, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 23s", "remaining_time": "2h 23m 12s", "loss_scale": 1.0, "consumed_samples": 1171456, "global_step/max_steps": "4576/6350"}
{"lm loss": 4.89109945, "grad_norm": 0.4856357, "learning_rate": 2.225e-05, "elapsed_time_per_iteration": 4.65303707, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 27s", "remaining_time": "2h 23m 7s", "loss_scale": 1.0, "consumed_samples": 1171712, "global_step/max_steps": "4577/6350"}
{"lm loss": 4.8588171, "grad_norm": 0.3958658, "learning_rate": 2.223e-05, "elapsed_time_per_iteration": 4.66508436, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 32s", "remaining_time": "2h 23m 2s", "loss_scale": 1.0, "consumed_samples": 1171968, "global_step/max_steps": "4578/6350"}
{"lm loss": 4.84754896, "grad_norm": 0.50282961, "learning_rate": 2.221e-05, "elapsed_time_per_iteration": 4.76879311, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 37s", "remaining_time": "2h 22m 57s", "loss_scale": 1.0, "consumed_samples": 1172224, "global_step/max_steps": "4579/6350"}
{"lm loss": 4.87212324, "grad_norm": 0.54964435, "learning_rate": 2.219e-05, "elapsed_time_per_iteration": 5.23969388, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 42s", "remaining_time": "2h 22m 52s", "loss_scale": 1.0, "consumed_samples": 1172480, "global_step/max_steps": "4580/6350"}
{"lm loss": 4.86446285, "grad_norm": 0.61646074, "learning_rate": 2.217e-05, "elapsed_time_per_iteration": 4.7027061, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 47s", "remaining_time": "2h 22m 47s", "loss_scale": 1.0, "consumed_samples": 1172736, "global_step/max_steps": "4581/6350"}
{"lm loss": 4.88386774, "grad_norm": 0.44733778, "learning_rate": 2.215e-05, "elapsed_time_per_iteration": 5.43217874, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 52s", "remaining_time": "2h 22m 43s", "loss_scale": 1.0, "consumed_samples": 1172992, "global_step/max_steps": "4582/6350"}
{"lm loss": 4.86547089, "grad_norm": 0.48763481, "learning_rate": 2.213e-05, "elapsed_time_per_iteration": 4.74806857, "memory(GiB)": 28.03, "elapsed_time": "6h 9m 57s", "remaining_time": "2h 22m 38s", "loss_scale": 1.0, "consumed_samples": 1173248, "global_step/max_steps": "4583/6350"}
{"lm loss": 4.8627696, "grad_norm": 0.64400995, "learning_rate": 2.211e-05, "elapsed_time_per_iteration": 4.80928683, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 2s", "remaining_time": "2h 22m 33s", "loss_scale": 1.0, "consumed_samples": 1173504, "global_step/max_steps": "4584/6350"}
{"lm loss": 4.86393738, "grad_norm": 0.52621233, "learning_rate": 2.209e-05, "elapsed_time_per_iteration": 4.64051914, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 6s", "remaining_time": "2h 22m 28s", "loss_scale": 1.0, "consumed_samples": 1173760, "global_step/max_steps": "4585/6350"}
{"lm loss": 4.87801886, "grad_norm": 0.4399046, "learning_rate": 2.207e-05, "elapsed_time_per_iteration": 4.81062794, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 11s", "remaining_time": "2h 22m 23s", "loss_scale": 1.0, "consumed_samples": 1174016, "global_step/max_steps": "4586/6350"}
{"lm loss": 4.86501789, "grad_norm": 0.46397018, "learning_rate": 2.205e-05, "elapsed_time_per_iteration": 4.76784086, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 16s", "remaining_time": "2h 22m 18s", "loss_scale": 1.0, "consumed_samples": 1174272, "global_step/max_steps": "4587/6350"}
{"lm loss": 4.85729504, "grad_norm": 0.5311712, "learning_rate": 2.203e-05, "elapsed_time_per_iteration": 4.74458575, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 21s", "remaining_time": "2h 22m 13s", "loss_scale": 1.0, "consumed_samples": 1174528, "global_step/max_steps": "4588/6350"}
{"lm loss": 4.88434315, "grad_norm": 0.46443942, "learning_rate": 2.201e-05, "elapsed_time_per_iteration": 4.67032504, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 25s", "remaining_time": "2h 22m 9s", "loss_scale": 1.0, "consumed_samples": 1174784, "global_step/max_steps": "4589/6350"}
{"lm loss": 4.90278101, "grad_norm": 0.47631437, "learning_rate": 2.199e-05, "elapsed_time_per_iteration": 4.67015052, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 30s", "remaining_time": "2h 22m 4s", "loss_scale": 1.0, "consumed_samples": 1175040, "global_step/max_steps": "4590/6350"}
{"lm loss": 4.89059114, "grad_norm": 0.52743304, "learning_rate": 2.197e-05, "elapsed_time_per_iteration": 5.5710268, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 36s", "remaining_time": "2h 21m 59s", "loss_scale": 1.0, "consumed_samples": 1175296, "global_step/max_steps": "4591/6350"}
{"lm loss": 4.86964035, "grad_norm": 0.53179008, "learning_rate": 2.195e-05, "elapsed_time_per_iteration": 5.12867212, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 41s", "remaining_time": "2h 21m 54s", "loss_scale": 1.0, "consumed_samples": 1175552, "global_step/max_steps": "4592/6350"}
{"lm loss": 4.88533258, "grad_norm": 0.45032516, "learning_rate": 2.193e-05, "elapsed_time_per_iteration": 4.74462533, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 45s", "remaining_time": "2h 21m 49s", "loss_scale": 1.0, "consumed_samples": 1175808, "global_step/max_steps": "4593/6350"}
{"lm loss": 4.88620281, "grad_norm": 0.42664191, "learning_rate": 2.191e-05, "elapsed_time_per_iteration": 4.73067522, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 50s", "remaining_time": "2h 21m 45s", "loss_scale": 1.0, "consumed_samples": 1176064, "global_step/max_steps": "4594/6350"}
{"lm loss": 4.85936117, "grad_norm": 0.47238716, "learning_rate": 2.189e-05, "elapsed_time_per_iteration": 4.69385028, "memory(GiB)": 28.03, "elapsed_time": "6h 10m 55s", "remaining_time": "2h 21m 40s", "loss_scale": 1.0, "consumed_samples": 1176320, "global_step/max_steps": "4595/6350"}
{"lm loss": 4.8762536, "grad_norm": 0.42745113, "learning_rate": 2.187e-05, "elapsed_time_per_iteration": 4.67698503, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 0s", "remaining_time": "2h 21m 35s", "loss_scale": 1.0, "consumed_samples": 1176576, "global_step/max_steps": "4596/6350"}
{"lm loss": 4.88511276, "grad_norm": 0.54093087, "learning_rate": 2.185e-05, "elapsed_time_per_iteration": 4.81988239, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 4s", "remaining_time": "2h 21m 30s", "loss_scale": 1.0, "consumed_samples": 1176832, "global_step/max_steps": "4597/6350"}
{"lm loss": 4.89151239, "grad_norm": 0.44279346, "learning_rate": 2.183e-05, "elapsed_time_per_iteration": 4.70790458, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 9s", "remaining_time": "2h 21m 25s", "loss_scale": 1.0, "consumed_samples": 1177088, "global_step/max_steps": "4598/6350"}
{"lm loss": 4.87687302, "grad_norm": 0.46065027, "learning_rate": 2.181e-05, "elapsed_time_per_iteration": 4.67914915, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 14s", "remaining_time": "2h 21m 20s", "loss_scale": 1.0, "consumed_samples": 1177344, "global_step/max_steps": "4599/6350"}
{"lm loss": 4.90681601, "grad_norm": 0.4504272, "learning_rate": 2.179e-05, "elapsed_time_per_iteration": 4.73987985, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 18s", "remaining_time": "2h 21m 15s", "loss_scale": 1.0, "consumed_samples": 1177600, "global_step/max_steps": "4600/6350"}
{"lm loss": 4.85948849, "grad_norm": 0.37627047, "learning_rate": 2.177e-05, "elapsed_time_per_iteration": 4.72228599, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 23s", "remaining_time": "2h 21m 10s", "loss_scale": 1.0, "consumed_samples": 1177856, "global_step/max_steps": "4601/6350"}
{"lm loss": 4.89152956, "grad_norm": 0.429775, "learning_rate": 2.175e-05, "elapsed_time_per_iteration": 4.76646519, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 28s", "remaining_time": "2h 21m 5s", "loss_scale": 1.0, "consumed_samples": 1178112, "global_step/max_steps": "4602/6350"}
{"lm loss": 4.87453842, "grad_norm": 0.422674, "learning_rate": 2.173e-05, "elapsed_time_per_iteration": 4.72107244, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 33s", "remaining_time": "2h 21m 1s", "loss_scale": 1.0, "consumed_samples": 1178368, "global_step/max_steps": "4603/6350"}
{"lm loss": 4.88286018, "grad_norm": 0.41588143, "learning_rate": 2.171e-05, "elapsed_time_per_iteration": 4.74872994, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 37s", "remaining_time": "2h 20m 56s", "loss_scale": 1.0, "consumed_samples": 1178624, "global_step/max_steps": "4604/6350"}
{"lm loss": 4.84374428, "grad_norm": 0.45549816, "learning_rate": 2.169e-05, "elapsed_time_per_iteration": 4.77750945, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 42s", "remaining_time": "2h 20m 51s", "loss_scale": 1.0, "consumed_samples": 1178880, "global_step/max_steps": "4605/6350"}
{"lm loss": 4.87677479, "grad_norm": 0.41871718, "learning_rate": 2.167e-05, "elapsed_time_per_iteration": 4.65078616, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 47s", "remaining_time": "2h 20m 46s", "loss_scale": 1.0, "consumed_samples": 1179136, "global_step/max_steps": "4606/6350"}
{"lm loss": 4.87867737, "grad_norm": 0.49781898, "learning_rate": 2.165e-05, "elapsed_time_per_iteration": 4.72693157, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 52s", "remaining_time": "2h 20m 41s", "loss_scale": 1.0, "consumed_samples": 1179392, "global_step/max_steps": "4607/6350"}
{"lm loss": 4.84983683, "grad_norm": 0.5089407, "learning_rate": 2.163e-05, "elapsed_time_per_iteration": 4.75687194, "memory(GiB)": 28.03, "elapsed_time": "6h 11m 56s", "remaining_time": "2h 20m 36s", "loss_scale": 1.0, "consumed_samples": 1179648, "global_step/max_steps": "4608/6350"}
{"lm loss": 4.88138056, "grad_norm": 0.53429455, "learning_rate": 2.161e-05, "elapsed_time_per_iteration": 4.75560141, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 1s", "remaining_time": "2h 20m 31s", "loss_scale": 1.0, "consumed_samples": 1179904, "global_step/max_steps": "4609/6350"}
{"lm loss": 4.86261845, "grad_norm": 0.43324247, "learning_rate": 2.159e-05, "elapsed_time_per_iteration": 4.79124808, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 6s", "remaining_time": "2h 20m 26s", "loss_scale": 1.0, "consumed_samples": 1180160, "global_step/max_steps": "4610/6350"}
{"lm loss": 4.88670874, "grad_norm": 0.48594052, "learning_rate": 2.157e-05, "elapsed_time_per_iteration": 4.75968575, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 11s", "remaining_time": "2h 20m 22s", "loss_scale": 1.0, "consumed_samples": 1180416, "global_step/max_steps": "4611/6350"}
{"lm loss": 4.90254402, "grad_norm": 0.5435676, "learning_rate": 2.155e-05, "elapsed_time_per_iteration": 4.67417336, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 15s", "remaining_time": "2h 20m 17s", "loss_scale": 1.0, "consumed_samples": 1180672, "global_step/max_steps": "4612/6350"}
{"lm loss": 4.89058447, "grad_norm": 0.46253374, "learning_rate": 2.153e-05, "elapsed_time_per_iteration": 4.71287847, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 20s", "remaining_time": "2h 20m 12s", "loss_scale": 1.0, "consumed_samples": 1180928, "global_step/max_steps": "4613/6350"}
{"lm loss": 4.88785124, "grad_norm": 0.42465061, "learning_rate": 2.151e-05, "elapsed_time_per_iteration": 5.78599477, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 26s", "remaining_time": "2h 20m 7s", "loss_scale": 1.0, "consumed_samples": 1181184, "global_step/max_steps": "4614/6350"}
{"lm loss": 4.88373613, "grad_norm": 0.42901686, "learning_rate": 2.149e-05, "elapsed_time_per_iteration": 4.75234628, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 31s", "remaining_time": "2h 20m 2s", "loss_scale": 1.0, "consumed_samples": 1181440, "global_step/max_steps": "4615/6350"}
{"lm loss": 4.87598848, "grad_norm": 0.45443904, "learning_rate": 2.147e-05, "elapsed_time_per_iteration": 5.66009331, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 36s", "remaining_time": "2h 19m 58s", "loss_scale": 1.0, "consumed_samples": 1181696, "global_step/max_steps": "4616/6350"}
{"lm loss": 4.87940645, "grad_norm": 0.43324476, "learning_rate": 2.145e-05, "elapsed_time_per_iteration": 5.27970362, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 42s", "remaining_time": "2h 19m 53s", "loss_scale": 1.0, "consumed_samples": 1181952, "global_step/max_steps": "4617/6350"}
{"lm loss": 4.87159348, "grad_norm": 0.42019409, "learning_rate": 2.143e-05, "elapsed_time_per_iteration": 4.69464445, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 46s", "remaining_time": "2h 19m 48s", "loss_scale": 1.0, "consumed_samples": 1182208, "global_step/max_steps": "4618/6350"}
{"lm loss": 4.88857985, "grad_norm": 0.46499062, "learning_rate": 2.141e-05, "elapsed_time_per_iteration": 4.78321576, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 51s", "remaining_time": "2h 19m 43s", "loss_scale": 1.0, "consumed_samples": 1182464, "global_step/max_steps": "4619/6350"}
{"lm loss": 4.87927341, "grad_norm": 0.42058319, "learning_rate": 2.139e-05, "elapsed_time_per_iteration": 4.76746321, "memory(GiB)": 28.03, "elapsed_time": "6h 12m 56s", "remaining_time": "2h 19m 38s", "loss_scale": 1.0, "consumed_samples": 1182720, "global_step/max_steps": "4620/6350"}
{"lm loss": 4.8752532, "grad_norm": 0.46345261, "learning_rate": 2.137e-05, "elapsed_time_per_iteration": 4.73328733, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 0s", "remaining_time": "2h 19m 34s", "loss_scale": 1.0, "consumed_samples": 1182976, "global_step/max_steps": "4621/6350"}
{"lm loss": 4.88939285, "grad_norm": 0.4766669, "learning_rate": 2.135e-05, "elapsed_time_per_iteration": 4.74014664, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 5s", "remaining_time": "2h 19m 29s", "loss_scale": 1.0, "consumed_samples": 1183232, "global_step/max_steps": "4622/6350"}
{"lm loss": 4.84666586, "grad_norm": 0.52268183, "learning_rate": 2.133e-05, "elapsed_time_per_iteration": 4.88018656, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 10s", "remaining_time": "2h 19m 24s", "loss_scale": 1.0, "consumed_samples": 1183488, "global_step/max_steps": "4623/6350"}
{"lm loss": 4.87215137, "grad_norm": 0.54645151, "learning_rate": 2.131e-05, "elapsed_time_per_iteration": 4.70871997, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 15s", "remaining_time": "2h 19m 19s", "loss_scale": 1.0, "consumed_samples": 1183744, "global_step/max_steps": "4624/6350"}
{"lm loss": 4.89180326, "grad_norm": 0.46046171, "learning_rate": 2.129e-05, "elapsed_time_per_iteration": 4.79704952, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 20s", "remaining_time": "2h 19m 14s", "loss_scale": 1.0, "consumed_samples": 1184000, "global_step/max_steps": "4625/6350"}
{"lm loss": 4.90395498, "grad_norm": 0.48311779, "learning_rate": 2.127e-05, "elapsed_time_per_iteration": 4.69578362, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 24s", "remaining_time": "2h 19m 9s", "loss_scale": 1.0, "consumed_samples": 1184256, "global_step/max_steps": "4626/6350"}
{"lm loss": 4.88862371, "grad_norm": 0.52704555, "learning_rate": 2.125e-05, "elapsed_time_per_iteration": 4.70123172, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 29s", "remaining_time": "2h 19m 4s", "loss_scale": 1.0, "consumed_samples": 1184512, "global_step/max_steps": "4627/6350"}
{"lm loss": 4.87917948, "grad_norm": 0.49468562, "learning_rate": 2.123e-05, "elapsed_time_per_iteration": 4.67431688, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 34s", "remaining_time": "2h 18m 59s", "loss_scale": 1.0, "consumed_samples": 1184768, "global_step/max_steps": "4628/6350"}
{"lm loss": 4.86558056, "grad_norm": 0.4601315, "learning_rate": 2.121e-05, "elapsed_time_per_iteration": 4.62231398, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 38s", "remaining_time": "2h 18m 55s", "loss_scale": 1.0, "consumed_samples": 1185024, "global_step/max_steps": "4629/6350"}
{"lm loss": 4.88142538, "grad_norm": 0.49003908, "learning_rate": 2.119e-05, "elapsed_time_per_iteration": 4.6497736, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 43s", "remaining_time": "2h 18m 50s", "loss_scale": 1.0, "consumed_samples": 1185280, "global_step/max_steps": "4630/6350"}
{"lm loss": 4.9158473, "grad_norm": 0.44052327, "learning_rate": 2.117e-05, "elapsed_time_per_iteration": 4.72161794, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 48s", "remaining_time": "2h 18m 45s", "loss_scale": 1.0, "consumed_samples": 1185536, "global_step/max_steps": "4631/6350"}
{"lm loss": 4.87835407, "grad_norm": 0.44708163, "learning_rate": 2.115e-05, "elapsed_time_per_iteration": 4.78082824, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 52s", "remaining_time": "2h 18m 40s", "loss_scale": 1.0, "consumed_samples": 1185792, "global_step/max_steps": "4632/6350"}
{"lm loss": 4.89598083, "grad_norm": 0.47099039, "learning_rate": 2.113e-05, "elapsed_time_per_iteration": 5.54324841, "memory(GiB)": 28.03, "elapsed_time": "6h 13m 58s", "remaining_time": "2h 18m 35s", "loss_scale": 1.0, "consumed_samples": 1186048, "global_step/max_steps": "4633/6350"}
{"lm loss": 4.86921215, "grad_norm": 0.52438343, "learning_rate": 2.111e-05, "elapsed_time_per_iteration": 4.7087009, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 3s", "remaining_time": "2h 18m 30s", "loss_scale": 1.0, "consumed_samples": 1186304, "global_step/max_steps": "4634/6350"}
{"lm loss": 4.87038088, "grad_norm": 0.51801789, "learning_rate": 2.109e-05, "elapsed_time_per_iteration": 4.70456672, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 7s", "remaining_time": "2h 18m 25s", "loss_scale": 1.0, "consumed_samples": 1186560, "global_step/max_steps": "4635/6350"}
{"lm loss": 4.8848052, "grad_norm": 0.43343323, "learning_rate": 2.107e-05, "elapsed_time_per_iteration": 4.86789703, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 12s", "remaining_time": "2h 18m 21s", "loss_scale": 1.0, "consumed_samples": 1186816, "global_step/max_steps": "4636/6350"}
{"lm loss": 4.86579657, "grad_norm": 0.55263627, "learning_rate": 2.105e-05, "elapsed_time_per_iteration": 4.73783731, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 17s", "remaining_time": "2h 18m 16s", "loss_scale": 1.0, "consumed_samples": 1187072, "global_step/max_steps": "4637/6350"}
{"lm loss": 4.8966279, "grad_norm": 0.56525338, "learning_rate": 2.103e-05, "elapsed_time_per_iteration": 4.70007944, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 22s", "remaining_time": "2h 18m 11s", "loss_scale": 1.0, "consumed_samples": 1187328, "global_step/max_steps": "4638/6350"}
{"lm loss": 4.87066936, "grad_norm": 0.45344117, "learning_rate": 2.101e-05, "elapsed_time_per_iteration": 4.72563863, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 26s", "remaining_time": "2h 18m 6s", "loss_scale": 1.0, "consumed_samples": 1187584, "global_step/max_steps": "4639/6350"}
{"lm loss": 4.87606621, "grad_norm": 0.56540996, "learning_rate": 2.099e-05, "elapsed_time_per_iteration": 4.7792623, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 31s", "remaining_time": "2h 18m 1s", "loss_scale": 1.0, "consumed_samples": 1187840, "global_step/max_steps": "4640/6350"}
{"lm loss": 4.87992525, "grad_norm": 0.55727243, "learning_rate": 2.097e-05, "elapsed_time_per_iteration": 4.74289727, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 36s", "remaining_time": "2h 17m 56s", "loss_scale": 1.0, "consumed_samples": 1188096, "global_step/max_steps": "4641/6350"}
{"lm loss": 4.88503456, "grad_norm": 0.42829198, "learning_rate": 2.095e-05, "elapsed_time_per_iteration": 4.72660494, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 41s", "remaining_time": "2h 17m 51s", "loss_scale": 1.0, "consumed_samples": 1188352, "global_step/max_steps": "4642/6350"}
{"lm loss": 4.86373472, "grad_norm": 0.53877574, "learning_rate": 2.093e-05, "elapsed_time_per_iteration": 4.71820235, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 45s", "remaining_time": "2h 17m 46s", "loss_scale": 1.0, "consumed_samples": 1188608, "global_step/max_steps": "4643/6350"}
{"lm loss": 4.86144257, "grad_norm": 0.5130651, "learning_rate": 2.092e-05, "elapsed_time_per_iteration": 4.68661427, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 50s", "remaining_time": "2h 17m 42s", "loss_scale": 1.0, "consumed_samples": 1188864, "global_step/max_steps": "4644/6350"}
{"lm loss": 4.89524603, "grad_norm": 0.52845007, "learning_rate": 2.09e-05, "elapsed_time_per_iteration": 5.51064086, "memory(GiB)": 28.03, "elapsed_time": "6h 14m 56s", "remaining_time": "2h 17m 37s", "loss_scale": 1.0, "consumed_samples": 1189120, "global_step/max_steps": "4645/6350"}
{"lm loss": 4.8888917, "grad_norm": 0.45476106, "learning_rate": 2.088e-05, "elapsed_time_per_iteration": 4.650316, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 0s", "remaining_time": "2h 17m 32s", "loss_scale": 1.0, "consumed_samples": 1189376, "global_step/max_steps": "4646/6350"}
{"lm loss": 4.88579655, "grad_norm": 0.51241881, "learning_rate": 2.086e-05, "elapsed_time_per_iteration": 4.7365799, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 5s", "remaining_time": "2h 17m 27s", "loss_scale": 1.0, "consumed_samples": 1189632, "global_step/max_steps": "4647/6350"}
{"lm loss": 4.85873127, "grad_norm": 0.48451921, "learning_rate": 2.084e-05, "elapsed_time_per_iteration": 4.75574923, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 10s", "remaining_time": "2h 17m 22s", "loss_scale": 1.0, "consumed_samples": 1189888, "global_step/max_steps": "4648/6350"}
{"lm loss": 4.87744713, "grad_norm": 0.46798331, "learning_rate": 2.082e-05, "elapsed_time_per_iteration": 4.62835455, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 14s", "remaining_time": "2h 17m 17s", "loss_scale": 1.0, "consumed_samples": 1190144, "global_step/max_steps": "4649/6350"}
{"lm loss": 4.85890627, "grad_norm": 0.49412, "learning_rate": 2.08e-05, "elapsed_time_per_iteration": 4.64489198, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 19s", "remaining_time": "2h 17m 12s", "loss_scale": 1.0, "consumed_samples": 1190400, "global_step/max_steps": "4650/6350"}
{"lm loss": 4.89806128, "grad_norm": 0.45980984, "learning_rate": 2.078e-05, "elapsed_time_per_iteration": 4.73965478, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 24s", "remaining_time": "2h 17m 8s", "loss_scale": 1.0, "consumed_samples": 1190656, "global_step/max_steps": "4651/6350"}
{"lm loss": 4.86324549, "grad_norm": 0.46759841, "learning_rate": 2.076e-05, "elapsed_time_per_iteration": 4.7409234, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 29s", "remaining_time": "2h 17m 3s", "loss_scale": 1.0, "consumed_samples": 1190912, "global_step/max_steps": "4652/6350"}
{"lm loss": 4.8933115, "grad_norm": 0.44823036, "learning_rate": 2.074e-05, "elapsed_time_per_iteration": 4.65613532, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 33s", "remaining_time": "2h 16m 58s", "loss_scale": 1.0, "consumed_samples": 1191168, "global_step/max_steps": "4653/6350"}
{"lm loss": 4.8934207, "grad_norm": 0.43366811, "learning_rate": 2.072e-05, "elapsed_time_per_iteration": 4.73000789, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 38s", "remaining_time": "2h 16m 53s", "loss_scale": 1.0, "consumed_samples": 1191424, "global_step/max_steps": "4654/6350"}
{"lm loss": 4.8586154, "grad_norm": 0.46854401, "learning_rate": 2.07e-05, "elapsed_time_per_iteration": 5.6403439, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 44s", "remaining_time": "2h 16m 48s", "loss_scale": 1.0, "consumed_samples": 1191680, "global_step/max_steps": "4655/6350"}
{"lm loss": 4.8852396, "grad_norm": 0.47294703, "learning_rate": 2.068e-05, "elapsed_time_per_iteration": 4.73478675, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 48s", "remaining_time": "2h 16m 43s", "loss_scale": 1.0, "consumed_samples": 1191936, "global_step/max_steps": "4656/6350"}
{"lm loss": 4.87969923, "grad_norm": 0.47775298, "learning_rate": 2.066e-05, "elapsed_time_per_iteration": 4.66715384, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 53s", "remaining_time": "2h 16m 39s", "loss_scale": 1.0, "consumed_samples": 1192192, "global_step/max_steps": "4657/6350"}
{"lm loss": 4.84947777, "grad_norm": 0.42765591, "learning_rate": 2.064e-05, "elapsed_time_per_iteration": 4.74284816, "memory(GiB)": 28.03, "elapsed_time": "6h 15m 58s", "remaining_time": "2h 16m 34s", "loss_scale": 1.0, "consumed_samples": 1192448, "global_step/max_steps": "4658/6350"}
{"lm loss": 4.8606205, "grad_norm": 0.43072206, "learning_rate": 2.062e-05, "elapsed_time_per_iteration": 4.71078968, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 2s", "remaining_time": "2h 16m 29s", "loss_scale": 1.0, "consumed_samples": 1192704, "global_step/max_steps": "4659/6350"}
{"lm loss": 4.85835505, "grad_norm": 0.47954246, "learning_rate": 2.06e-05, "elapsed_time_per_iteration": 4.63595581, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 7s", "remaining_time": "2h 16m 24s", "loss_scale": 1.0, "consumed_samples": 1192960, "global_step/max_steps": "4660/6350"}
{"lm loss": 4.88067245, "grad_norm": 0.51290715, "learning_rate": 2.058e-05, "elapsed_time_per_iteration": 4.62857389, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 12s", "remaining_time": "2h 16m 19s", "loss_scale": 1.0, "consumed_samples": 1193216, "global_step/max_steps": "4661/6350"}
{"lm loss": 4.87633657, "grad_norm": 0.42852035, "learning_rate": 2.056e-05, "elapsed_time_per_iteration": 4.70791721, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 16s", "remaining_time": "2h 16m 14s", "loss_scale": 1.0, "consumed_samples": 1193472, "global_step/max_steps": "4662/6350"}
{"lm loss": 4.87958527, "grad_norm": 0.44922954, "learning_rate": 2.054e-05, "elapsed_time_per_iteration": 4.71153426, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 21s", "remaining_time": "2h 16m 9s", "loss_scale": 1.0, "consumed_samples": 1193728, "global_step/max_steps": "4663/6350"}
{"lm loss": 4.87518311, "grad_norm": 0.44382331, "learning_rate": 2.052e-05, "elapsed_time_per_iteration": 4.99566674, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 26s", "remaining_time": "2h 16m 4s", "loss_scale": 1.0, "consumed_samples": 1193984, "global_step/max_steps": "4664/6350"}
{"lm loss": 4.83791065, "grad_norm": 0.41293773, "learning_rate": 2.051e-05, "elapsed_time_per_iteration": 4.7505362, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 31s", "remaining_time": "2h 15m 59s", "loss_scale": 1.0, "consumed_samples": 1194240, "global_step/max_steps": "4665/6350"}
{"lm loss": 4.89239931, "grad_norm": 0.44359991, "learning_rate": 2.049e-05, "elapsed_time_per_iteration": 4.75088525, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 36s", "remaining_time": "2h 15m 55s", "loss_scale": 1.0, "consumed_samples": 1194496, "global_step/max_steps": "4666/6350"}
{"lm loss": 4.88971663, "grad_norm": 0.55194837, "learning_rate": 2.047e-05, "elapsed_time_per_iteration": 5.21548057, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 41s", "remaining_time": "2h 15m 50s", "loss_scale": 1.0, "consumed_samples": 1194752, "global_step/max_steps": "4667/6350"}
{"lm loss": 4.86307716, "grad_norm": 0.45927298, "learning_rate": 2.045e-05, "elapsed_time_per_iteration": 4.65593338, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 45s", "remaining_time": "2h 15m 45s", "loss_scale": 1.0, "consumed_samples": 1195008, "global_step/max_steps": "4668/6350"}
{"lm loss": 4.85236931, "grad_norm": 0.45944592, "learning_rate": 2.043e-05, "elapsed_time_per_iteration": 4.67646527, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 50s", "remaining_time": "2h 15m 40s", "loss_scale": 1.0, "consumed_samples": 1195264, "global_step/max_steps": "4669/6350"}
{"lm loss": 4.87473583, "grad_norm": 0.43312755, "learning_rate": 2.041e-05, "elapsed_time_per_iteration": 4.6952951, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 55s", "remaining_time": "2h 15m 35s", "loss_scale": 1.0, "consumed_samples": 1195520, "global_step/max_steps": "4670/6350"}
{"lm loss": 4.84895706, "grad_norm": 0.56555915, "learning_rate": 2.039e-05, "elapsed_time_per_iteration": 4.65945625, "memory(GiB)": 28.03, "elapsed_time": "6h 16m 59s", "remaining_time": "2h 15m 30s", "loss_scale": 1.0, "consumed_samples": 1195776, "global_step/max_steps": "4671/6350"}
{"lm loss": 4.88310003, "grad_norm": 0.48268068, "learning_rate": 2.037e-05, "elapsed_time_per_iteration": 4.73359013, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 4s", "remaining_time": "2h 15m 25s", "loss_scale": 1.0, "consumed_samples": 1196032, "global_step/max_steps": "4672/6350"}
{"lm loss": 4.87198782, "grad_norm": 0.45170188, "learning_rate": 2.035e-05, "elapsed_time_per_iteration": 4.6678462, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 9s", "remaining_time": "2h 15m 21s", "loss_scale": 1.0, "consumed_samples": 1196288, "global_step/max_steps": "4673/6350"}
{"lm loss": 4.87456226, "grad_norm": 0.41890895, "learning_rate": 2.033e-05, "elapsed_time_per_iteration": 5.51460361, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 14s", "remaining_time": "2h 15m 16s", "loss_scale": 1.0, "consumed_samples": 1196544, "global_step/max_steps": "4674/6350"}
{"lm loss": 4.86694765, "grad_norm": 0.45062762, "learning_rate": 2.031e-05, "elapsed_time_per_iteration": 4.67906833, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 19s", "remaining_time": "2h 15m 11s", "loss_scale": 1.0, "consumed_samples": 1196800, "global_step/max_steps": "4675/6350"}
{"lm loss": 4.88532257, "grad_norm": 0.46390542, "learning_rate": 2.029e-05, "elapsed_time_per_iteration": 4.76245165, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 24s", "remaining_time": "2h 15m 6s", "loss_scale": 1.0, "consumed_samples": 1197056, "global_step/max_steps": "4676/6350"}
{"lm loss": 4.88796806, "grad_norm": 0.45646328, "learning_rate": 2.027e-05, "elapsed_time_per_iteration": 4.71051216, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 29s", "remaining_time": "2h 15m 1s", "loss_scale": 1.0, "consumed_samples": 1197312, "global_step/max_steps": "4677/6350"}
{"lm loss": 4.8772974, "grad_norm": 0.43182552, "learning_rate": 2.025e-05, "elapsed_time_per_iteration": 4.68089676, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 33s", "remaining_time": "2h 14m 56s", "loss_scale": 1.0, "consumed_samples": 1197568, "global_step/max_steps": "4678/6350"}
{"lm loss": 4.87499619, "grad_norm": 0.44110265, "learning_rate": 2.023e-05, "elapsed_time_per_iteration": 4.69475794, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 38s", "remaining_time": "2h 14m 51s", "loss_scale": 1.0, "consumed_samples": 1197824, "global_step/max_steps": "4679/6350"}
{"lm loss": 4.88306236, "grad_norm": 0.45233366, "learning_rate": 2.021e-05, "elapsed_time_per_iteration": 4.65176225, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 43s", "remaining_time": "2h 14m 47s", "loss_scale": 1.0, "consumed_samples": 1198080, "global_step/max_steps": "4680/6350"}
{"lm loss": 4.89029312, "grad_norm": 0.43361789, "learning_rate": 2.02e-05, "elapsed_time_per_iteration": 4.72863913, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 47s", "remaining_time": "2h 14m 42s", "loss_scale": 1.0, "consumed_samples": 1198336, "global_step/max_steps": "4681/6350"}
{"lm loss": 4.88659191, "grad_norm": 0.46064121, "learning_rate": 2.018e-05, "elapsed_time_per_iteration": 4.68610883, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 52s", "remaining_time": "2h 14m 37s", "loss_scale": 1.0, "consumed_samples": 1198592, "global_step/max_steps": "4682/6350"}
{"lm loss": 4.85810328, "grad_norm": 0.44342837, "learning_rate": 2.016e-05, "elapsed_time_per_iteration": 4.68824434, "memory(GiB)": 28.03, "elapsed_time": "6h 17m 57s", "remaining_time": "2h 14m 32s", "loss_scale": 1.0, "consumed_samples": 1198848, "global_step/max_steps": "4683/6350"}
{"lm loss": 4.90293455, "grad_norm": 0.43228999, "learning_rate": 2.014e-05, "elapsed_time_per_iteration": 4.72649956, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 1s", "remaining_time": "2h 14m 27s", "loss_scale": 1.0, "consumed_samples": 1199104, "global_step/max_steps": "4684/6350"}
{"lm loss": 4.88281822, "grad_norm": 0.45110729, "learning_rate": 2.012e-05, "elapsed_time_per_iteration": 5.55472088, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 7s", "remaining_time": "2h 14m 22s", "loss_scale": 1.0, "consumed_samples": 1199360, "global_step/max_steps": "4685/6350"}
{"lm loss": 4.87213802, "grad_norm": 0.44866318, "learning_rate": 2.01e-05, "elapsed_time_per_iteration": 4.69039345, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 12s", "remaining_time": "2h 14m 17s", "loss_scale": 1.0, "consumed_samples": 1199616, "global_step/max_steps": "4686/6350"}
{"lm loss": 4.88536263, "grad_norm": 0.5045414, "learning_rate": 2.008e-05, "elapsed_time_per_iteration": 5.09332085, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 17s", "remaining_time": "2h 14m 13s", "loss_scale": 1.0, "consumed_samples": 1199872, "global_step/max_steps": "4687/6350"}
{"lm loss": 4.89065886, "grad_norm": 0.49809673, "learning_rate": 2.006e-05, "elapsed_time_per_iteration": 4.74299407, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 21s", "remaining_time": "2h 14m 8s", "loss_scale": 1.0, "consumed_samples": 1200128, "global_step/max_steps": "4688/6350"}
{"lm loss": 4.84985113, "grad_norm": 0.40937769, "learning_rate": 2.004e-05, "elapsed_time_per_iteration": 4.71118331, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 26s", "remaining_time": "2h 14m 3s", "loss_scale": 1.0, "consumed_samples": 1200384, "global_step/max_steps": "4689/6350"}
{"lm loss": 4.87692165, "grad_norm": 0.50054127, "learning_rate": 2.002e-05, "elapsed_time_per_iteration": 4.72798872, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 31s", "remaining_time": "2h 13m 58s", "loss_scale": 1.0, "consumed_samples": 1200640, "global_step/max_steps": "4690/6350"}
{"lm loss": 4.88465071, "grad_norm": 0.49079919, "learning_rate": 2e-05, "elapsed_time_per_iteration": 4.77034926, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 36s", "remaining_time": "2h 13m 53s", "loss_scale": 1.0, "consumed_samples": 1200896, "global_step/max_steps": "4691/6350"}
{"lm loss": 4.88651371, "grad_norm": 0.41743493, "learning_rate": 1.998e-05, "elapsed_time_per_iteration": 4.73223758, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 40s", "remaining_time": "2h 13m 48s", "loss_scale": 1.0, "consumed_samples": 1201152, "global_step/max_steps": "4692/6350"}
{"lm loss": 4.87860966, "grad_norm": 0.52074361, "learning_rate": 1.996e-05, "elapsed_time_per_iteration": 4.71779895, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 45s", "remaining_time": "2h 13m 43s", "loss_scale": 1.0, "consumed_samples": 1201408, "global_step/max_steps": "4693/6350"}
{"lm loss": 4.88109541, "grad_norm": 0.49842522, "learning_rate": 1.995e-05, "elapsed_time_per_iteration": 4.80422831, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 50s", "remaining_time": "2h 13m 39s", "loss_scale": 1.0, "consumed_samples": 1201664, "global_step/max_steps": "4694/6350"}
{"lm loss": 4.89336348, "grad_norm": 0.41768798, "learning_rate": 1.993e-05, "elapsed_time_per_iteration": 4.71527863, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 55s", "remaining_time": "2h 13m 34s", "loss_scale": 1.0, "consumed_samples": 1201920, "global_step/max_steps": "4695/6350"}
{"lm loss": 4.89505529, "grad_norm": 0.43813106, "learning_rate": 1.991e-05, "elapsed_time_per_iteration": 4.64773369, "memory(GiB)": 28.03, "elapsed_time": "6h 18m 59s", "remaining_time": "2h 13m 29s", "loss_scale": 1.0, "consumed_samples": 1202176, "global_step/max_steps": "4696/6350"}
{"lm loss": 4.87079382, "grad_norm": 0.45897058, "learning_rate": 1.989e-05, "elapsed_time_per_iteration": 4.61433864, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 4s", "remaining_time": "2h 13m 24s", "loss_scale": 1.0, "consumed_samples": 1202432, "global_step/max_steps": "4697/6350"}
{"lm loss": 4.88624668, "grad_norm": 0.62101448, "learning_rate": 1.987e-05, "elapsed_time_per_iteration": 4.68325114, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 9s", "remaining_time": "2h 13m 19s", "loss_scale": 1.0, "consumed_samples": 1202688, "global_step/max_steps": "4698/6350"}
{"lm loss": 4.86886501, "grad_norm": 1.96867085, "learning_rate": 1.985e-05, "elapsed_time_per_iteration": 4.65885091, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 13s", "remaining_time": "2h 13m 14s", "loss_scale": 1.0, "consumed_samples": 1202944, "global_step/max_steps": "4699/6350"}
{"lm loss": 4.88421822, "grad_norm": 0.52280867, "learning_rate": 1.983e-05, "elapsed_time_per_iteration": 4.68869257, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 18s", "remaining_time": "2h 13m 9s", "loss_scale": 1.0, "consumed_samples": 1203200, "global_step/max_steps": "4700/6350"}
{"lm loss": 4.89616203, "grad_norm": 0.4130623, "learning_rate": 1.981e-05, "elapsed_time_per_iteration": 4.63577127, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 23s", "remaining_time": "2h 13m 4s", "loss_scale": 1.0, "consumed_samples": 1203456, "global_step/max_steps": "4701/6350"}
{"lm loss": 4.87075996, "grad_norm": 0.47318846, "learning_rate": 1.979e-05, "elapsed_time_per_iteration": 4.69176435, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 27s", "remaining_time": "2h 12m 59s", "loss_scale": 1.0, "consumed_samples": 1203712, "global_step/max_steps": "4702/6350"}
{"lm loss": 4.87716007, "grad_norm": 0.45273063, "learning_rate": 1.977e-05, "elapsed_time_per_iteration": 4.67240477, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 32s", "remaining_time": "2h 12m 54s", "loss_scale": 1.0, "consumed_samples": 1203968, "global_step/max_steps": "4703/6350"}
{"lm loss": 4.89113283, "grad_norm": 0.5005089, "learning_rate": 1.975e-05, "elapsed_time_per_iteration": 4.73158956, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 37s", "remaining_time": "2h 12m 50s", "loss_scale": 1.0, "consumed_samples": 1204224, "global_step/max_steps": "4704/6350"}
{"lm loss": 4.85617971, "grad_norm": 0.50304794, "learning_rate": 1.973e-05, "elapsed_time_per_iteration": 4.65024209, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 41s", "remaining_time": "2h 12m 45s", "loss_scale": 1.0, "consumed_samples": 1204480, "global_step/max_steps": "4705/6350"}
{"lm loss": 4.89441681, "grad_norm": 0.4560023, "learning_rate": 1.972e-05, "elapsed_time_per_iteration": 4.77074265, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 46s", "remaining_time": "2h 12m 40s", "loss_scale": 1.0, "consumed_samples": 1204736, "global_step/max_steps": "4706/6350"}
{"lm loss": 4.88420248, "grad_norm": 0.43333286, "learning_rate": 1.97e-05, "elapsed_time_per_iteration": 4.62655497, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 51s", "remaining_time": "2h 12m 35s", "loss_scale": 1.0, "consumed_samples": 1204992, "global_step/max_steps": "4707/6350"}
{"lm loss": 4.86858273, "grad_norm": 0.41320598, "learning_rate": 1.968e-05, "elapsed_time_per_iteration": 5.55706549, "memory(GiB)": 28.03, "elapsed_time": "6h 19m 56s", "remaining_time": "2h 12m 30s", "loss_scale": 1.0, "consumed_samples": 1205248, "global_step/max_steps": "4708/6350"}
{"lm loss": 4.88730717, "grad_norm": 0.44012073, "learning_rate": 1.966e-05, "elapsed_time_per_iteration": 4.65928292, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 1s", "remaining_time": "2h 12m 25s", "loss_scale": 1.0, "consumed_samples": 1205504, "global_step/max_steps": "4709/6350"}
{"lm loss": 4.89053631, "grad_norm": 0.41500768, "learning_rate": 1.964e-05, "elapsed_time_per_iteration": 4.68656683, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 6s", "remaining_time": "2h 12m 20s", "loss_scale": 1.0, "consumed_samples": 1205760, "global_step/max_steps": "4710/6350"}
{"lm loss": 4.85152292, "grad_norm": 0.42665693, "learning_rate": 1.962e-05, "elapsed_time_per_iteration": 4.68373442, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 10s", "remaining_time": "2h 12m 16s", "loss_scale": 1.0, "consumed_samples": 1206016, "global_step/max_steps": "4711/6350"}
{"lm loss": 4.87693787, "grad_norm": 0.43143973, "learning_rate": 1.96e-05, "elapsed_time_per_iteration": 4.71519065, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 15s", "remaining_time": "2h 12m 11s", "loss_scale": 1.0, "consumed_samples": 1206272, "global_step/max_steps": "4712/6350"}
{"lm loss": 4.86474466, "grad_norm": 0.43700656, "learning_rate": 1.958e-05, "elapsed_time_per_iteration": 4.64555717, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 20s", "remaining_time": "2h 12m 6s", "loss_scale": 1.0, "consumed_samples": 1206528, "global_step/max_steps": "4713/6350"}
{"lm loss": 4.86516571, "grad_norm": 0.45893386, "learning_rate": 1.956e-05, "elapsed_time_per_iteration": 4.66152, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 24s", "remaining_time": "2h 12m 1s", "loss_scale": 1.0, "consumed_samples": 1206784, "global_step/max_steps": "4714/6350"}
{"lm loss": 4.87731266, "grad_norm": 0.41891506, "learning_rate": 1.954e-05, "elapsed_time_per_iteration": 4.74367261, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 29s", "remaining_time": "2h 11m 56s", "loss_scale": 1.0, "consumed_samples": 1207040, "global_step/max_steps": "4715/6350"}
{"lm loss": 4.85605717, "grad_norm": 0.46526712, "learning_rate": 1.953e-05, "elapsed_time_per_iteration": 4.63416934, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 34s", "remaining_time": "2h 11m 51s", "loss_scale": 1.0, "consumed_samples": 1207296, "global_step/max_steps": "4716/6350"}
{"lm loss": 4.84601355, "grad_norm": 0.46949273, "learning_rate": 1.951e-05, "elapsed_time_per_iteration": 4.64786005, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 38s", "remaining_time": "2h 11m 46s", "loss_scale": 1.0, "consumed_samples": 1207552, "global_step/max_steps": "4717/6350"}
{"lm loss": 4.89977837, "grad_norm": 1.24086964, "learning_rate": 1.949e-05, "elapsed_time_per_iteration": 4.69347882, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 43s", "remaining_time": "2h 11m 41s", "loss_scale": 1.0, "consumed_samples": 1207808, "global_step/max_steps": "4718/6350"}
{"lm loss": 4.86405182, "grad_norm": 0.48594344, "learning_rate": 1.947e-05, "elapsed_time_per_iteration": 4.6872685, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 48s", "remaining_time": "2h 11m 36s", "loss_scale": 1.0, "consumed_samples": 1208064, "global_step/max_steps": "4719/6350"}
{"lm loss": 4.83606291, "grad_norm": 0.73488063, "learning_rate": 1.945e-05, "elapsed_time_per_iteration": 4.75806308, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 53s", "remaining_time": "2h 11m 32s", "loss_scale": 1.0, "consumed_samples": 1208320, "global_step/max_steps": "4720/6350"}
{"lm loss": 4.87963247, "grad_norm": 0.45467064, "learning_rate": 1.943e-05, "elapsed_time_per_iteration": 4.73348379, "memory(GiB)": 28.03, "elapsed_time": "6h 20m 57s", "remaining_time": "2h 11m 27s", "loss_scale": 1.0, "consumed_samples": 1208576, "global_step/max_steps": "4721/6350"}
{"lm loss": 4.86783934, "grad_norm": 0.53648424, "learning_rate": 1.941e-05, "elapsed_time_per_iteration": 4.69410777, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 2s", "remaining_time": "2h 11m 22s", "loss_scale": 1.0, "consumed_samples": 1208832, "global_step/max_steps": "4722/6350"}
{"lm loss": 4.87109995, "grad_norm": 0.62045282, "learning_rate": 1.939e-05, "elapsed_time_per_iteration": 4.76371956, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 7s", "remaining_time": "2h 11m 17s", "loss_scale": 1.0, "consumed_samples": 1209088, "global_step/max_steps": "4723/6350"}
{"lm loss": 4.85291672, "grad_norm": 0.46655264, "learning_rate": 1.937e-05, "elapsed_time_per_iteration": 4.70999479, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 11s", "remaining_time": "2h 11m 12s", "loss_scale": 1.0, "consumed_samples": 1209344, "global_step/max_steps": "4724/6350"}
{"lm loss": 4.88024378, "grad_norm": 0.39434797, "learning_rate": 1.935e-05, "elapsed_time_per_iteration": 4.94606614, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 16s", "remaining_time": "2h 11m 7s", "loss_scale": 1.0, "consumed_samples": 1209600, "global_step/max_steps": "4725/6350"}
{"lm loss": 4.87387371, "grad_norm": 0.51098448, "learning_rate": 1.934e-05, "elapsed_time_per_iteration": 4.84674621, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 21s", "remaining_time": "2h 11m 2s", "loss_scale": 1.0, "consumed_samples": 1209856, "global_step/max_steps": "4726/6350"}
{"lm loss": 4.86332607, "grad_norm": 0.41040659, "learning_rate": 1.932e-05, "elapsed_time_per_iteration": 4.64111233, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 26s", "remaining_time": "2h 10m 57s", "loss_scale": 1.0, "consumed_samples": 1210112, "global_step/max_steps": "4727/6350"}
{"lm loss": 4.86739063, "grad_norm": 0.42459056, "learning_rate": 1.93e-05, "elapsed_time_per_iteration": 4.65255785, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 30s", "remaining_time": "2h 10m 53s", "loss_scale": 1.0, "consumed_samples": 1210368, "global_step/max_steps": "4728/6350"}
{"lm loss": 4.85554886, "grad_norm": 0.49157339, "learning_rate": 1.928e-05, "elapsed_time_per_iteration": 4.66493893, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 35s", "remaining_time": "2h 10m 48s", "loss_scale": 1.0, "consumed_samples": 1210624, "global_step/max_steps": "4729/6350"}
{"lm loss": 4.90762711, "grad_norm": 0.39042777, "learning_rate": 1.926e-05, "elapsed_time_per_iteration": 4.60916924, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 40s", "remaining_time": "2h 10m 43s", "loss_scale": 1.0, "consumed_samples": 1210880, "global_step/max_steps": "4730/6350"}
{"lm loss": 4.87342167, "grad_norm": 0.51418513, "learning_rate": 1.924e-05, "elapsed_time_per_iteration": 4.7212956, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 44s", "remaining_time": "2h 10m 38s", "loss_scale": 1.0, "consumed_samples": 1211136, "global_step/max_steps": "4731/6350"}
{"lm loss": 4.88595486, "grad_norm": 0.4746083, "learning_rate": 1.922e-05, "elapsed_time_per_iteration": 4.77299166, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 49s", "remaining_time": "2h 10m 33s", "loss_scale": 1.0, "consumed_samples": 1211392, "global_step/max_steps": "4732/6350"}
{"lm loss": 4.8738637, "grad_norm": 0.60576534, "learning_rate": 1.92e-05, "elapsed_time_per_iteration": 4.77293444, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 54s", "remaining_time": "2h 10m 28s", "loss_scale": 1.0, "consumed_samples": 1211648, "global_step/max_steps": "4733/6350"}
{"lm loss": 4.84916449, "grad_norm": 0.49744534, "learning_rate": 1.919e-05, "elapsed_time_per_iteration": 4.67740202, "memory(GiB)": 28.03, "elapsed_time": "6h 21m 59s", "remaining_time": "2h 10m 23s", "loss_scale": 1.0, "consumed_samples": 1211904, "global_step/max_steps": "4734/6350"}
{"lm loss": 4.857481, "grad_norm": 0.44632503, "learning_rate": 1.917e-05, "elapsed_time_per_iteration": 5.57760978, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 4s", "remaining_time": "2h 10m 19s", "loss_scale": 1.0, "consumed_samples": 1212160, "global_step/max_steps": "4735/6350"}
{"lm loss": 4.88540506, "grad_norm": 0.41130808, "learning_rate": 1.915e-05, "elapsed_time_per_iteration": 5.42281604, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 10s", "remaining_time": "2h 10m 14s", "loss_scale": 1.0, "consumed_samples": 1212416, "global_step/max_steps": "4736/6350"}
{"lm loss": 4.85564899, "grad_norm": 0.44773018, "learning_rate": 1.913e-05, "elapsed_time_per_iteration": 4.67047906, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 14s", "remaining_time": "2h 10m 9s", "loss_scale": 1.0, "consumed_samples": 1212672, "global_step/max_steps": "4737/6350"}
{"lm loss": 4.86373377, "grad_norm": 0.39960667, "learning_rate": 1.911e-05, "elapsed_time_per_iteration": 4.69822335, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 19s", "remaining_time": "2h 10m 4s", "loss_scale": 1.0, "consumed_samples": 1212928, "global_step/max_steps": "4738/6350"}
{"lm loss": 4.87041712, "grad_norm": 0.48983216, "learning_rate": 1.909e-05, "elapsed_time_per_iteration": 4.7403636, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 24s", "remaining_time": "2h 9m 59s", "loss_scale": 1.0, "consumed_samples": 1213184, "global_step/max_steps": "4739/6350"}
{"lm loss": 4.86589241, "grad_norm": 0.41365522, "learning_rate": 1.907e-05, "elapsed_time_per_iteration": 4.69527435, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 29s", "remaining_time": "2h 9m 54s", "loss_scale": 1.0, "consumed_samples": 1213440, "global_step/max_steps": "4740/6350"}
{"lm loss": 4.85157156, "grad_norm": 0.4715915, "learning_rate": 1.905e-05, "elapsed_time_per_iteration": 4.72737217, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 33s", "remaining_time": "2h 9m 50s", "loss_scale": 1.0, "consumed_samples": 1213696, "global_step/max_steps": "4741/6350"}
{"lm loss": 4.88781166, "grad_norm": 0.43002203, "learning_rate": 1.903e-05, "elapsed_time_per_iteration": 4.72887397, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 38s", "remaining_time": "2h 9m 45s", "loss_scale": 1.0, "consumed_samples": 1213952, "global_step/max_steps": "4742/6350"}
{"lm loss": 4.86611795, "grad_norm": 0.43534383, "learning_rate": 1.902e-05, "elapsed_time_per_iteration": 5.20987678, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 43s", "remaining_time": "2h 9m 40s", "loss_scale": 1.0, "consumed_samples": 1214208, "global_step/max_steps": "4743/6350"}
{"lm loss": 4.87500811, "grad_norm": 0.43207541, "learning_rate": 1.9e-05, "elapsed_time_per_iteration": 4.80184674, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 48s", "remaining_time": "2h 9m 35s", "loss_scale": 1.0, "consumed_samples": 1214464, "global_step/max_steps": "4744/6350"}
{"lm loss": 4.89405107, "grad_norm": 0.43318796, "learning_rate": 1.898e-05, "elapsed_time_per_iteration": 4.74744368, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 53s", "remaining_time": "2h 9m 30s", "loss_scale": 1.0, "consumed_samples": 1214720, "global_step/max_steps": "4745/6350"}
{"lm loss": 4.89763451, "grad_norm": 0.43207189, "learning_rate": 1.896e-05, "elapsed_time_per_iteration": 5.30362344, "memory(GiB)": 28.03, "elapsed_time": "6h 22m 58s", "remaining_time": "2h 9m 26s", "loss_scale": 1.0, "consumed_samples": 1214976, "global_step/max_steps": "4746/6350"}
{"lm loss": 4.88418913, "grad_norm": 0.45249027, "learning_rate": 1.894e-05, "elapsed_time_per_iteration": 4.64171767, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 3s", "remaining_time": "2h 9m 21s", "loss_scale": 1.0, "consumed_samples": 1215232, "global_step/max_steps": "4747/6350"}
{"lm loss": 4.88241339, "grad_norm": 0.40330142, "learning_rate": 1.892e-05, "elapsed_time_per_iteration": 4.69166923, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 7s", "remaining_time": "2h 9m 16s", "loss_scale": 1.0, "consumed_samples": 1215488, "global_step/max_steps": "4748/6350"}
{"lm loss": 4.87079382, "grad_norm": 0.6656571, "learning_rate": 1.89e-05, "elapsed_time_per_iteration": 4.75758982, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 12s", "remaining_time": "2h 9m 11s", "loss_scale": 1.0, "consumed_samples": 1215744, "global_step/max_steps": "4749/6350"}
{"lm loss": 4.87490511, "grad_norm": 0.54461598, "learning_rate": 1.888e-05, "elapsed_time_per_iteration": 5.3308537, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 17s", "remaining_time": "2h 9m 6s", "loss_scale": 1.0, "consumed_samples": 1216000, "global_step/max_steps": "4750/6350"}
{"lm loss": 4.88662529, "grad_norm": 0.50880164, "learning_rate": 1.887e-05, "elapsed_time_per_iteration": 4.65483212, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 22s", "remaining_time": "2h 9m 1s", "loss_scale": 1.0, "consumed_samples": 1216256, "global_step/max_steps": "4751/6350"}
{"lm loss": 4.87231827, "grad_norm": 0.42383224, "learning_rate": 1.885e-05, "elapsed_time_per_iteration": 4.74123979, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 27s", "remaining_time": "2h 8m 56s", "loss_scale": 1.0, "consumed_samples": 1216512, "global_step/max_steps": "4752/6350"}
{"lm loss": 4.89634037, "grad_norm": 0.43702859, "learning_rate": 1.883e-05, "elapsed_time_per_iteration": 4.73857856, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 32s", "remaining_time": "2h 8m 52s", "loss_scale": 1.0, "consumed_samples": 1216768, "global_step/max_steps": "4753/6350"}
{"lm loss": 4.8813839, "grad_norm": 0.50388181, "learning_rate": 1.881e-05, "elapsed_time_per_iteration": 4.69129539, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 36s", "remaining_time": "2h 8m 47s", "loss_scale": 1.0, "consumed_samples": 1217024, "global_step/max_steps": "4754/6350"}
{"lm loss": 4.85696268, "grad_norm": 0.42547697, "learning_rate": 1.879e-05, "elapsed_time_per_iteration": 4.74228406, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 41s", "remaining_time": "2h 8m 42s", "loss_scale": 1.0, "consumed_samples": 1217280, "global_step/max_steps": "4755/6350"}
{"lm loss": 4.87212229, "grad_norm": 0.47921041, "learning_rate": 1.877e-05, "elapsed_time_per_iteration": 5.51273656, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 47s", "remaining_time": "2h 8m 37s", "loss_scale": 1.0, "consumed_samples": 1217536, "global_step/max_steps": "4756/6350"}
{"lm loss": 4.84851503, "grad_norm": 0.46879429, "learning_rate": 1.875e-05, "elapsed_time_per_iteration": 4.67828584, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 51s", "remaining_time": "2h 8m 32s", "loss_scale": 1.0, "consumed_samples": 1217792, "global_step/max_steps": "4757/6350"}
{"lm loss": 4.88107634, "grad_norm": 0.43185377, "learning_rate": 1.874e-05, "elapsed_time_per_iteration": 4.76805329, "memory(GiB)": 28.03, "elapsed_time": "6h 23m 56s", "remaining_time": "2h 8m 27s", "loss_scale": 1.0, "consumed_samples": 1218048, "global_step/max_steps": "4758/6350"}
{"lm loss": 4.89192247, "grad_norm": 0.57590437, "learning_rate": 1.872e-05, "elapsed_time_per_iteration": 4.75806546, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 1s", "remaining_time": "2h 8m 23s", "loss_scale": 1.0, "consumed_samples": 1218304, "global_step/max_steps": "4759/6350"}
{"lm loss": 4.88622999, "grad_norm": 0.48282081, "learning_rate": 1.87e-05, "elapsed_time_per_iteration": 4.67889166, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 5s", "remaining_time": "2h 8m 18s", "loss_scale": 1.0, "consumed_samples": 1218560, "global_step/max_steps": "4760/6350"}
{"lm loss": 4.88518047, "grad_norm": 1.32780313, "learning_rate": 1.868e-05, "elapsed_time_per_iteration": 4.71630454, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 10s", "remaining_time": "2h 8m 13s", "loss_scale": 1.0, "consumed_samples": 1218816, "global_step/max_steps": "4761/6350"}
{"lm loss": 4.88180208, "grad_norm": 0.50694829, "learning_rate": 1.866e-05, "elapsed_time_per_iteration": 4.61791563, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 15s", "remaining_time": "2h 8m 8s", "loss_scale": 1.0, "consumed_samples": 1219072, "global_step/max_steps": "4762/6350"}
{"lm loss": 4.86311769, "grad_norm": 0.46098706, "learning_rate": 1.864e-05, "elapsed_time_per_iteration": 4.70235014, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 19s", "remaining_time": "2h 8m 3s", "loss_scale": 1.0, "consumed_samples": 1219328, "global_step/max_steps": "4763/6350"}
{"lm loss": 4.86605358, "grad_norm": 0.40471411, "learning_rate": 1.862e-05, "elapsed_time_per_iteration": 4.70324135, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 24s", "remaining_time": "2h 7m 58s", "loss_scale": 1.0, "consumed_samples": 1219584, "global_step/max_steps": "4764/6350"}
{"lm loss": 4.88999748, "grad_norm": 0.493889, "learning_rate": 1.861e-05, "elapsed_time_per_iteration": 4.64038086, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 29s", "remaining_time": "2h 7m 53s", "loss_scale": 1.0, "consumed_samples": 1219840, "global_step/max_steps": "4765/6350"}
{"lm loss": 4.86614275, "grad_norm": 0.43254825, "learning_rate": 1.859e-05, "elapsed_time_per_iteration": 4.65303159, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 33s", "remaining_time": "2h 7m 48s", "loss_scale": 1.0, "consumed_samples": 1220096, "global_step/max_steps": "4766/6350"}
{"lm loss": 4.85547972, "grad_norm": 0.45323649, "learning_rate": 1.857e-05, "elapsed_time_per_iteration": 4.72530389, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 38s", "remaining_time": "2h 7m 43s", "loss_scale": 1.0, "consumed_samples": 1220352, "global_step/max_steps": "4767/6350"}
{"lm loss": 4.87720728, "grad_norm": 0.4291406, "learning_rate": 1.855e-05, "elapsed_time_per_iteration": 4.78469229, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 43s", "remaining_time": "2h 7m 38s", "loss_scale": 1.0, "consumed_samples": 1220608, "global_step/max_steps": "4768/6350"}
{"lm loss": 4.89651251, "grad_norm": 0.40434197, "learning_rate": 1.853e-05, "elapsed_time_per_iteration": 4.72693658, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 48s", "remaining_time": "2h 7m 34s", "loss_scale": 1.0, "consumed_samples": 1220864, "global_step/max_steps": "4769/6350"}
{"lm loss": 4.88071871, "grad_norm": 0.43446383, "learning_rate": 1.851e-05, "elapsed_time_per_iteration": 4.63204193, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 52s", "remaining_time": "2h 7m 29s", "loss_scale": 1.0, "consumed_samples": 1221120, "global_step/max_steps": "4770/6350"}
{"lm loss": 4.88196182, "grad_norm": 0.41298807, "learning_rate": 1.849e-05, "elapsed_time_per_iteration": 4.76430535, "memory(GiB)": 28.03, "elapsed_time": "6h 24m 57s", "remaining_time": "2h 7m 24s", "loss_scale": 1.0, "consumed_samples": 1221376, "global_step/max_steps": "4771/6350"}
{"lm loss": 4.88138533, "grad_norm": 0.40743324, "learning_rate": 1.848e-05, "elapsed_time_per_iteration": 4.69003725, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 2s", "remaining_time": "2h 7m 19s", "loss_scale": 1.0, "consumed_samples": 1221632, "global_step/max_steps": "4772/6350"}
{"lm loss": 4.8805418, "grad_norm": 0.41544312, "learning_rate": 1.846e-05, "elapsed_time_per_iteration": 4.63308167, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 6s", "remaining_time": "2h 7m 14s", "loss_scale": 1.0, "consumed_samples": 1221888, "global_step/max_steps": "4773/6350"}
{"lm loss": 4.87213516, "grad_norm": 0.38941252, "learning_rate": 1.844e-05, "elapsed_time_per_iteration": 4.73331356, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 11s", "remaining_time": "2h 7m 9s", "loss_scale": 1.0, "consumed_samples": 1222144, "global_step/max_steps": "4774/6350"}
{"lm loss": 4.86549282, "grad_norm": 0.37109128, "learning_rate": 1.842e-05, "elapsed_time_per_iteration": 5.10228801, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 16s", "remaining_time": "2h 7m 4s", "loss_scale": 1.0, "consumed_samples": 1222400, "global_step/max_steps": "4775/6350"}
{"lm loss": 4.86043692, "grad_norm": 0.42489186, "learning_rate": 1.84e-05, "elapsed_time_per_iteration": 4.70447683, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 21s", "remaining_time": "2h 7m 0s", "loss_scale": 1.0, "consumed_samples": 1222656, "global_step/max_steps": "4776/6350"}
{"lm loss": 4.87462902, "grad_norm": 0.45813611, "learning_rate": 1.838e-05, "elapsed_time_per_iteration": 4.70433187, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 26s", "remaining_time": "2h 6m 55s", "loss_scale": 1.0, "consumed_samples": 1222912, "global_step/max_steps": "4777/6350"}
{"lm loss": 4.86594963, "grad_norm": 0.50981754, "learning_rate": 1.836e-05, "elapsed_time_per_iteration": 4.72075534, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 30s", "remaining_time": "2h 6m 50s", "loss_scale": 1.0, "consumed_samples": 1223168, "global_step/max_steps": "4778/6350"}
{"lm loss": 4.86975622, "grad_norm": 0.43329686, "learning_rate": 1.835e-05, "elapsed_time_per_iteration": 5.45099735, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 36s", "remaining_time": "2h 6m 45s", "loss_scale": 1.0, "consumed_samples": 1223424, "global_step/max_steps": "4779/6350"}
{"lm loss": 4.89626217, "grad_norm": 0.57543451, "learning_rate": 1.833e-05, "elapsed_time_per_iteration": 4.66622281, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 40s", "remaining_time": "2h 6m 40s", "loss_scale": 1.0, "consumed_samples": 1223680, "global_step/max_steps": "4780/6350"}
{"lm loss": 4.87251902, "grad_norm": 0.49046567, "learning_rate": 1.831e-05, "elapsed_time_per_iteration": 4.63938928, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 45s", "remaining_time": "2h 6m 35s", "loss_scale": 1.0, "consumed_samples": 1223936, "global_step/max_steps": "4781/6350"}
{"lm loss": 4.89050293, "grad_norm": 0.49519432, "learning_rate": 1.829e-05, "elapsed_time_per_iteration": 4.63086009, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 50s", "remaining_time": "2h 6m 30s", "loss_scale": 1.0, "consumed_samples": 1224192, "global_step/max_steps": "4782/6350"}
{"lm loss": 4.90024519, "grad_norm": 0.44350764, "learning_rate": 1.827e-05, "elapsed_time_per_iteration": 4.7032218, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 54s", "remaining_time": "2h 6m 25s", "loss_scale": 1.0, "consumed_samples": 1224448, "global_step/max_steps": "4783/6350"}
{"lm loss": 4.89069033, "grad_norm": 0.46733922, "learning_rate": 1.825e-05, "elapsed_time_per_iteration": 4.66862297, "memory(GiB)": 28.03, "elapsed_time": "6h 25m 59s", "remaining_time": "2h 6m 21s", "loss_scale": 1.0, "consumed_samples": 1224704, "global_step/max_steps": "4784/6350"}
{"lm loss": 4.8654089, "grad_norm": 0.44939953, "learning_rate": 1.824e-05, "elapsed_time_per_iteration": 5.43100905, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 5s", "remaining_time": "2h 6m 16s", "loss_scale": 1.0, "consumed_samples": 1224960, "global_step/max_steps": "4785/6350"}
{"lm loss": 4.86223555, "grad_norm": 0.49243069, "learning_rate": 1.822e-05, "elapsed_time_per_iteration": 4.74486566, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 9s", "remaining_time": "2h 6m 11s", "loss_scale": 1.0, "consumed_samples": 1225216, "global_step/max_steps": "4786/6350"}
{"lm loss": 4.86709929, "grad_norm": 0.44500279, "learning_rate": 1.82e-05, "elapsed_time_per_iteration": 4.81381679, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 14s", "remaining_time": "2h 6m 6s", "loss_scale": 1.0, "consumed_samples": 1225472, "global_step/max_steps": "4787/6350"}
{"lm loss": 4.86946344, "grad_norm": 0.47513378, "learning_rate": 1.818e-05, "elapsed_time_per_iteration": 4.73037887, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 19s", "remaining_time": "2h 6m 1s", "loss_scale": 1.0, "consumed_samples": 1225728, "global_step/max_steps": "4788/6350"}
{"lm loss": 4.8706522, "grad_norm": 0.52593297, "learning_rate": 1.816e-05, "elapsed_time_per_iteration": 4.74613333, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 24s", "remaining_time": "2h 5m 56s", "loss_scale": 1.0, "consumed_samples": 1225984, "global_step/max_steps": "4789/6350"}
{"lm loss": 4.89606667, "grad_norm": 0.39796066, "learning_rate": 1.814e-05, "elapsed_time_per_iteration": 4.71466827, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 28s", "remaining_time": "2h 5m 52s", "loss_scale": 1.0, "consumed_samples": 1226240, "global_step/max_steps": "4790/6350"}
{"lm loss": 4.85726452, "grad_norm": 0.49906889, "learning_rate": 1.813e-05, "elapsed_time_per_iteration": 5.54116035, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 34s", "remaining_time": "2h 5m 47s", "loss_scale": 1.0, "consumed_samples": 1226496, "global_step/max_steps": "4791/6350"}
{"lm loss": 4.89295292, "grad_norm": 0.44649911, "learning_rate": 1.811e-05, "elapsed_time_per_iteration": 4.66571879, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 39s", "remaining_time": "2h 5m 42s", "loss_scale": 1.0, "consumed_samples": 1226752, "global_step/max_steps": "4792/6350"}
{"lm loss": 4.89109039, "grad_norm": 0.44376302, "learning_rate": 1.809e-05, "elapsed_time_per_iteration": 5.13469529, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 44s", "remaining_time": "2h 5m 37s", "loss_scale": 1.0, "consumed_samples": 1227008, "global_step/max_steps": "4793/6350"}
{"lm loss": 4.86093998, "grad_norm": 0.49864405, "learning_rate": 1.807e-05, "elapsed_time_per_iteration": 4.77633882, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 48s", "remaining_time": "2h 5m 32s", "loss_scale": 1.0, "consumed_samples": 1227264, "global_step/max_steps": "4794/6350"}
{"lm loss": 4.87997675, "grad_norm": 0.40997952, "learning_rate": 1.805e-05, "elapsed_time_per_iteration": 4.72689104, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 53s", "remaining_time": "2h 5m 28s", "loss_scale": 1.0, "consumed_samples": 1227520, "global_step/max_steps": "4795/6350"}
{"lm loss": 4.8780508, "grad_norm": 0.47087315, "learning_rate": 1.803e-05, "elapsed_time_per_iteration": 4.72361755, "memory(GiB)": 28.03, "elapsed_time": "6h 26m 58s", "remaining_time": "2h 5m 23s", "loss_scale": 1.0, "consumed_samples": 1227776, "global_step/max_steps": "4796/6350"}
{"lm loss": 4.86321497, "grad_norm": 0.49770901, "learning_rate": 1.802e-05, "elapsed_time_per_iteration": 4.90479994, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 3s", "remaining_time": "2h 5m 18s", "loss_scale": 1.0, "consumed_samples": 1228032, "global_step/max_steps": "4797/6350"}
{"lm loss": 4.89675426, "grad_norm": 0.40400612, "learning_rate": 1.8e-05, "elapsed_time_per_iteration": 4.66960883, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 7s", "remaining_time": "2h 5m 13s", "loss_scale": 1.0, "consumed_samples": 1228288, "global_step/max_steps": "4798/6350"}
{"lm loss": 4.8917594, "grad_norm": 0.47571614, "learning_rate": 1.798e-05, "elapsed_time_per_iteration": 4.81027341, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 12s", "remaining_time": "2h 5m 8s", "loss_scale": 1.0, "consumed_samples": 1228544, "global_step/max_steps": "4799/6350"}
{"lm loss": 4.89542675, "grad_norm": 0.43439934, "learning_rate": 1.796e-05, "elapsed_time_per_iteration": 4.70965648, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 17s", "remaining_time": "2h 5m 3s", "loss_scale": 1.0, "consumed_samples": 1228800, "global_step/max_steps": "4800/6350"}
{"lm loss": 4.88202286, "grad_norm": 0.43480951, "learning_rate": 1.794e-05, "elapsed_time_per_iteration": 4.65379906, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 22s", "remaining_time": "2h 4m 58s", "loss_scale": 1.0, "consumed_samples": 1229056, "global_step/max_steps": "4801/6350"}
{"lm loss": 4.8908329, "grad_norm": 0.48366576, "learning_rate": 1.792e-05, "elapsed_time_per_iteration": 4.70752239, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 26s", "remaining_time": "2h 4m 53s", "loss_scale": 1.0, "consumed_samples": 1229312, "global_step/max_steps": "4802/6350"}
{"lm loss": 4.90106487, "grad_norm": 0.3970789, "learning_rate": 1.791e-05, "elapsed_time_per_iteration": 4.80638123, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 31s", "remaining_time": "2h 4m 49s", "loss_scale": 1.0, "consumed_samples": 1229568, "global_step/max_steps": "4803/6350"}
{"lm loss": 4.87176323, "grad_norm": 0.49244621, "learning_rate": 1.789e-05, "elapsed_time_per_iteration": 4.70267367, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 36s", "remaining_time": "2h 4m 44s", "loss_scale": 1.0, "consumed_samples": 1229824, "global_step/max_steps": "4804/6350"}
{"lm loss": 4.8522625, "grad_norm": 0.44155207, "learning_rate": 1.787e-05, "elapsed_time_per_iteration": 4.74703455, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 41s", "remaining_time": "2h 4m 39s", "loss_scale": 1.0, "consumed_samples": 1230080, "global_step/max_steps": "4805/6350"}
{"lm loss": 4.85735846, "grad_norm": 0.41628465, "learning_rate": 1.785e-05, "elapsed_time_per_iteration": 4.71490383, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 45s", "remaining_time": "2h 4m 34s", "loss_scale": 1.0, "consumed_samples": 1230336, "global_step/max_steps": "4806/6350"}
{"lm loss": 4.87582541, "grad_norm": 0.47171456, "learning_rate": 1.783e-05, "elapsed_time_per_iteration": 4.75841975, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 50s", "remaining_time": "2h 4m 29s", "loss_scale": 1.0, "consumed_samples": 1230592, "global_step/max_steps": "4807/6350"}
{"lm loss": 4.89773989, "grad_norm": 0.43380857, "learning_rate": 1.782e-05, "elapsed_time_per_iteration": 4.73783135, "memory(GiB)": 28.03, "elapsed_time": "6h 27m 55s", "remaining_time": "2h 4m 24s", "loss_scale": 1.0, "consumed_samples": 1230848, "global_step/max_steps": "4808/6350"}
{"lm loss": 4.85961103, "grad_norm": 0.40672821, "learning_rate": 1.78e-05, "elapsed_time_per_iteration": 4.7165277, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 0s", "remaining_time": "2h 4m 19s", "loss_scale": 1.0, "consumed_samples": 1231104, "global_step/max_steps": "4809/6350"}
{"lm loss": 4.85863256, "grad_norm": 0.65398902, "learning_rate": 1.778e-05, "elapsed_time_per_iteration": 4.6679709, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 4s", "remaining_time": "2h 4m 14s", "loss_scale": 1.0, "consumed_samples": 1231360, "global_step/max_steps": "4810/6350"}
{"lm loss": 4.86591959, "grad_norm": 0.42731413, "learning_rate": 1.776e-05, "elapsed_time_per_iteration": 4.78299379, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 9s", "remaining_time": "2h 4m 10s", "loss_scale": 1.0, "consumed_samples": 1231616, "global_step/max_steps": "4811/6350"}
{"lm loss": 4.85915852, "grad_norm": 0.41262153, "learning_rate": 1.774e-05, "elapsed_time_per_iteration": 5.6075623, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 15s", "remaining_time": "2h 4m 5s", "loss_scale": 1.0, "consumed_samples": 1231872, "global_step/max_steps": "4812/6350"}
{"lm loss": 4.89361, "grad_norm": 0.53334701, "learning_rate": 1.772e-05, "elapsed_time_per_iteration": 5.31352615, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 20s", "remaining_time": "2h 4m 0s", "loss_scale": 1.0, "consumed_samples": 1232128, "global_step/max_steps": "4813/6350"}
{"lm loss": 4.88177586, "grad_norm": 0.43757847, "learning_rate": 1.771e-05, "elapsed_time_per_iteration": 4.70819139, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 25s", "remaining_time": "2h 3m 55s", "loss_scale": 1.0, "consumed_samples": 1232384, "global_step/max_steps": "4814/6350"}
{"lm loss": 4.87411547, "grad_norm": 0.42724401, "learning_rate": 1.769e-05, "elapsed_time_per_iteration": 4.75182843, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 29s", "remaining_time": "2h 3m 51s", "loss_scale": 1.0, "consumed_samples": 1232640, "global_step/max_steps": "4815/6350"}
{"lm loss": 4.87934399, "grad_norm": 0.45451644, "learning_rate": 1.767e-05, "elapsed_time_per_iteration": 4.74513054, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 34s", "remaining_time": "2h 3m 46s", "loss_scale": 1.0, "consumed_samples": 1232896, "global_step/max_steps": "4816/6350"}
{"lm loss": 4.87764454, "grad_norm": 0.41783917, "learning_rate": 1.765e-05, "elapsed_time_per_iteration": 4.73254895, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 39s", "remaining_time": "2h 3m 41s", "loss_scale": 1.0, "consumed_samples": 1233152, "global_step/max_steps": "4817/6350"}
{"lm loss": 4.89138079, "grad_norm": 0.38918659, "learning_rate": 1.763e-05, "elapsed_time_per_iteration": 4.77664161, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 44s", "remaining_time": "2h 3m 36s", "loss_scale": 1.0, "consumed_samples": 1233408, "global_step/max_steps": "4818/6350"}
{"lm loss": 4.88511992, "grad_norm": 0.45199397, "learning_rate": 1.762e-05, "elapsed_time_per_iteration": 4.77192044, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 48s", "remaining_time": "2h 3m 31s", "loss_scale": 1.0, "consumed_samples": 1233664, "global_step/max_steps": "4819/6350"}
{"lm loss": 4.87265635, "grad_norm": 0.41493103, "learning_rate": 1.76e-05, "elapsed_time_per_iteration": 4.78380799, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 53s", "remaining_time": "2h 3m 26s", "loss_scale": 1.0, "consumed_samples": 1233920, "global_step/max_steps": "4820/6350"}
{"lm loss": 4.85959101, "grad_norm": 0.43793678, "learning_rate": 1.758e-05, "elapsed_time_per_iteration": 4.83309603, "memory(GiB)": 28.03, "elapsed_time": "6h 28m 58s", "remaining_time": "2h 3m 21s", "loss_scale": 1.0, "consumed_samples": 1234176, "global_step/max_steps": "4821/6350"}
{"lm loss": 4.85550642, "grad_norm": 0.46905601, "learning_rate": 1.756e-05, "elapsed_time_per_iteration": 4.71114612, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 3s", "remaining_time": "2h 3m 17s", "loss_scale": 1.0, "consumed_samples": 1234432, "global_step/max_steps": "4822/6350"}
{"lm loss": 4.87336302, "grad_norm": 0.41065091, "learning_rate": 1.754e-05, "elapsed_time_per_iteration": 4.78510284, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 7s", "remaining_time": "2h 3m 12s", "loss_scale": 1.0, "consumed_samples": 1234688, "global_step/max_steps": "4823/6350"}
{"lm loss": 4.88380098, "grad_norm": 0.45433599, "learning_rate": 1.753e-05, "elapsed_time_per_iteration": 4.71910381, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 12s", "remaining_time": "2h 3m 7s", "loss_scale": 1.0, "consumed_samples": 1234944, "global_step/max_steps": "4824/6350"}
{"lm loss": 4.88495111, "grad_norm": 0.47411671, "learning_rate": 1.751e-05, "elapsed_time_per_iteration": 4.75297713, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 17s", "remaining_time": "2h 3m 2s", "loss_scale": 1.0, "consumed_samples": 1235200, "global_step/max_steps": "4825/6350"}
{"lm loss": 4.85996628, "grad_norm": 0.41779652, "learning_rate": 1.749e-05, "elapsed_time_per_iteration": 5.52064157, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 22s", "remaining_time": "2h 2m 57s", "loss_scale": 1.0, "consumed_samples": 1235456, "global_step/max_steps": "4826/6350"}
{"lm loss": 4.87288237, "grad_norm": 0.39106455, "learning_rate": 1.747e-05, "elapsed_time_per_iteration": 4.72582746, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 27s", "remaining_time": "2h 2m 52s", "loss_scale": 1.0, "consumed_samples": 1235712, "global_step/max_steps": "4827/6350"}
{"lm loss": 4.87367535, "grad_norm": 0.40379921, "learning_rate": 1.745e-05, "elapsed_time_per_iteration": 4.78075051, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 32s", "remaining_time": "2h 2m 48s", "loss_scale": 1.0, "consumed_samples": 1235968, "global_step/max_steps": "4828/6350"}
{"lm loss": 4.87370014, "grad_norm": 0.9490146, "learning_rate": 1.744e-05, "elapsed_time_per_iteration": 4.70942569, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 37s", "remaining_time": "2h 2m 43s", "loss_scale": 1.0, "consumed_samples": 1236224, "global_step/max_steps": "4829/6350"}
{"lm loss": 4.89583588, "grad_norm": 0.41330391, "learning_rate": 1.742e-05, "elapsed_time_per_iteration": 4.73125124, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 41s", "remaining_time": "2h 2m 38s", "loss_scale": 1.0, "consumed_samples": 1236480, "global_step/max_steps": "4830/6350"}
{"lm loss": 4.88626719, "grad_norm": 0.39662182, "learning_rate": 1.74e-05, "elapsed_time_per_iteration": 4.74564505, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 46s", "remaining_time": "2h 2m 33s", "loss_scale": 1.0, "consumed_samples": 1236736, "global_step/max_steps": "4831/6350"}
{"lm loss": 4.85871887, "grad_norm": 0.44202545, "learning_rate": 1.738e-05, "elapsed_time_per_iteration": 4.77462912, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 51s", "remaining_time": "2h 2m 28s", "loss_scale": 1.0, "consumed_samples": 1236992, "global_step/max_steps": "4832/6350"}
{"lm loss": 4.88148928, "grad_norm": 0.38447794, "learning_rate": 1.736e-05, "elapsed_time_per_iteration": 4.68704057, "memory(GiB)": 28.03, "elapsed_time": "6h 29m 56s", "remaining_time": "2h 2m 23s", "loss_scale": 1.0, "consumed_samples": 1237248, "global_step/max_steps": "4833/6350"}
{"lm loss": 4.87854385, "grad_norm": 0.45029119, "learning_rate": 1.735e-05, "elapsed_time_per_iteration": 4.81564307, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 0s", "remaining_time": "2h 2m 18s", "loss_scale": 1.0, "consumed_samples": 1237504, "global_step/max_steps": "4834/6350"}
{"lm loss": 4.86384583, "grad_norm": 0.4148908, "learning_rate": 1.733e-05, "elapsed_time_per_iteration": 5.67430329, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 6s", "remaining_time": "2h 2m 14s", "loss_scale": 1.0, "consumed_samples": 1237760, "global_step/max_steps": "4835/6350"}
{"lm loss": 4.88773441, "grad_norm": 0.46704063, "learning_rate": 1.731e-05, "elapsed_time_per_iteration": 4.78847742, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 11s", "remaining_time": "2h 2m 9s", "loss_scale": 1.0, "consumed_samples": 1238016, "global_step/max_steps": "4836/6350"}
{"lm loss": 4.87518549, "grad_norm": 0.39719784, "learning_rate": 1.729e-05, "elapsed_time_per_iteration": 4.72274351, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 16s", "remaining_time": "2h 2m 4s", "loss_scale": 1.0, "consumed_samples": 1238272, "global_step/max_steps": "4837/6350"}
{"lm loss": 4.86431313, "grad_norm": 0.41286039, "learning_rate": 1.727e-05, "elapsed_time_per_iteration": 4.71521688, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 20s", "remaining_time": "2h 1m 59s", "loss_scale": 1.0, "consumed_samples": 1238528, "global_step/max_steps": "4838/6350"}
{"lm loss": 4.89165545, "grad_norm": 0.40451649, "learning_rate": 1.726e-05, "elapsed_time_per_iteration": 4.69800448, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 25s", "remaining_time": "2h 1m 54s", "loss_scale": 1.0, "consumed_samples": 1238784, "global_step/max_steps": "4839/6350"}
{"lm loss": 4.88575125, "grad_norm": 0.42818668, "learning_rate": 1.724e-05, "elapsed_time_per_iteration": 4.74479556, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 30s", "remaining_time": "2h 1m 49s", "loss_scale": 1.0, "consumed_samples": 1239040, "global_step/max_steps": "4840/6350"}
{"lm loss": 4.87934971, "grad_norm": 0.41193092, "learning_rate": 1.722e-05, "elapsed_time_per_iteration": 4.71170568, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 35s", "remaining_time": "2h 1m 44s", "loss_scale": 1.0, "consumed_samples": 1239296, "global_step/max_steps": "4841/6350"}
{"lm loss": 4.86245203, "grad_norm": 0.39935508, "learning_rate": 1.72e-05, "elapsed_time_per_iteration": 4.82291198, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 39s", "remaining_time": "2h 1m 40s", "loss_scale": 1.0, "consumed_samples": 1239552, "global_step/max_steps": "4842/6350"}
{"lm loss": 4.85949087, "grad_norm": 0.45833048, "learning_rate": 1.719e-05, "elapsed_time_per_iteration": 4.7894454, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 44s", "remaining_time": "2h 1m 35s", "loss_scale": 1.0, "consumed_samples": 1239808, "global_step/max_steps": "4843/6350"}
{"lm loss": 4.86957121, "grad_norm": 0.41736478, "learning_rate": 1.717e-05, "elapsed_time_per_iteration": 4.93735337, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 49s", "remaining_time": "2h 1m 30s", "loss_scale": 1.0, "consumed_samples": 1240064, "global_step/max_steps": "4844/6350"}
{"lm loss": 4.88144159, "grad_norm": 0.82481325, "learning_rate": 1.715e-05, "elapsed_time_per_iteration": 4.75192404, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 54s", "remaining_time": "2h 1m 25s", "loss_scale": 1.0, "consumed_samples": 1240320, "global_step/max_steps": "4845/6350"}
{"lm loss": 4.86018467, "grad_norm": 0.45651767, "learning_rate": 1.713e-05, "elapsed_time_per_iteration": 4.7027421, "memory(GiB)": 28.03, "elapsed_time": "6h 30m 59s", "remaining_time": "2h 1m 20s", "loss_scale": 1.0, "consumed_samples": 1240576, "global_step/max_steps": "4846/6350"}
{"lm loss": 4.86881161, "grad_norm": 0.44106445, "learning_rate": 1.711e-05, "elapsed_time_per_iteration": 4.83109617, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 3s", "remaining_time": "2h 1m 15s", "loss_scale": 1.0, "consumed_samples": 1240832, "global_step/max_steps": "4847/6350"}
{"lm loss": 4.87834263, "grad_norm": 0.45207283, "learning_rate": 1.71e-05, "elapsed_time_per_iteration": 4.73008251, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 8s", "remaining_time": "2h 1m 10s", "loss_scale": 1.0, "consumed_samples": 1241088, "global_step/max_steps": "4848/6350"}
{"lm loss": 4.86256981, "grad_norm": 0.4389542, "learning_rate": 1.708e-05, "elapsed_time_per_iteration": 4.72501445, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 13s", "remaining_time": "2h 1m 6s", "loss_scale": 1.0, "consumed_samples": 1241344, "global_step/max_steps": "4849/6350"}
{"lm loss": 4.85844469, "grad_norm": 0.41846976, "learning_rate": 1.706e-05, "elapsed_time_per_iteration": 4.68131351, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 17s", "remaining_time": "2h 1m 1s", "loss_scale": 1.0, "consumed_samples": 1241600, "global_step/max_steps": "4850/6350"}
{"lm loss": 4.87731361, "grad_norm": 0.47290435, "learning_rate": 1.704e-05, "elapsed_time_per_iteration": 5.3070116, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 23s", "remaining_time": "2h 0m 56s", "loss_scale": 1.0, "consumed_samples": 1241856, "global_step/max_steps": "4851/6350"}
{"lm loss": 4.88476419, "grad_norm": 0.44462603, "learning_rate": 1.702e-05, "elapsed_time_per_iteration": 4.72818041, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 28s", "remaining_time": "2h 0m 51s", "loss_scale": 1.0, "consumed_samples": 1242112, "global_step/max_steps": "4852/6350"}
{"lm loss": 4.85192776, "grad_norm": 0.41886118, "learning_rate": 1.701e-05, "elapsed_time_per_iteration": 4.75971842, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 32s", "remaining_time": "2h 0m 46s", "loss_scale": 1.0, "consumed_samples": 1242368, "global_step/max_steps": "4853/6350"}
{"lm loss": 4.86188841, "grad_norm": 0.49085757, "learning_rate": 1.699e-05, "elapsed_time_per_iteration": 5.18677568, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 37s", "remaining_time": "2h 0m 42s", "loss_scale": 1.0, "consumed_samples": 1242624, "global_step/max_steps": "4854/6350"}
{"lm loss": 4.90121365, "grad_norm": 0.48315671, "learning_rate": 1.697e-05, "elapsed_time_per_iteration": 4.75734568, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 42s", "remaining_time": "2h 0m 37s", "loss_scale": 1.0, "consumed_samples": 1242880, "global_step/max_steps": "4855/6350"}
{"lm loss": 4.86700583, "grad_norm": 0.43415749, "learning_rate": 1.695e-05, "elapsed_time_per_iteration": 4.76819634, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 47s", "remaining_time": "2h 0m 32s", "loss_scale": 1.0, "consumed_samples": 1243136, "global_step/max_steps": "4856/6350"}
{"lm loss": 4.89136219, "grad_norm": 0.43757513, "learning_rate": 1.694e-05, "elapsed_time_per_iteration": 4.74306464, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 52s", "remaining_time": "2h 0m 27s", "loss_scale": 1.0, "consumed_samples": 1243392, "global_step/max_steps": "4857/6350"}
{"lm loss": 4.86333036, "grad_norm": 0.46950936, "learning_rate": 1.692e-05, "elapsed_time_per_iteration": 4.71694136, "memory(GiB)": 28.03, "elapsed_time": "6h 31m 56s", "remaining_time": "2h 0m 22s", "loss_scale": 1.0, "consumed_samples": 1243648, "global_step/max_steps": "4858/6350"}
{"lm loss": 4.90923071, "grad_norm": 0.45351839, "learning_rate": 1.69e-05, "elapsed_time_per_iteration": 4.77187419, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 1s", "remaining_time": "2h 0m 17s", "loss_scale": 1.0, "consumed_samples": 1243904, "global_step/max_steps": "4859/6350"}
{"lm loss": 4.87692118, "grad_norm": 0.45101869, "learning_rate": 1.688e-05, "elapsed_time_per_iteration": 4.70987797, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 6s", "remaining_time": "2h 0m 12s", "loss_scale": 1.0, "consumed_samples": 1244160, "global_step/max_steps": "4860/6350"}
{"lm loss": 4.89842987, "grad_norm": 0.39916268, "learning_rate": 1.687e-05, "elapsed_time_per_iteration": 4.82705164, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 11s", "remaining_time": "2h 0m 7s", "loss_scale": 1.0, "consumed_samples": 1244416, "global_step/max_steps": "4861/6350"}
{"lm loss": 4.87401247, "grad_norm": 0.4493669, "learning_rate": 1.685e-05, "elapsed_time_per_iteration": 5.27664709, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 16s", "remaining_time": "2h 0m 3s", "loss_scale": 1.0, "consumed_samples": 1244672, "global_step/max_steps": "4862/6350"}
{"lm loss": 4.88560152, "grad_norm": 0.39852098, "learning_rate": 1.683e-05, "elapsed_time_per_iteration": 4.8014276, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 21s", "remaining_time": "1h 59m 58s", "loss_scale": 1.0, "consumed_samples": 1244928, "global_step/max_steps": "4863/6350"}
{"lm loss": 4.86850929, "grad_norm": 0.46106002, "learning_rate": 1.681e-05, "elapsed_time_per_iteration": 4.77314329, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 26s", "remaining_time": "1h 59m 53s", "loss_scale": 1.0, "consumed_samples": 1245184, "global_step/max_steps": "4864/6350"}
{"lm loss": 4.87103415, "grad_norm": 0.45013312, "learning_rate": 1.679e-05, "elapsed_time_per_iteration": 4.65953541, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 30s", "remaining_time": "1h 59m 48s", "loss_scale": 1.0, "consumed_samples": 1245440, "global_step/max_steps": "4865/6350"}
{"lm loss": 4.87080717, "grad_norm": 0.80584383, "learning_rate": 1.678e-05, "elapsed_time_per_iteration": 4.84776068, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 35s", "remaining_time": "1h 59m 43s", "loss_scale": 1.0, "consumed_samples": 1245696, "global_step/max_steps": "4866/6350"}
{"lm loss": 4.8672657, "grad_norm": 0.41113231, "learning_rate": 1.676e-05, "elapsed_time_per_iteration": 4.71648765, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 40s", "remaining_time": "1h 59m 38s", "loss_scale": 1.0, "consumed_samples": 1245952, "global_step/max_steps": "4867/6350"}
{"lm loss": 4.86025429, "grad_norm": 0.49786678, "learning_rate": 1.674e-05, "elapsed_time_per_iteration": 4.69322205, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 45s", "remaining_time": "1h 59m 34s", "loss_scale": 1.0, "consumed_samples": 1246208, "global_step/max_steps": "4868/6350"}
{"lm loss": 4.86859798, "grad_norm": 0.38483921, "learning_rate": 1.672e-05, "elapsed_time_per_iteration": 4.72372794, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 49s", "remaining_time": "1h 59m 29s", "loss_scale": 1.0, "consumed_samples": 1246464, "global_step/max_steps": "4869/6350"}
{"lm loss": 4.8745966, "grad_norm": 0.42464638, "learning_rate": 1.671e-05, "elapsed_time_per_iteration": 4.69988537, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 54s", "remaining_time": "1h 59m 24s", "loss_scale": 1.0, "consumed_samples": 1246720, "global_step/max_steps": "4870/6350"}
{"lm loss": 4.88188219, "grad_norm": 0.46610069, "learning_rate": 1.669e-05, "elapsed_time_per_iteration": 4.81825209, "memory(GiB)": 28.03, "elapsed_time": "6h 32m 59s", "remaining_time": "1h 59m 19s", "loss_scale": 1.0, "consumed_samples": 1246976, "global_step/max_steps": "4871/6350"}
{"lm loss": 4.86291027, "grad_norm": 0.41183814, "learning_rate": 1.667e-05, "elapsed_time_per_iteration": 4.69665289, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 3s", "remaining_time": "1h 59m 14s", "loss_scale": 1.0, "consumed_samples": 1247232, "global_step/max_steps": "4872/6350"}
{"lm loss": 4.87072849, "grad_norm": 0.43169597, "learning_rate": 1.665e-05, "elapsed_time_per_iteration": 4.76140833, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 8s", "remaining_time": "1h 59m 9s", "loss_scale": 1.0, "consumed_samples": 1247488, "global_step/max_steps": "4873/6350"}
{"lm loss": 4.86304712, "grad_norm": 0.42835176, "learning_rate": 1.664e-05, "elapsed_time_per_iteration": 5.50765419, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 14s", "remaining_time": "1h 59m 5s", "loss_scale": 1.0, "consumed_samples": 1247744, "global_step/max_steps": "4874/6350"}
{"lm loss": 4.88028288, "grad_norm": 0.42037371, "learning_rate": 1.662e-05, "elapsed_time_per_iteration": 4.69468188, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 18s", "remaining_time": "1h 59m 0s", "loss_scale": 1.0, "consumed_samples": 1248000, "global_step/max_steps": "4875/6350"}
{"lm loss": 4.87343788, "grad_norm": 0.47855815, "learning_rate": 1.66e-05, "elapsed_time_per_iteration": 4.75950146, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 23s", "remaining_time": "1h 58m 55s", "loss_scale": 1.0, "consumed_samples": 1248256, "global_step/max_steps": "4876/6350"}
{"lm loss": 4.86723995, "grad_norm": 0.55657989, "learning_rate": 1.658e-05, "elapsed_time_per_iteration": 4.67743301, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 28s", "remaining_time": "1h 58m 50s", "loss_scale": 1.0, "consumed_samples": 1248512, "global_step/max_steps": "4877/6350"}
{"lm loss": 4.87941647, "grad_norm": 0.4587436, "learning_rate": 1.657e-05, "elapsed_time_per_iteration": 4.7971704, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 33s", "remaining_time": "1h 58m 45s", "loss_scale": 1.0, "consumed_samples": 1248768, "global_step/max_steps": "4878/6350"}
{"lm loss": 4.85967875, "grad_norm": 0.48073974, "learning_rate": 1.655e-05, "elapsed_time_per_iteration": 4.75229073, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 37s", "remaining_time": "1h 58m 40s", "loss_scale": 1.0, "consumed_samples": 1249024, "global_step/max_steps": "4879/6350"}
{"lm loss": 4.85867023, "grad_norm": 0.4175365, "learning_rate": 1.653e-05, "elapsed_time_per_iteration": 4.70961761, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 42s", "remaining_time": "1h 58m 35s", "loss_scale": 1.0, "consumed_samples": 1249280, "global_step/max_steps": "4880/6350"}
{"lm loss": 4.88382578, "grad_norm": 0.43651307, "learning_rate": 1.651e-05, "elapsed_time_per_iteration": 4.76124501, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 47s", "remaining_time": "1h 58m 30s", "loss_scale": 1.0, "consumed_samples": 1249536, "global_step/max_steps": "4881/6350"}
{"lm loss": 4.86369991, "grad_norm": 0.45937917, "learning_rate": 1.65e-05, "elapsed_time_per_iteration": 4.77557969, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 52s", "remaining_time": "1h 58m 26s", "loss_scale": 1.0, "consumed_samples": 1249792, "global_step/max_steps": "4882/6350"}
{"lm loss": 4.856359, "grad_norm": 0.45719793, "learning_rate": 1.648e-05, "elapsed_time_per_iteration": 4.7977016, "memory(GiB)": 28.03, "elapsed_time": "6h 33m 56s", "remaining_time": "1h 58m 21s", "loss_scale": 1.0, "consumed_samples": 1250048, "global_step/max_steps": "4883/6350"}
{"lm loss": 4.86846495, "grad_norm": 0.43616295, "learning_rate": 1.646e-05, "elapsed_time_per_iteration": 4.8377707, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 1s", "remaining_time": "1h 58m 16s", "loss_scale": 1.0, "consumed_samples": 1250304, "global_step/max_steps": "4884/6350"}
{"lm loss": 4.84522152, "grad_norm": 0.46140605, "learning_rate": 1.644e-05, "elapsed_time_per_iteration": 4.72672343, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 6s", "remaining_time": "1h 58m 11s", "loss_scale": 1.0, "consumed_samples": 1250560, "global_step/max_steps": "4885/6350"}
{"lm loss": 4.87664318, "grad_norm": 0.4377968, "learning_rate": 1.643e-05, "elapsed_time_per_iteration": 4.75628972, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 11s", "remaining_time": "1h 58m 6s", "loss_scale": 1.0, "consumed_samples": 1250816, "global_step/max_steps": "4886/6350"}
{"lm loss": 4.87034369, "grad_norm": 0.42147028, "learning_rate": 1.641e-05, "elapsed_time_per_iteration": 4.70590448, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 15s", "remaining_time": "1h 58m 1s", "loss_scale": 1.0, "consumed_samples": 1251072, "global_step/max_steps": "4887/6350"}
{"lm loss": 4.88675642, "grad_norm": 0.44090539, "learning_rate": 1.639e-05, "elapsed_time_per_iteration": 4.8510263, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 20s", "remaining_time": "1h 57m 56s", "loss_scale": 1.0, "consumed_samples": 1251328, "global_step/max_steps": "4888/6350"}
{"lm loss": 4.86408329, "grad_norm": 0.46340856, "learning_rate": 1.637e-05, "elapsed_time_per_iteration": 4.73018789, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 25s", "remaining_time": "1h 57m 52s", "loss_scale": 1.0, "consumed_samples": 1251584, "global_step/max_steps": "4889/6350"}
{"lm loss": 4.85359716, "grad_norm": 0.50379026, "learning_rate": 1.636e-05, "elapsed_time_per_iteration": 4.74713778, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 30s", "remaining_time": "1h 57m 47s", "loss_scale": 1.0, "consumed_samples": 1251840, "global_step/max_steps": "4890/6350"}
{"lm loss": 4.85383463, "grad_norm": 0.42205003, "learning_rate": 1.634e-05, "elapsed_time_per_iteration": 4.73362637, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 35s", "remaining_time": "1h 57m 42s", "loss_scale": 1.0, "consumed_samples": 1252096, "global_step/max_steps": "4891/6350"}
{"lm loss": 4.88705301, "grad_norm": 0.44478631, "learning_rate": 1.632e-05, "elapsed_time_per_iteration": 4.81641364, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 39s", "remaining_time": "1h 57m 37s", "loss_scale": 1.0, "consumed_samples": 1252352, "global_step/max_steps": "4892/6350"}
{"lm loss": 4.87339926, "grad_norm": 0.53476298, "learning_rate": 1.63e-05, "elapsed_time_per_iteration": 4.77970672, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 44s", "remaining_time": "1h 57m 32s", "loss_scale": 1.0, "consumed_samples": 1252608, "global_step/max_steps": "4893/6350"}
{"lm loss": 4.87058544, "grad_norm": 0.41124636, "learning_rate": 1.629e-05, "elapsed_time_per_iteration": 4.70815301, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 49s", "remaining_time": "1h 57m 27s", "loss_scale": 1.0, "consumed_samples": 1252864, "global_step/max_steps": "4894/6350"}
{"lm loss": 4.85076332, "grad_norm": 0.48949316, "learning_rate": 1.627e-05, "elapsed_time_per_iteration": 4.75151706, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 54s", "remaining_time": "1h 57m 22s", "loss_scale": 1.0, "consumed_samples": 1253120, "global_step/max_steps": "4895/6350"}
{"lm loss": 4.86711502, "grad_norm": 0.42874321, "learning_rate": 1.625e-05, "elapsed_time_per_iteration": 5.29335165, "memory(GiB)": 28.03, "elapsed_time": "6h 34m 59s", "remaining_time": "1h 57m 18s", "loss_scale": 1.0, "consumed_samples": 1253376, "global_step/max_steps": "4896/6350"}
{"lm loss": 4.89145851, "grad_norm": 0.40117532, "learning_rate": 1.624e-05, "elapsed_time_per_iteration": 4.75658512, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 4s", "remaining_time": "1h 57m 13s", "loss_scale": 1.0, "consumed_samples": 1253632, "global_step/max_steps": "4897/6350"}
{"lm loss": 4.84327888, "grad_norm": 0.39110056, "learning_rate": 1.622e-05, "elapsed_time_per_iteration": 5.3919251, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 9s", "remaining_time": "1h 57m 8s", "loss_scale": 1.0, "consumed_samples": 1253888, "global_step/max_steps": "4898/6350"}
{"lm loss": 4.86946678, "grad_norm": 0.39913863, "learning_rate": 1.62e-05, "elapsed_time_per_iteration": 5.31128883, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 14s", "remaining_time": "1h 57m 3s", "loss_scale": 1.0, "consumed_samples": 1254144, "global_step/max_steps": "4899/6350"}
{"lm loss": 4.87796259, "grad_norm": 0.58932626, "learning_rate": 1.618e-05, "elapsed_time_per_iteration": 4.68493199, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 19s", "remaining_time": "1h 56m 59s", "loss_scale": 1.0, "consumed_samples": 1254400, "global_step/max_steps": "4900/6350"}
{"lm loss": 4.85323572, "grad_norm": 0.37201345, "learning_rate": 1.617e-05, "elapsed_time_per_iteration": 4.80703211, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 24s", "remaining_time": "1h 56m 54s", "loss_scale": 1.0, "consumed_samples": 1254656, "global_step/max_steps": "4901/6350"}
{"lm loss": 4.8633666, "grad_norm": 0.42849374, "learning_rate": 1.615e-05, "elapsed_time_per_iteration": 4.76697636, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 29s", "remaining_time": "1h 56m 49s", "loss_scale": 1.0, "consumed_samples": 1254912, "global_step/max_steps": "4902/6350"}
{"lm loss": 4.86714602, "grad_norm": 0.39009702, "learning_rate": 1.613e-05, "elapsed_time_per_iteration": 4.67096138, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 33s", "remaining_time": "1h 56m 44s", "loss_scale": 1.0, "consumed_samples": 1255168, "global_step/max_steps": "4903/6350"}
{"lm loss": 4.85271978, "grad_norm": 0.36836991, "learning_rate": 1.611e-05, "elapsed_time_per_iteration": 5.56001568, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 39s", "remaining_time": "1h 56m 39s", "loss_scale": 1.0, "consumed_samples": 1255424, "global_step/max_steps": "4904/6350"}
{"lm loss": 4.86108112, "grad_norm": 0.41522524, "learning_rate": 1.61e-05, "elapsed_time_per_iteration": 4.73595572, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 44s", "remaining_time": "1h 56m 34s", "loss_scale": 1.0, "consumed_samples": 1255680, "global_step/max_steps": "4905/6350"}
{"lm loss": 4.87681484, "grad_norm": 0.4100658, "learning_rate": 1.608e-05, "elapsed_time_per_iteration": 4.78484416, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 48s", "remaining_time": "1h 56m 30s", "loss_scale": 1.0, "consumed_samples": 1255936, "global_step/max_steps": "4906/6350"}
{"lm loss": 4.86015701, "grad_norm": 0.63183945, "learning_rate": 1.606e-05, "elapsed_time_per_iteration": 5.0809691, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 53s", "remaining_time": "1h 56m 25s", "loss_scale": 1.0, "consumed_samples": 1256192, "global_step/max_steps": "4907/6350"}
{"lm loss": 4.86942101, "grad_norm": 0.41663879, "learning_rate": 1.604e-05, "elapsed_time_per_iteration": 4.71647692, "memory(GiB)": 28.03, "elapsed_time": "6h 35m 58s", "remaining_time": "1h 56m 20s", "loss_scale": 1.0, "consumed_samples": 1256448, "global_step/max_steps": "4908/6350"}
{"lm loss": 4.8764348, "grad_norm": 0.49023762, "learning_rate": 1.603e-05, "elapsed_time_per_iteration": 4.71378994, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 3s", "remaining_time": "1h 56m 15s", "loss_scale": 1.0, "consumed_samples": 1256704, "global_step/max_steps": "4909/6350"}
{"lm loss": 4.87114763, "grad_norm": 0.46302643, "learning_rate": 1.601e-05, "elapsed_time_per_iteration": 4.74088883, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 8s", "remaining_time": "1h 56m 10s", "loss_scale": 1.0, "consumed_samples": 1256960, "global_step/max_steps": "4910/6350"}
{"lm loss": 4.8757329, "grad_norm": 0.44153437, "learning_rate": 1.599e-05, "elapsed_time_per_iteration": 4.81056595, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 12s", "remaining_time": "1h 56m 5s", "loss_scale": 1.0, "consumed_samples": 1257216, "global_step/max_steps": "4911/6350"}
{"lm loss": 4.88199425, "grad_norm": 0.46914896, "learning_rate": 1.598e-05, "elapsed_time_per_iteration": 4.82428956, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 17s", "remaining_time": "1h 56m 0s", "loss_scale": 1.0, "consumed_samples": 1257472, "global_step/max_steps": "4912/6350"}
{"lm loss": 4.86694479, "grad_norm": 0.43455452, "learning_rate": 1.596e-05, "elapsed_time_per_iteration": 4.7763288, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 22s", "remaining_time": "1h 55m 56s", "loss_scale": 1.0, "consumed_samples": 1257728, "global_step/max_steps": "4913/6350"}
{"lm loss": 4.85930681, "grad_norm": 0.43829507, "learning_rate": 1.594e-05, "elapsed_time_per_iteration": 4.74621582, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 27s", "remaining_time": "1h 55m 51s", "loss_scale": 1.0, "consumed_samples": 1257984, "global_step/max_steps": "4914/6350"}
{"lm loss": 4.8731823, "grad_norm": 0.47780678, "learning_rate": 1.592e-05, "elapsed_time_per_iteration": 5.9184916, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 33s", "remaining_time": "1h 55m 46s", "loss_scale": 1.0, "consumed_samples": 1258240, "global_step/max_steps": "4915/6350"}
{"lm loss": 4.87788963, "grad_norm": 0.40069497, "learning_rate": 1.591e-05, "elapsed_time_per_iteration": 4.80399203, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 37s", "remaining_time": "1h 55m 41s", "loss_scale": 1.0, "consumed_samples": 1258496, "global_step/max_steps": "4916/6350"}
{"lm loss": 4.85994864, "grad_norm": 0.60711879, "learning_rate": 1.589e-05, "elapsed_time_per_iteration": 4.70507336, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 42s", "remaining_time": "1h 55m 37s", "loss_scale": 1.0, "consumed_samples": 1258752, "global_step/max_steps": "4917/6350"}
{"lm loss": 4.85117102, "grad_norm": 0.43073109, "learning_rate": 1.587e-05, "elapsed_time_per_iteration": 4.81886387, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 47s", "remaining_time": "1h 55m 32s", "loss_scale": 1.0, "consumed_samples": 1259008, "global_step/max_steps": "4918/6350"}
{"lm loss": 4.85836983, "grad_norm": 0.51132047, "learning_rate": 1.586e-05, "elapsed_time_per_iteration": 4.7320087, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 52s", "remaining_time": "1h 55m 27s", "loss_scale": 1.0, "consumed_samples": 1259264, "global_step/max_steps": "4919/6350"}
{"lm loss": 4.84464836, "grad_norm": 0.40571243, "learning_rate": 1.584e-05, "elapsed_time_per_iteration": 4.78113794, "memory(GiB)": 28.03, "elapsed_time": "6h 36m 57s", "remaining_time": "1h 55m 22s", "loss_scale": 1.0, "consumed_samples": 1259520, "global_step/max_steps": "4920/6350"}
{"lm loss": 4.85466623, "grad_norm": 0.43271396, "learning_rate": 1.582e-05, "elapsed_time_per_iteration": 4.7598002, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 1s", "remaining_time": "1h 55m 17s", "loss_scale": 1.0, "consumed_samples": 1259776, "global_step/max_steps": "4921/6350"}
{"lm loss": 4.87779427, "grad_norm": 0.40745524, "learning_rate": 1.58e-05, "elapsed_time_per_iteration": 4.78576732, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 6s", "remaining_time": "1h 55m 12s", "loss_scale": 1.0, "consumed_samples": 1260032, "global_step/max_steps": "4922/6350"}
{"lm loss": 4.87370348, "grad_norm": 0.47849348, "learning_rate": 1.579e-05, "elapsed_time_per_iteration": 4.79759908, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 11s", "remaining_time": "1h 55m 7s", "loss_scale": 1.0, "consumed_samples": 1260288, "global_step/max_steps": "4923/6350"}
{"lm loss": 4.86385345, "grad_norm": 0.42477521, "learning_rate": 1.577e-05, "elapsed_time_per_iteration": 4.7476635, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 16s", "remaining_time": "1h 55m 2s", "loss_scale": 1.0, "consumed_samples": 1260544, "global_step/max_steps": "4924/6350"}
{"lm loss": 4.85429239, "grad_norm": 0.40918767, "learning_rate": 1.575e-05, "elapsed_time_per_iteration": 4.76596093, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 20s", "remaining_time": "1h 54m 58s", "loss_scale": 1.0, "consumed_samples": 1260800, "global_step/max_steps": "4925/6350"}
{"lm loss": 4.89277363, "grad_norm": 0.42921209, "learning_rate": 1.574e-05, "elapsed_time_per_iteration": 4.71996641, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 25s", "remaining_time": "1h 54m 53s", "loss_scale": 1.0, "consumed_samples": 1261056, "global_step/max_steps": "4926/6350"}
{"lm loss": 4.86983967, "grad_norm": 0.48105314, "learning_rate": 1.572e-05, "elapsed_time_per_iteration": 4.75081325, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 30s", "remaining_time": "1h 54m 48s", "loss_scale": 1.0, "consumed_samples": 1261312, "global_step/max_steps": "4927/6350"}
{"lm loss": 4.85531616, "grad_norm": 0.40192357, "learning_rate": 1.57e-05, "elapsed_time_per_iteration": 4.77531552, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 35s", "remaining_time": "1h 54m 43s", "loss_scale": 1.0, "consumed_samples": 1261568, "global_step/max_steps": "4928/6350"}
{"lm loss": 4.87398243, "grad_norm": 0.41246209, "learning_rate": 1.569e-05, "elapsed_time_per_iteration": 4.70640516, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 39s", "remaining_time": "1h 54m 38s", "loss_scale": 1.0, "consumed_samples": 1261824, "global_step/max_steps": "4929/6350"}
{"lm loss": 4.8695178, "grad_norm": 0.40814266, "learning_rate": 1.567e-05, "elapsed_time_per_iteration": 4.70059633, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 44s", "remaining_time": "1h 54m 33s", "loss_scale": 1.0, "consumed_samples": 1262080, "global_step/max_steps": "4930/6350"}
{"lm loss": 4.86001825, "grad_norm": 0.46305686, "learning_rate": 1.565e-05, "elapsed_time_per_iteration": 4.74448085, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 49s", "remaining_time": "1h 54m 28s", "loss_scale": 1.0, "consumed_samples": 1262336, "global_step/max_steps": "4931/6350"}
{"lm loss": 4.86632776, "grad_norm": 0.39921018, "learning_rate": 1.563e-05, "elapsed_time_per_iteration": 4.87634993, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 54s", "remaining_time": "1h 54m 24s", "loss_scale": 1.0, "consumed_samples": 1262592, "global_step/max_steps": "4932/6350"}
{"lm loss": 4.89752436, "grad_norm": 0.51564884, "learning_rate": 1.562e-05, "elapsed_time_per_iteration": 4.79609585, "memory(GiB)": 28.03, "elapsed_time": "6h 37m 58s", "remaining_time": "1h 54m 19s", "loss_scale": 1.0, "consumed_samples": 1262848, "global_step/max_steps": "4933/6350"}
{"lm loss": 4.87480688, "grad_norm": 0.47294563, "learning_rate": 1.56e-05, "elapsed_time_per_iteration": 4.71168375, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 3s", "remaining_time": "1h 54m 14s", "loss_scale": 1.0, "consumed_samples": 1263104, "global_step/max_steps": "4934/6350"}
{"lm loss": 4.87687826, "grad_norm": 0.46458414, "learning_rate": 1.558e-05, "elapsed_time_per_iteration": 4.78404498, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 8s", "remaining_time": "1h 54m 9s", "loss_scale": 1.0, "consumed_samples": 1263360, "global_step/max_steps": "4935/6350"}
{"lm loss": 4.8434577, "grad_norm": 0.42955384, "learning_rate": 1.557e-05, "elapsed_time_per_iteration": 4.73137856, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 13s", "remaining_time": "1h 54m 4s", "loss_scale": 1.0, "consumed_samples": 1263616, "global_step/max_steps": "4936/6350"}
{"lm loss": 4.8622818, "grad_norm": 0.51597971, "learning_rate": 1.555e-05, "elapsed_time_per_iteration": 4.68292832, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 17s", "remaining_time": "1h 53m 59s", "loss_scale": 1.0, "consumed_samples": 1263872, "global_step/max_steps": "4937/6350"}
{"lm loss": 4.85462475, "grad_norm": 0.51169169, "learning_rate": 1.553e-05, "elapsed_time_per_iteration": 5.55779266, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 23s", "remaining_time": "1h 53m 55s", "loss_scale": 1.0, "consumed_samples": 1264128, "global_step/max_steps": "4938/6350"}
{"lm loss": 4.85449886, "grad_norm": 0.42854252, "learning_rate": 1.552e-05, "elapsed_time_per_iteration": 5.67346311, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 29s", "remaining_time": "1h 53m 50s", "loss_scale": 1.0, "consumed_samples": 1264384, "global_step/max_steps": "4939/6350"}
{"lm loss": 4.87277031, "grad_norm": 0.44633299, "learning_rate": 1.55e-05, "elapsed_time_per_iteration": 4.76367927, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 33s", "remaining_time": "1h 53m 45s", "loss_scale": 1.0, "consumed_samples": 1264640, "global_step/max_steps": "4940/6350"}
{"lm loss": 4.843822, "grad_norm": 0.49712053, "learning_rate": 1.548e-05, "elapsed_time_per_iteration": 4.75575352, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 38s", "remaining_time": "1h 53m 40s", "loss_scale": 1.0, "consumed_samples": 1264896, "global_step/max_steps": "4941/6350"}
{"lm loss": 4.87364769, "grad_norm": 0.44257474, "learning_rate": 1.546e-05, "elapsed_time_per_iteration": 5.24712229, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 43s", "remaining_time": "1h 53m 36s", "loss_scale": 1.0, "consumed_samples": 1265152, "global_step/max_steps": "4942/6350"}
{"lm loss": 4.90172911, "grad_norm": 0.43987218, "learning_rate": 1.545e-05, "elapsed_time_per_iteration": 4.6910212, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 48s", "remaining_time": "1h 53m 31s", "loss_scale": 1.0, "consumed_samples": 1265408, "global_step/max_steps": "4943/6350"}
{"lm loss": 4.87598419, "grad_norm": 0.43824229, "learning_rate": 1.543e-05, "elapsed_time_per_iteration": 4.67235875, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 53s", "remaining_time": "1h 53m 26s", "loss_scale": 1.0, "consumed_samples": 1265664, "global_step/max_steps": "4944/6350"}
{"lm loss": 4.87374163, "grad_norm": 0.43379477, "learning_rate": 1.541e-05, "elapsed_time_per_iteration": 4.67941427, "memory(GiB)": 28.03, "elapsed_time": "6h 38m 57s", "remaining_time": "1h 53m 21s", "loss_scale": 1.0, "consumed_samples": 1265920, "global_step/max_steps": "4945/6350"}
{"lm loss": 4.84632206, "grad_norm": 0.42027751, "learning_rate": 1.54e-05, "elapsed_time_per_iteration": 4.72348976, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 2s", "remaining_time": "1h 53m 16s", "loss_scale": 1.0, "consumed_samples": 1266176, "global_step/max_steps": "4946/6350"}
{"lm loss": 4.88004398, "grad_norm": 0.42820662, "learning_rate": 1.538e-05, "elapsed_time_per_iteration": 5.33722782, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 7s", "remaining_time": "1h 53m 11s", "loss_scale": 1.0, "consumed_samples": 1266432, "global_step/max_steps": "4947/6350"}
{"lm loss": 4.86361265, "grad_norm": 0.41071212, "learning_rate": 1.536e-05, "elapsed_time_per_iteration": 4.74737334, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 12s", "remaining_time": "1h 53m 6s", "loss_scale": 1.0, "consumed_samples": 1266688, "global_step/max_steps": "4948/6350"}
{"lm loss": 4.85576105, "grad_norm": 0.44214752, "learning_rate": 1.535e-05, "elapsed_time_per_iteration": 4.73258495, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 17s", "remaining_time": "1h 53m 2s", "loss_scale": 1.0, "consumed_samples": 1266944, "global_step/max_steps": "4949/6350"}
{"lm loss": 4.87431765, "grad_norm": 0.46563122, "learning_rate": 1.533e-05, "elapsed_time_per_iteration": 4.75147414, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 22s", "remaining_time": "1h 52m 57s", "loss_scale": 1.0, "consumed_samples": 1267200, "global_step/max_steps": "4950/6350"}
{"lm loss": 4.85162735, "grad_norm": 0.46677214, "learning_rate": 1.531e-05, "elapsed_time_per_iteration": 4.76840067, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 26s", "remaining_time": "1h 52m 52s", "loss_scale": 1.0, "consumed_samples": 1267456, "global_step/max_steps": "4951/6350"}
{"lm loss": 4.87928963, "grad_norm": 0.41234195, "learning_rate": 1.53e-05, "elapsed_time_per_iteration": 5.12300086, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 32s", "remaining_time": "1h 52m 47s", "loss_scale": 1.0, "consumed_samples": 1267712, "global_step/max_steps": "4952/6350"}
{"lm loss": 4.88340092, "grad_norm": 0.44580746, "learning_rate": 1.528e-05, "elapsed_time_per_iteration": 4.69062877, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 36s", "remaining_time": "1h 52m 42s", "loss_scale": 1.0, "consumed_samples": 1267968, "global_step/max_steps": "4953/6350"}
{"lm loss": 4.84758663, "grad_norm": 0.4176656, "learning_rate": 1.526e-05, "elapsed_time_per_iteration": 4.69360614, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 41s", "remaining_time": "1h 52m 37s", "loss_scale": 1.0, "consumed_samples": 1268224, "global_step/max_steps": "4954/6350"}
{"lm loss": 4.88353539, "grad_norm": 0.41529027, "learning_rate": 1.525e-05, "elapsed_time_per_iteration": 4.64830494, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 46s", "remaining_time": "1h 52m 32s", "loss_scale": 1.0, "consumed_samples": 1268480, "global_step/max_steps": "4955/6350"}
{"lm loss": 4.88067818, "grad_norm": 0.45339641, "learning_rate": 1.523e-05, "elapsed_time_per_iteration": 4.60568833, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 50s", "remaining_time": "1h 52m 27s", "loss_scale": 1.0, "consumed_samples": 1268736, "global_step/max_steps": "4956/6350"}
{"lm loss": 4.87253761, "grad_norm": 0.43856302, "learning_rate": 1.521e-05, "elapsed_time_per_iteration": 4.68139672, "memory(GiB)": 28.03, "elapsed_time": "6h 39m 55s", "remaining_time": "1h 52m 23s", "loss_scale": 1.0, "consumed_samples": 1268992, "global_step/max_steps": "4957/6350"}
{"lm loss": 4.84572744, "grad_norm": 0.48753503, "learning_rate": 1.52e-05, "elapsed_time_per_iteration": 4.73934484, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 0s", "remaining_time": "1h 52m 18s", "loss_scale": 1.0, "consumed_samples": 1269248, "global_step/max_steps": "4958/6350"}
{"lm loss": 4.87476826, "grad_norm": 0.42670968, "learning_rate": 1.518e-05, "elapsed_time_per_iteration": 5.51510739, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 5s", "remaining_time": "1h 52m 13s", "loss_scale": 1.0, "consumed_samples": 1269504, "global_step/max_steps": "4959/6350"}
{"lm loss": 4.88025331, "grad_norm": 0.52233887, "learning_rate": 1.516e-05, "elapsed_time_per_iteration": 5.36047506, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 11s", "remaining_time": "1h 52m 8s", "loss_scale": 1.0, "consumed_samples": 1269760, "global_step/max_steps": "4960/6350"}
{"lm loss": 4.88655043, "grad_norm": 0.40131846, "learning_rate": 1.515e-05, "elapsed_time_per_iteration": 4.71063304, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 15s", "remaining_time": "1h 52m 4s", "loss_scale": 1.0, "consumed_samples": 1270016, "global_step/max_steps": "4961/6350"}
{"lm loss": 4.88259935, "grad_norm": 0.67797047, "learning_rate": 1.513e-05, "elapsed_time_per_iteration": 4.78165269, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 20s", "remaining_time": "1h 51m 59s", "loss_scale": 1.0, "consumed_samples": 1270272, "global_step/max_steps": "4962/6350"}
{"lm loss": 4.87175274, "grad_norm": 0.38413814, "learning_rate": 1.511e-05, "elapsed_time_per_iteration": 4.68289304, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 25s", "remaining_time": "1h 51m 54s", "loss_scale": 1.0, "consumed_samples": 1270528, "global_step/max_steps": "4963/6350"}
{"lm loss": 4.87510204, "grad_norm": 0.45977777, "learning_rate": 1.509e-05, "elapsed_time_per_iteration": 4.7701354, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 29s", "remaining_time": "1h 51m 49s", "loss_scale": 1.0, "consumed_samples": 1270784, "global_step/max_steps": "4964/6350"}
{"lm loss": 4.89120054, "grad_norm": 0.40622425, "learning_rate": 1.508e-05, "elapsed_time_per_iteration": 4.69073439, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 34s", "remaining_time": "1h 51m 44s", "loss_scale": 1.0, "consumed_samples": 1271040, "global_step/max_steps": "4965/6350"}
{"lm loss": 4.88976145, "grad_norm": 0.40798342, "learning_rate": 1.506e-05, "elapsed_time_per_iteration": 4.78138447, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 39s", "remaining_time": "1h 51m 39s", "loss_scale": 1.0, "consumed_samples": 1271296, "global_step/max_steps": "4966/6350"}
{"lm loss": 4.85581112, "grad_norm": 0.43740076, "learning_rate": 1.504e-05, "elapsed_time_per_iteration": 4.68189788, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 44s", "remaining_time": "1h 51m 34s", "loss_scale": 1.0, "consumed_samples": 1271552, "global_step/max_steps": "4967/6350"}
{"lm loss": 4.87590122, "grad_norm": 0.42817745, "learning_rate": 1.503e-05, "elapsed_time_per_iteration": 4.67419291, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 48s", "remaining_time": "1h 51m 29s", "loss_scale": 1.0, "consumed_samples": 1271808, "global_step/max_steps": "4968/6350"}
{"lm loss": 4.8561573, "grad_norm": 0.44482362, "learning_rate": 1.501e-05, "elapsed_time_per_iteration": 5.28677464, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 54s", "remaining_time": "1h 51m 25s", "loss_scale": 1.0, "consumed_samples": 1272064, "global_step/max_steps": "4969/6350"}
{"lm loss": 4.86693859, "grad_norm": 0.41647175, "learning_rate": 1.5e-05, "elapsed_time_per_iteration": 4.79533839, "memory(GiB)": 28.03, "elapsed_time": "6h 40m 58s", "remaining_time": "1h 51m 20s", "loss_scale": 1.0, "consumed_samples": 1272320, "global_step/max_steps": "4970/6350"}
{"lm loss": 4.90049171, "grad_norm": 0.40256163, "learning_rate": 1.498e-05, "elapsed_time_per_iteration": 4.67945838, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 3s", "remaining_time": "1h 51m 15s", "loss_scale": 1.0, "consumed_samples": 1272576, "global_step/max_steps": "4971/6350"}
{"lm loss": 4.89266014, "grad_norm": 0.40639299, "learning_rate": 1.496e-05, "elapsed_time_per_iteration": 4.68715596, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 8s", "remaining_time": "1h 51m 10s", "loss_scale": 1.0, "consumed_samples": 1272832, "global_step/max_steps": "4972/6350"}
{"lm loss": 4.86193609, "grad_norm": 0.38853142, "learning_rate": 1.495e-05, "elapsed_time_per_iteration": 4.70383048, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 12s", "remaining_time": "1h 51m 5s", "loss_scale": 1.0, "consumed_samples": 1273088, "global_step/max_steps": "4973/6350"}
{"lm loss": 4.85782814, "grad_norm": 0.42021191, "learning_rate": 1.493e-05, "elapsed_time_per_iteration": 4.69677615, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 17s", "remaining_time": "1h 51m 0s", "loss_scale": 1.0, "consumed_samples": 1273344, "global_step/max_steps": "4974/6350"}
{"lm loss": 4.88218832, "grad_norm": 0.39210761, "learning_rate": 1.491e-05, "elapsed_time_per_iteration": 4.77280927, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 22s", "remaining_time": "1h 50m 55s", "loss_scale": 1.0, "consumed_samples": 1273600, "global_step/max_steps": "4975/6350"}
{"lm loss": 4.87400961, "grad_norm": 0.39472148, "learning_rate": 1.49e-05, "elapsed_time_per_iteration": 4.62565231, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 27s", "remaining_time": "1h 50m 51s", "loss_scale": 1.0, "consumed_samples": 1273856, "global_step/max_steps": "4976/6350"}
{"lm loss": 4.8722558, "grad_norm": 0.40980905, "learning_rate": 1.488e-05, "elapsed_time_per_iteration": 4.60174274, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 31s", "remaining_time": "1h 50m 46s", "loss_scale": 1.0, "consumed_samples": 1274112, "global_step/max_steps": "4977/6350"}
{"lm loss": 4.87611675, "grad_norm": 0.41481912, "learning_rate": 1.486e-05, "elapsed_time_per_iteration": 4.69932556, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 36s", "remaining_time": "1h 50m 41s", "loss_scale": 1.0, "consumed_samples": 1274368, "global_step/max_steps": "4978/6350"}
{"lm loss": 4.89479208, "grad_norm": 0.39945847, "learning_rate": 1.485e-05, "elapsed_time_per_iteration": 4.72834611, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 41s", "remaining_time": "1h 50m 36s", "loss_scale": 1.0, "consumed_samples": 1274624, "global_step/max_steps": "4979/6350"}
{"lm loss": 4.86368275, "grad_norm": 0.3921141, "learning_rate": 1.483e-05, "elapsed_time_per_iteration": 4.69385552, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 45s", "remaining_time": "1h 50m 31s", "loss_scale": 1.0, "consumed_samples": 1274880, "global_step/max_steps": "4980/6350"}
{"lm loss": 4.86914778, "grad_norm": 0.45588386, "learning_rate": 1.481e-05, "elapsed_time_per_iteration": 4.63737726, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 50s", "remaining_time": "1h 50m 26s", "loss_scale": 1.0, "consumed_samples": 1275136, "global_step/max_steps": "4981/6350"}
{"lm loss": 4.87357569, "grad_norm": 0.52831805, "learning_rate": 1.48e-05, "elapsed_time_per_iteration": 4.71350837, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 55s", "remaining_time": "1h 50m 21s", "loss_scale": 1.0, "consumed_samples": 1275392, "global_step/max_steps": "4982/6350"}
{"lm loss": 4.87717009, "grad_norm": 0.41954735, "learning_rate": 1.478e-05, "elapsed_time_per_iteration": 4.6453619, "memory(GiB)": 28.03, "elapsed_time": "6h 41m 59s", "remaining_time": "1h 50m 16s", "loss_scale": 1.0, "consumed_samples": 1275648, "global_step/max_steps": "4983/6350"}
{"lm loss": 4.87464952, "grad_norm": 0.51328939, "learning_rate": 1.476e-05, "elapsed_time_per_iteration": 4.68740034, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 4s", "remaining_time": "1h 50m 11s", "loss_scale": 1.0, "consumed_samples": 1275904, "global_step/max_steps": "4984/6350"}
{"lm loss": 4.87905216, "grad_norm": 0.53955209, "learning_rate": 1.475e-05, "elapsed_time_per_iteration": 4.7332294, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 9s", "remaining_time": "1h 50m 7s", "loss_scale": 1.0, "consumed_samples": 1276160, "global_step/max_steps": "4985/6350"}
{"lm loss": 4.8785677, "grad_norm": 0.42606989, "learning_rate": 1.473e-05, "elapsed_time_per_iteration": 4.74151349, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 13s", "remaining_time": "1h 50m 2s", "loss_scale": 1.0, "consumed_samples": 1276416, "global_step/max_steps": "4986/6350"}
{"lm loss": 4.90142012, "grad_norm": 0.49445504, "learning_rate": 1.471e-05, "elapsed_time_per_iteration": 4.70534348, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 18s", "remaining_time": "1h 49m 57s", "loss_scale": 1.0, "consumed_samples": 1276672, "global_step/max_steps": "4987/6350"}
{"lm loss": 4.8886776, "grad_norm": 0.43346906, "learning_rate": 1.47e-05, "elapsed_time_per_iteration": 4.65865517, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 23s", "remaining_time": "1h 49m 52s", "loss_scale": 1.0, "consumed_samples": 1276928, "global_step/max_steps": "4988/6350"}
{"lm loss": 4.86138344, "grad_norm": 0.46048406, "learning_rate": 1.468e-05, "elapsed_time_per_iteration": 4.78110695, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 28s", "remaining_time": "1h 49m 47s", "loss_scale": 1.0, "consumed_samples": 1277184, "global_step/max_steps": "4989/6350"}
{"lm loss": 4.8613019, "grad_norm": 0.45175558, "learning_rate": 1.466e-05, "elapsed_time_per_iteration": 4.73260117, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 32s", "remaining_time": "1h 49m 42s", "loss_scale": 1.0, "consumed_samples": 1277440, "global_step/max_steps": "4990/6350"}
{"lm loss": 4.88540125, "grad_norm": 0.4098618, "learning_rate": 1.465e-05, "elapsed_time_per_iteration": 4.79159784, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 37s", "remaining_time": "1h 49m 37s", "loss_scale": 1.0, "consumed_samples": 1277696, "global_step/max_steps": "4991/6350"}
{"lm loss": 4.85460806, "grad_norm": 0.43218169, "learning_rate": 1.463e-05, "elapsed_time_per_iteration": 4.69721746, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 42s", "remaining_time": "1h 49m 32s", "loss_scale": 1.0, "consumed_samples": 1277952, "global_step/max_steps": "4992/6350"}
{"lm loss": 4.89484644, "grad_norm": 0.43628138, "learning_rate": 1.462e-05, "elapsed_time_per_iteration": 4.69054079, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 46s", "remaining_time": "1h 49m 28s", "loss_scale": 1.0, "consumed_samples": 1278208, "global_step/max_steps": "4993/6350"}
{"lm loss": 4.87499905, "grad_norm": 0.38737011, "learning_rate": 1.46e-05, "elapsed_time_per_iteration": 4.71901393, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 51s", "remaining_time": "1h 49m 23s", "loss_scale": 1.0, "consumed_samples": 1278464, "global_step/max_steps": "4994/6350"}
{"lm loss": 4.86474609, "grad_norm": 0.47079885, "learning_rate": 1.458e-05, "elapsed_time_per_iteration": 4.70956635, "memory(GiB)": 28.03, "elapsed_time": "6h 42m 56s", "remaining_time": "1h 49m 18s", "loss_scale": 1.0, "consumed_samples": 1278720, "global_step/max_steps": "4995/6350"}
{"lm loss": 4.86694765, "grad_norm": 0.40031844, "learning_rate": 1.457e-05, "elapsed_time_per_iteration": 4.70622253, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 1s", "remaining_time": "1h 49m 13s", "loss_scale": 1.0, "consumed_samples": 1278976, "global_step/max_steps": "4996/6350"}
{"lm loss": 4.85758829, "grad_norm": 0.37333739, "learning_rate": 1.455e-05, "elapsed_time_per_iteration": 4.62809157, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 5s", "remaining_time": "1h 49m 8s", "loss_scale": 1.0, "consumed_samples": 1279232, "global_step/max_steps": "4997/6350"}
{"lm loss": 4.85212946, "grad_norm": 0.42970502, "learning_rate": 1.453e-05, "elapsed_time_per_iteration": 4.6401484, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 10s", "remaining_time": "1h 49m 3s", "loss_scale": 1.0, "consumed_samples": 1279488, "global_step/max_steps": "4998/6350"}
{"lm loss": 4.83890104, "grad_norm": 0.38939455, "learning_rate": 1.452e-05, "elapsed_time_per_iteration": 4.7596035, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 15s", "remaining_time": "1h 48m 58s", "loss_scale": 1.0, "consumed_samples": 1279744, "global_step/max_steps": "4999/6350"}
{"lm loss": 4.86798477, "grad_norm": 0.42015877, "learning_rate": 1.45e-05, "elapsed_time_per_iteration": 5.49680924, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 20s", "remaining_time": "1h 48m 54s", "loss_scale": 1.0, "consumed_samples": 1280000, "global_step/max_steps": "5000/6350"}
{"lm loss": 4.86402225, "grad_norm": 0.38090011, "learning_rate": 1.448e-05, "elapsed_time_per_iteration": 4.68908381, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 25s", "remaining_time": "1h 48m 49s", "loss_scale": 1.0, "consumed_samples": 1280256, "global_step/max_steps": "5001/6350"}
{"lm loss": 4.85594034, "grad_norm": 0.38222826, "learning_rate": 1.447e-05, "elapsed_time_per_iteration": 5.65046787, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 30s", "remaining_time": "1h 48m 44s", "loss_scale": 1.0, "consumed_samples": 1280512, "global_step/max_steps": "5002/6350"}
{"lm loss": 4.8696394, "grad_norm": 0.39201513, "learning_rate": 1.445e-05, "elapsed_time_per_iteration": 5.66373491, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 36s", "remaining_time": "1h 48m 40s", "loss_scale": 1.0, "consumed_samples": 1280768, "global_step/max_steps": "5003/6350"}
{"lm loss": 4.85375595, "grad_norm": 0.39274645, "learning_rate": 1.444e-05, "elapsed_time_per_iteration": 4.7532773, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 41s", "remaining_time": "1h 48m 35s", "loss_scale": 1.0, "consumed_samples": 1281024, "global_step/max_steps": "5004/6350"}
{"lm loss": 4.87781763, "grad_norm": 0.38097361, "learning_rate": 1.442e-05, "elapsed_time_per_iteration": 4.76930952, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 46s", "remaining_time": "1h 48m 30s", "loss_scale": 1.0, "consumed_samples": 1281280, "global_step/max_steps": "5005/6350"}
{"lm loss": 4.86643171, "grad_norm": 0.39701125, "learning_rate": 1.44e-05, "elapsed_time_per_iteration": 4.69363856, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 50s", "remaining_time": "1h 48m 25s", "loss_scale": 1.0, "consumed_samples": 1281536, "global_step/max_steps": "5006/6350"}
{"lm loss": 4.84835625, "grad_norm": 0.40605029, "learning_rate": 1.439e-05, "elapsed_time_per_iteration": 4.75083995, "memory(GiB)": 28.03, "elapsed_time": "6h 43m 55s", "remaining_time": "1h 48m 20s", "loss_scale": 1.0, "consumed_samples": 1281792, "global_step/max_steps": "5007/6350"}
{"lm loss": 4.84833145, "grad_norm": 0.39785782, "learning_rate": 1.437e-05, "elapsed_time_per_iteration": 4.77466416, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 0s", "remaining_time": "1h 48m 15s", "loss_scale": 1.0, "consumed_samples": 1282048, "global_step/max_steps": "5008/6350"}
{"lm loss": 4.86521769, "grad_norm": 0.40401289, "learning_rate": 1.435e-05, "elapsed_time_per_iteration": 4.73311138, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 5s", "remaining_time": "1h 48m 10s", "loss_scale": 1.0, "consumed_samples": 1282304, "global_step/max_steps": "5009/6350"}
{"lm loss": 4.87359619, "grad_norm": 0.37622151, "learning_rate": 1.434e-05, "elapsed_time_per_iteration": 4.7910223, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 9s", "remaining_time": "1h 48m 6s", "loss_scale": 1.0, "consumed_samples": 1282560, "global_step/max_steps": "5010/6350"}
{"lm loss": 4.89044619, "grad_norm": 0.41240948, "learning_rate": 1.432e-05, "elapsed_time_per_iteration": 4.72742295, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 14s", "remaining_time": "1h 48m 1s", "loss_scale": 1.0, "consumed_samples": 1282816, "global_step/max_steps": "5011/6350"}
{"lm loss": 4.88513374, "grad_norm": 0.38399708, "learning_rate": 1.431e-05, "elapsed_time_per_iteration": 5.24057913, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 19s", "remaining_time": "1h 47m 56s", "loss_scale": 1.0, "consumed_samples": 1283072, "global_step/max_steps": "5012/6350"}
{"lm loss": 4.87264538, "grad_norm": 0.41621977, "learning_rate": 1.429e-05, "elapsed_time_per_iteration": 4.72612262, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 24s", "remaining_time": "1h 47m 51s", "loss_scale": 1.0, "consumed_samples": 1283328, "global_step/max_steps": "5013/6350"}
{"lm loss": 4.86657572, "grad_norm": 0.41738683, "learning_rate": 1.427e-05, "elapsed_time_per_iteration": 4.79365802, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 29s", "remaining_time": "1h 47m 46s", "loss_scale": 1.0, "consumed_samples": 1283584, "global_step/max_steps": "5014/6350"}
{"lm loss": 4.88630867, "grad_norm": 0.41418982, "learning_rate": 1.426e-05, "elapsed_time_per_iteration": 4.72830677, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 34s", "remaining_time": "1h 47m 41s", "loss_scale": 1.0, "consumed_samples": 1283840, "global_step/max_steps": "5015/6350"}
{"lm loss": 4.83578968, "grad_norm": 0.40016571, "learning_rate": 1.424e-05, "elapsed_time_per_iteration": 4.79605246, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 38s", "remaining_time": "1h 47m 36s", "loss_scale": 1.0, "consumed_samples": 1284096, "global_step/max_steps": "5016/6350"}
{"lm loss": 4.86086893, "grad_norm": 0.44945791, "learning_rate": 1.422e-05, "elapsed_time_per_iteration": 4.76023459, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 43s", "remaining_time": "1h 47m 32s", "loss_scale": 1.0, "consumed_samples": 1284352, "global_step/max_steps": "5017/6350"}
{"lm loss": 4.89697742, "grad_norm": 0.41025487, "learning_rate": 1.421e-05, "elapsed_time_per_iteration": 4.74810648, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 48s", "remaining_time": "1h 47m 27s", "loss_scale": 1.0, "consumed_samples": 1284608, "global_step/max_steps": "5018/6350"}
{"lm loss": 4.86239672, "grad_norm": 0.4378089, "learning_rate": 1.419e-05, "elapsed_time_per_iteration": 4.78531313, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 53s", "remaining_time": "1h 47m 22s", "loss_scale": 1.0, "consumed_samples": 1284864, "global_step/max_steps": "5019/6350"}
{"lm loss": 4.85140657, "grad_norm": 0.40704435, "learning_rate": 1.418e-05, "elapsed_time_per_iteration": 4.80636024, "memory(GiB)": 28.03, "elapsed_time": "6h 44m 58s", "remaining_time": "1h 47m 17s", "loss_scale": 1.0, "consumed_samples": 1285120, "global_step/max_steps": "5020/6350"}
{"lm loss": 4.86614132, "grad_norm": 0.39101961, "learning_rate": 1.416e-05, "elapsed_time_per_iteration": 5.14309359, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 3s", "remaining_time": "1h 47m 12s", "loss_scale": 1.0, "consumed_samples": 1285376, "global_step/max_steps": "5021/6350"}
{"lm loss": 4.86480713, "grad_norm": 0.3883895, "learning_rate": 1.414e-05, "elapsed_time_per_iteration": 4.74210906, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 7s", "remaining_time": "1h 47m 7s", "loss_scale": 1.0, "consumed_samples": 1285632, "global_step/max_steps": "5022/6350"}
{"lm loss": 4.86439371, "grad_norm": 0.38972774, "learning_rate": 1.413e-05, "elapsed_time_per_iteration": 4.72686934, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 12s", "remaining_time": "1h 47m 3s", "loss_scale": 1.0, "consumed_samples": 1285888, "global_step/max_steps": "5023/6350"}
{"lm loss": 4.83953762, "grad_norm": 0.39873692, "learning_rate": 1.411e-05, "elapsed_time_per_iteration": 4.80320454, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 17s", "remaining_time": "1h 46m 58s", "loss_scale": 1.0, "consumed_samples": 1286144, "global_step/max_steps": "5024/6350"}
{"lm loss": 4.8555398, "grad_norm": 0.41654015, "learning_rate": 1.41e-05, "elapsed_time_per_iteration": 4.80481982, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 22s", "remaining_time": "1h 46m 53s", "loss_scale": 1.0, "consumed_samples": 1286400, "global_step/max_steps": "5025/6350"}
{"lm loss": 4.8727479, "grad_norm": 0.40530244, "learning_rate": 1.408e-05, "elapsed_time_per_iteration": 4.80911398, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 27s", "remaining_time": "1h 46m 48s", "loss_scale": 1.0, "consumed_samples": 1286656, "global_step/max_steps": "5026/6350"}
{"lm loss": 4.86393023, "grad_norm": 0.45833299, "learning_rate": 1.406e-05, "elapsed_time_per_iteration": 4.82084727, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 31s", "remaining_time": "1h 46m 43s", "loss_scale": 1.0, "consumed_samples": 1286912, "global_step/max_steps": "5027/6350"}
{"lm loss": 4.88815403, "grad_norm": 0.41456708, "learning_rate": 1.405e-05, "elapsed_time_per_iteration": 4.85704303, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 36s", "remaining_time": "1h 46m 38s", "loss_scale": 1.0, "consumed_samples": 1287168, "global_step/max_steps": "5028/6350"}
{"lm loss": 4.86869574, "grad_norm": 0.37644494, "learning_rate": 1.403e-05, "elapsed_time_per_iteration": 4.73464108, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 41s", "remaining_time": "1h 46m 33s", "loss_scale": 1.0, "consumed_samples": 1287424, "global_step/max_steps": "5029/6350"}
{"lm loss": 4.86345196, "grad_norm": 0.4490298, "learning_rate": 1.402e-05, "elapsed_time_per_iteration": 5.63482714, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 47s", "remaining_time": "1h 46m 29s", "loss_scale": 1.0, "consumed_samples": 1287680, "global_step/max_steps": "5030/6350"}
{"lm loss": 4.87715006, "grad_norm": 0.36373058, "learning_rate": 1.4e-05, "elapsed_time_per_iteration": 4.71835327, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 51s", "remaining_time": "1h 46m 24s", "loss_scale": 1.0, "consumed_samples": 1287936, "global_step/max_steps": "5031/6350"}
{"lm loss": 4.88359165, "grad_norm": 0.429474, "learning_rate": 1.398e-05, "elapsed_time_per_iteration": 4.7049973, "memory(GiB)": 28.03, "elapsed_time": "6h 45m 56s", "remaining_time": "1h 46m 19s", "loss_scale": 1.0, "consumed_samples": 1288192, "global_step/max_steps": "5032/6350"}
{"lm loss": 4.88646126, "grad_norm": 0.39914244, "learning_rate": 1.397e-05, "elapsed_time_per_iteration": 4.75872731, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 1s", "remaining_time": "1h 46m 14s", "loss_scale": 1.0, "consumed_samples": 1288448, "global_step/max_steps": "5033/6350"}
{"lm loss": 4.87853146, "grad_norm": 0.39717457, "learning_rate": 1.395e-05, "elapsed_time_per_iteration": 4.70647955, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 5s", "remaining_time": "1h 46m 9s", "loss_scale": 1.0, "consumed_samples": 1288704, "global_step/max_steps": "5034/6350"}
{"lm loss": 4.86829901, "grad_norm": 0.44684523, "learning_rate": 1.394e-05, "elapsed_time_per_iteration": 4.70874643, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 10s", "remaining_time": "1h 46m 4s", "loss_scale": 1.0, "consumed_samples": 1288960, "global_step/max_steps": "5035/6350"}
{"lm loss": 4.85517693, "grad_norm": 0.41900125, "learning_rate": 1.392e-05, "elapsed_time_per_iteration": 5.18498421, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 15s", "remaining_time": "1h 46m 0s", "loss_scale": 1.0, "consumed_samples": 1289216, "global_step/max_steps": "5036/6350"}
{"lm loss": 4.87809896, "grad_norm": 0.45219374, "learning_rate": 1.39e-05, "elapsed_time_per_iteration": 4.81097889, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 20s", "remaining_time": "1h 45m 55s", "loss_scale": 1.0, "consumed_samples": 1289472, "global_step/max_steps": "5037/6350"}
{"lm loss": 4.85821247, "grad_norm": 0.36986572, "learning_rate": 1.389e-05, "elapsed_time_per_iteration": 4.72541928, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 25s", "remaining_time": "1h 45m 50s", "loss_scale": 1.0, "consumed_samples": 1289728, "global_step/max_steps": "5038/6350"}
{"lm loss": 4.85853004, "grad_norm": 0.44416437, "learning_rate": 1.387e-05, "elapsed_time_per_iteration": 4.73484802, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 30s", "remaining_time": "1h 45m 45s", "loss_scale": 1.0, "consumed_samples": 1289984, "global_step/max_steps": "5039/6350"}
{"lm loss": 4.8642807, "grad_norm": 0.40943527, "learning_rate": 1.386e-05, "elapsed_time_per_iteration": 4.82161474, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 34s", "remaining_time": "1h 45m 40s", "loss_scale": 1.0, "consumed_samples": 1290240, "global_step/max_steps": "5040/6350"}
{"lm loss": 4.86744022, "grad_norm": 0.41567954, "learning_rate": 1.384e-05, "elapsed_time_per_iteration": 4.81440639, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 39s", "remaining_time": "1h 45m 35s", "loss_scale": 1.0, "consumed_samples": 1290496, "global_step/max_steps": "5041/6350"}
{"lm loss": 4.88546753, "grad_norm": 0.38957641, "learning_rate": 1.382e-05, "elapsed_time_per_iteration": 4.72292066, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 44s", "remaining_time": "1h 45m 31s", "loss_scale": 1.0, "consumed_samples": 1290752, "global_step/max_steps": "5042/6350"}
{"lm loss": 4.86329412, "grad_norm": 0.40076312, "learning_rate": 1.381e-05, "elapsed_time_per_iteration": 4.7133739, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 49s", "remaining_time": "1h 45m 26s", "loss_scale": 1.0, "consumed_samples": 1291008, "global_step/max_steps": "5043/6350"}
{"lm loss": 4.86166668, "grad_norm": 0.40048027, "learning_rate": 1.379e-05, "elapsed_time_per_iteration": 4.79396963, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 54s", "remaining_time": "1h 45m 21s", "loss_scale": 1.0, "consumed_samples": 1291264, "global_step/max_steps": "5044/6350"}
{"lm loss": 4.87315512, "grad_norm": 0.38055909, "learning_rate": 1.378e-05, "elapsed_time_per_iteration": 5.64024043, "memory(GiB)": 28.03, "elapsed_time": "6h 46m 59s", "remaining_time": "1h 45m 16s", "loss_scale": 1.0, "consumed_samples": 1291520, "global_step/max_steps": "5045/6350"}
{"lm loss": 4.86897278, "grad_norm": 0.39086136, "learning_rate": 1.376e-05, "elapsed_time_per_iteration": 4.74381137, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 4s", "remaining_time": "1h 45m 11s", "loss_scale": 1.0, "consumed_samples": 1291776, "global_step/max_steps": "5046/6350"}
{"lm loss": 4.89516401, "grad_norm": 0.42706954, "learning_rate": 1.374e-05, "elapsed_time_per_iteration": 4.7822051, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 9s", "remaining_time": "1h 45m 6s", "loss_scale": 1.0, "consumed_samples": 1292032, "global_step/max_steps": "5047/6350"}
{"lm loss": 4.85435009, "grad_norm": 0.37686044, "learning_rate": 1.373e-05, "elapsed_time_per_iteration": 4.7809577, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 13s", "remaining_time": "1h 45m 2s", "loss_scale": 1.0, "consumed_samples": 1292288, "global_step/max_steps": "5048/6350"}
{"lm loss": 4.87657642, "grad_norm": 0.37842864, "learning_rate": 1.371e-05, "elapsed_time_per_iteration": 4.70124888, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 18s", "remaining_time": "1h 44m 57s", "loss_scale": 1.0, "consumed_samples": 1292544, "global_step/max_steps": "5049/6350"}
{"lm loss": 4.86521435, "grad_norm": 0.40005252, "learning_rate": 1.37e-05, "elapsed_time_per_iteration": 4.68337631, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 23s", "remaining_time": "1h 44m 52s", "loss_scale": 1.0, "consumed_samples": 1292800, "global_step/max_steps": "5050/6350"}
{"lm loss": 4.84674454, "grad_norm": 0.41919568, "learning_rate": 1.368e-05, "elapsed_time_per_iteration": 4.64653015, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 28s", "remaining_time": "1h 44m 47s", "loss_scale": 1.0, "consumed_samples": 1293056, "global_step/max_steps": "5051/6350"}
{"lm loss": 4.86144829, "grad_norm": 0.39014733, "learning_rate": 1.367e-05, "elapsed_time_per_iteration": 4.77362466, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 32s", "remaining_time": "1h 44m 42s", "loss_scale": 1.0, "consumed_samples": 1293312, "global_step/max_steps": "5052/6350"}
{"lm loss": 4.87998343, "grad_norm": 0.41996443, "learning_rate": 1.365e-05, "elapsed_time_per_iteration": 4.71742368, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 37s", "remaining_time": "1h 44m 37s", "loss_scale": 1.0, "consumed_samples": 1293568, "global_step/max_steps": "5053/6350"}
{"lm loss": 4.86070013, "grad_norm": 0.36430573, "learning_rate": 1.363e-05, "elapsed_time_per_iteration": 4.6577158, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 42s", "remaining_time": "1h 44m 32s", "loss_scale": 1.0, "consumed_samples": 1293824, "global_step/max_steps": "5054/6350"}
{"lm loss": 4.88591909, "grad_norm": 0.40968624, "learning_rate": 1.362e-05, "elapsed_time_per_iteration": 4.74513006, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 46s", "remaining_time": "1h 44m 27s", "loss_scale": 1.0, "consumed_samples": 1294080, "global_step/max_steps": "5055/6350"}
{"lm loss": 4.86604166, "grad_norm": 0.40034753, "learning_rate": 1.36e-05, "elapsed_time_per_iteration": 4.65736604, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 51s", "remaining_time": "1h 44m 23s", "loss_scale": 1.0, "consumed_samples": 1294336, "global_step/max_steps": "5056/6350"}
{"lm loss": 4.88703108, "grad_norm": 0.37990832, "learning_rate": 1.359e-05, "elapsed_time_per_iteration": 5.44336224, "memory(GiB)": 28.03, "elapsed_time": "6h 47m 57s", "remaining_time": "1h 44m 18s", "loss_scale": 1.0, "consumed_samples": 1294592, "global_step/max_steps": "5057/6350"}
{"lm loss": 4.86597681, "grad_norm": 0.42536926, "learning_rate": 1.357e-05, "elapsed_time_per_iteration": 4.76540017, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 1s", "remaining_time": "1h 44m 13s", "loss_scale": 1.0, "consumed_samples": 1294848, "global_step/max_steps": "5058/6350"}
{"lm loss": 4.87716532, "grad_norm": 0.42961758, "learning_rate": 1.355e-05, "elapsed_time_per_iteration": 4.70523572, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 6s", "remaining_time": "1h 44m 8s", "loss_scale": 1.0, "consumed_samples": 1295104, "global_step/max_steps": "5059/6350"}
{"lm loss": 4.88004827, "grad_norm": 0.42254803, "learning_rate": 1.354e-05, "elapsed_time_per_iteration": 4.7266252, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 11s", "remaining_time": "1h 44m 3s", "loss_scale": 1.0, "consumed_samples": 1295360, "global_step/max_steps": "5060/6350"}
{"lm loss": 4.8703146, "grad_norm": 0.40191168, "learning_rate": 1.352e-05, "elapsed_time_per_iteration": 4.84019256, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 16s", "remaining_time": "1h 43m 58s", "loss_scale": 1.0, "consumed_samples": 1295616, "global_step/max_steps": "5061/6350"}
{"lm loss": 4.86555719, "grad_norm": 0.39679486, "learning_rate": 1.351e-05, "elapsed_time_per_iteration": 5.01609802, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 21s", "remaining_time": "1h 43m 54s", "loss_scale": 1.0, "consumed_samples": 1295872, "global_step/max_steps": "5062/6350"}
{"lm loss": 4.873384, "grad_norm": 0.44918156, "learning_rate": 1.349e-05, "elapsed_time_per_iteration": 4.8624301, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 25s", "remaining_time": "1h 43m 49s", "loss_scale": 1.0, "consumed_samples": 1296128, "global_step/max_steps": "5063/6350"}
{"lm loss": 4.86190987, "grad_norm": 0.39791247, "learning_rate": 1.348e-05, "elapsed_time_per_iteration": 4.81298876, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 30s", "remaining_time": "1h 43m 44s", "loss_scale": 1.0, "consumed_samples": 1296384, "global_step/max_steps": "5064/6350"}
{"lm loss": 4.87632322, "grad_norm": 0.37335557, "learning_rate": 1.346e-05, "elapsed_time_per_iteration": 4.77707648, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 35s", "remaining_time": "1h 43m 39s", "loss_scale": 1.0, "consumed_samples": 1296640, "global_step/max_steps": "5065/6350"}
{"lm loss": 4.8680234, "grad_norm": 0.39139628, "learning_rate": 1.344e-05, "elapsed_time_per_iteration": 4.74370885, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 40s", "remaining_time": "1h 43m 34s", "loss_scale": 1.0, "consumed_samples": 1296896, "global_step/max_steps": "5066/6350"}
{"lm loss": 4.86164856, "grad_norm": 0.41090724, "learning_rate": 1.343e-05, "elapsed_time_per_iteration": 4.76020455, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 45s", "remaining_time": "1h 43m 29s", "loss_scale": 1.0, "consumed_samples": 1297152, "global_step/max_steps": "5067/6350"}
{"lm loss": 4.85205889, "grad_norm": 0.39593312, "learning_rate": 1.341e-05, "elapsed_time_per_iteration": 4.75334406, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 49s", "remaining_time": "1h 43m 25s", "loss_scale": 1.0, "consumed_samples": 1297408, "global_step/max_steps": "5068/6350"}
{"lm loss": 4.8530941, "grad_norm": 0.40468177, "learning_rate": 1.34e-05, "elapsed_time_per_iteration": 4.73019385, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 54s", "remaining_time": "1h 43m 20s", "loss_scale": 1.0, "consumed_samples": 1297664, "global_step/max_steps": "5069/6350"}
{"lm loss": 4.87170696, "grad_norm": 0.42303029, "learning_rate": 1.338e-05, "elapsed_time_per_iteration": 4.83748269, "memory(GiB)": 28.03, "elapsed_time": "6h 48m 59s", "remaining_time": "1h 43m 15s", "loss_scale": 1.0, "consumed_samples": 1297920, "global_step/max_steps": "5070/6350"}
{"lm loss": 4.88165379, "grad_norm": 0.46998459, "learning_rate": 1.337e-05, "elapsed_time_per_iteration": 4.77108335, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 4s", "remaining_time": "1h 43m 10s", "loss_scale": 1.0, "consumed_samples": 1298176, "global_step/max_steps": "5071/6350"}
{"lm loss": 4.84810877, "grad_norm": 0.36719805, "learning_rate": 1.335e-05, "elapsed_time_per_iteration": 4.80237937, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 8s", "remaining_time": "1h 43m 5s", "loss_scale": 1.0, "consumed_samples": 1298432, "global_step/max_steps": "5072/6350"}
{"lm loss": 4.87741899, "grad_norm": 0.39734107, "learning_rate": 1.334e-05, "elapsed_time_per_iteration": 4.85295749, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 13s", "remaining_time": "1h 43m 0s", "loss_scale": 1.0, "consumed_samples": 1298688, "global_step/max_steps": "5073/6350"}
{"lm loss": 4.86025238, "grad_norm": 0.38096663, "learning_rate": 1.332e-05, "elapsed_time_per_iteration": 5.70153832, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 19s", "remaining_time": "1h 42m 56s", "loss_scale": 1.0, "consumed_samples": 1298944, "global_step/max_steps": "5074/6350"}
{"lm loss": 4.86141348, "grad_norm": 0.40048212, "learning_rate": 1.33e-05, "elapsed_time_per_iteration": 4.74628115, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 24s", "remaining_time": "1h 42m 51s", "loss_scale": 1.0, "consumed_samples": 1299200, "global_step/max_steps": "5075/6350"}
{"lm loss": 4.88907146, "grad_norm": 0.40741271, "learning_rate": 1.329e-05, "elapsed_time_per_iteration": 5.36370802, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 29s", "remaining_time": "1h 42m 46s", "loss_scale": 1.0, "consumed_samples": 1299456, "global_step/max_steps": "5076/6350"}
{"lm loss": 4.87700272, "grad_norm": 0.43039939, "learning_rate": 1.327e-05, "elapsed_time_per_iteration": 4.73019361, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 34s", "remaining_time": "1h 42m 41s", "loss_scale": 1.0, "consumed_samples": 1299712, "global_step/max_steps": "5077/6350"}
{"lm loss": 4.87341595, "grad_norm": 0.40294993, "learning_rate": 1.326e-05, "elapsed_time_per_iteration": 4.85246992, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 39s", "remaining_time": "1h 42m 36s", "loss_scale": 1.0, "consumed_samples": 1299968, "global_step/max_steps": "5078/6350"}
{"lm loss": 4.88329887, "grad_norm": 0.39345476, "learning_rate": 1.324e-05, "elapsed_time_per_iteration": 4.70692539, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 43s", "remaining_time": "1h 42m 32s", "loss_scale": 1.0, "consumed_samples": 1300224, "global_step/max_steps": "5079/6350"}
{"lm loss": 4.8800211, "grad_norm": 0.38480791, "learning_rate": 1.323e-05, "elapsed_time_per_iteration": 4.72581005, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 48s", "remaining_time": "1h 42m 27s", "loss_scale": 1.0, "consumed_samples": 1300480, "global_step/max_steps": "5080/6350"}
{"lm loss": 4.89112329, "grad_norm": 0.38530108, "learning_rate": 1.321e-05, "elapsed_time_per_iteration": 4.77359772, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 53s", "remaining_time": "1h 42m 22s", "loss_scale": 1.0, "consumed_samples": 1300736, "global_step/max_steps": "5081/6350"}
{"lm loss": 4.85327911, "grad_norm": 0.39654312, "learning_rate": 1.32e-05, "elapsed_time_per_iteration": 4.70684314, "memory(GiB)": 28.03, "elapsed_time": "6h 49m 58s", "remaining_time": "1h 42m 17s", "loss_scale": 1.0, "consumed_samples": 1300992, "global_step/max_steps": "5082/6350"}
{"lm loss": 4.87717485, "grad_norm": 0.37336096, "learning_rate": 1.318e-05, "elapsed_time_per_iteration": 4.6775012, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 2s", "remaining_time": "1h 42m 12s", "loss_scale": 1.0, "consumed_samples": 1301248, "global_step/max_steps": "5083/6350"}
{"lm loss": 4.87814283, "grad_norm": 0.40344089, "learning_rate": 1.316e-05, "elapsed_time_per_iteration": 4.70299697, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 7s", "remaining_time": "1h 42m 7s", "loss_scale": 1.0, "consumed_samples": 1301504, "global_step/max_steps": "5084/6350"}
{"lm loss": 4.8800168, "grad_norm": 0.41067103, "learning_rate": 1.315e-05, "elapsed_time_per_iteration": 4.71547174, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 12s", "remaining_time": "1h 42m 2s", "loss_scale": 1.0, "consumed_samples": 1301760, "global_step/max_steps": "5085/6350"}
{"lm loss": 4.83321333, "grad_norm": 0.3797493, "learning_rate": 1.313e-05, "elapsed_time_per_iteration": 5.57302213, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 17s", "remaining_time": "1h 41m 58s", "loss_scale": 1.0, "consumed_samples": 1302016, "global_step/max_steps": "5086/6350"}
{"lm loss": 4.86345911, "grad_norm": 0.43402442, "learning_rate": 1.312e-05, "elapsed_time_per_iteration": 4.69192576, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 22s", "remaining_time": "1h 41m 53s", "loss_scale": 1.0, "consumed_samples": 1302272, "global_step/max_steps": "5087/6350"}
{"lm loss": 4.85634375, "grad_norm": 0.39967975, "learning_rate": 1.31e-05, "elapsed_time_per_iteration": 4.72798085, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 27s", "remaining_time": "1h 41m 48s", "loss_scale": 1.0, "consumed_samples": 1302528, "global_step/max_steps": "5088/6350"}
{"lm loss": 4.8806982, "grad_norm": 0.4167977, "learning_rate": 1.309e-05, "elapsed_time_per_iteration": 4.75277138, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 31s", "remaining_time": "1h 41m 43s", "loss_scale": 1.0, "consumed_samples": 1302784, "global_step/max_steps": "5089/6350"}
{"lm loss": 4.89554977, "grad_norm": 0.44034564, "learning_rate": 1.307e-05, "elapsed_time_per_iteration": 5.09144878, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 36s", "remaining_time": "1h 41m 38s", "loss_scale": 1.0, "consumed_samples": 1303040, "global_step/max_steps": "5090/6350"}
{"lm loss": 4.87533855, "grad_norm": 0.37782264, "learning_rate": 1.306e-05, "elapsed_time_per_iteration": 4.69399834, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 41s", "remaining_time": "1h 41m 33s", "loss_scale": 1.0, "consumed_samples": 1303296, "global_step/max_steps": "5091/6350"}
{"lm loss": 4.88495111, "grad_norm": 0.39360896, "learning_rate": 1.304e-05, "elapsed_time_per_iteration": 4.81972885, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 46s", "remaining_time": "1h 41m 29s", "loss_scale": 1.0, "consumed_samples": 1303552, "global_step/max_steps": "5092/6350"}
{"lm loss": 4.87950754, "grad_norm": 0.37408522, "learning_rate": 1.303e-05, "elapsed_time_per_iteration": 4.62535691, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 51s", "remaining_time": "1h 41m 24s", "loss_scale": 1.0, "consumed_samples": 1303808, "global_step/max_steps": "5093/6350"}
{"lm loss": 4.85626268, "grad_norm": 0.4052712, "learning_rate": 1.301e-05, "elapsed_time_per_iteration": 4.6835711, "memory(GiB)": 28.03, "elapsed_time": "6h 50m 55s", "remaining_time": "1h 41m 19s", "loss_scale": 1.0, "consumed_samples": 1304064, "global_step/max_steps": "5094/6350"}
{"lm loss": 4.8643384, "grad_norm": 0.42167166, "learning_rate": 1.3e-05, "elapsed_time_per_iteration": 4.72717142, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 0s", "remaining_time": "1h 41m 14s", "loss_scale": 1.0, "consumed_samples": 1304320, "global_step/max_steps": "5095/6350"}
{"lm loss": 4.85633612, "grad_norm": 0.403541, "learning_rate": 1.298e-05, "elapsed_time_per_iteration": 4.70858073, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 5s", "remaining_time": "1h 41m 9s", "loss_scale": 1.0, "consumed_samples": 1304576, "global_step/max_steps": "5096/6350"}
{"lm loss": 4.86631823, "grad_norm": 0.3934415, "learning_rate": 1.296e-05, "elapsed_time_per_iteration": 4.73142576, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 9s", "remaining_time": "1h 41m 4s", "loss_scale": 1.0, "consumed_samples": 1304832, "global_step/max_steps": "5097/6350"}
{"lm loss": 4.84976387, "grad_norm": 0.45870501, "learning_rate": 1.295e-05, "elapsed_time_per_iteration": 4.73791718, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 14s", "remaining_time": "1h 40m 59s", "loss_scale": 1.0, "consumed_samples": 1305088, "global_step/max_steps": "5098/6350"}
{"lm loss": 4.89096117, "grad_norm": 0.40811369, "learning_rate": 1.293e-05, "elapsed_time_per_iteration": 4.70690989, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 19s", "remaining_time": "1h 40m 54s", "loss_scale": 1.0, "consumed_samples": 1305344, "global_step/max_steps": "5099/6350"}
{"lm loss": 4.85653687, "grad_norm": 0.40018076, "learning_rate": 1.292e-05, "elapsed_time_per_iteration": 4.79492521, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 24s", "remaining_time": "1h 40m 50s", "loss_scale": 1.0, "consumed_samples": 1305600, "global_step/max_steps": "5100/6350"}
{"lm loss": 4.87650871, "grad_norm": 0.41395128, "learning_rate": 1.29e-05, "elapsed_time_per_iteration": 4.82219696, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 29s", "remaining_time": "1h 40m 45s", "loss_scale": 1.0, "consumed_samples": 1305856, "global_step/max_steps": "5101/6350"}
{"lm loss": 4.85623312, "grad_norm": 0.39694932, "learning_rate": 1.289e-05, "elapsed_time_per_iteration": 4.72988033, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 33s", "remaining_time": "1h 40m 40s", "loss_scale": 1.0, "consumed_samples": 1306112, "global_step/max_steps": "5102/6350"}
{"lm loss": 4.86155891, "grad_norm": 0.41156092, "learning_rate": 1.287e-05, "elapsed_time_per_iteration": 4.72831059, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 38s", "remaining_time": "1h 40m 35s", "loss_scale": 1.0, "consumed_samples": 1306368, "global_step/max_steps": "5103/6350"}
{"lm loss": 4.86898947, "grad_norm": 0.4200713, "learning_rate": 1.286e-05, "elapsed_time_per_iteration": 4.8193109, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 43s", "remaining_time": "1h 40m 30s", "loss_scale": 1.0, "consumed_samples": 1306624, "global_step/max_steps": "5104/6350"}
{"lm loss": 4.87785912, "grad_norm": 0.39000031, "learning_rate": 1.284e-05, "elapsed_time_per_iteration": 4.72215629, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 48s", "remaining_time": "1h 40m 25s", "loss_scale": 1.0, "consumed_samples": 1306880, "global_step/max_steps": "5105/6350"}
{"lm loss": 4.84995031, "grad_norm": 0.38720003, "learning_rate": 1.283e-05, "elapsed_time_per_iteration": 4.7873857, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 52s", "remaining_time": "1h 40m 20s", "loss_scale": 1.0, "consumed_samples": 1307136, "global_step/max_steps": "5106/6350"}
{"lm loss": 4.86640835, "grad_norm": 0.40963882, "learning_rate": 1.281e-05, "elapsed_time_per_iteration": 4.68489647, "memory(GiB)": 28.03, "elapsed_time": "6h 51m 57s", "remaining_time": "1h 40m 16s", "loss_scale": 1.0, "consumed_samples": 1307392, "global_step/max_steps": "5107/6350"}
{"lm loss": 4.85185146, "grad_norm": 0.38194898, "learning_rate": 1.28e-05, "elapsed_time_per_iteration": 4.78652549, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 2s", "remaining_time": "1h 40m 11s", "loss_scale": 1.0, "consumed_samples": 1307648, "global_step/max_steps": "5108/6350"}
{"lm loss": 4.89460897, "grad_norm": 0.40837848, "learning_rate": 1.278e-05, "elapsed_time_per_iteration": 4.77923512, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 7s", "remaining_time": "1h 40m 6s", "loss_scale": 1.0, "consumed_samples": 1307904, "global_step/max_steps": "5109/6350"}
{"lm loss": 4.85090065, "grad_norm": 0.37825084, "learning_rate": 1.277e-05, "elapsed_time_per_iteration": 4.81827283, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 11s", "remaining_time": "1h 40m 1s", "loss_scale": 1.0, "consumed_samples": 1308160, "global_step/max_steps": "5110/6350"}
{"lm loss": 4.88506746, "grad_norm": 0.38929924, "learning_rate": 1.275e-05, "elapsed_time_per_iteration": 4.82644248, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 16s", "remaining_time": "1h 39m 56s", "loss_scale": 1.0, "consumed_samples": 1308416, "global_step/max_steps": "5111/6350"}
{"lm loss": 4.87691832, "grad_norm": 0.41700235, "learning_rate": 1.274e-05, "elapsed_time_per_iteration": 4.73531199, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 21s", "remaining_time": "1h 39m 51s", "loss_scale": 1.0, "consumed_samples": 1308672, "global_step/max_steps": "5112/6350"}
{"lm loss": 4.87088633, "grad_norm": 0.37970865, "learning_rate": 1.272e-05, "elapsed_time_per_iteration": 4.73931098, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 26s", "remaining_time": "1h 39m 46s", "loss_scale": 1.0, "consumed_samples": 1308928, "global_step/max_steps": "5113/6350"}
{"lm loss": 4.84459829, "grad_norm": 0.40573391, "learning_rate": 1.271e-05, "elapsed_time_per_iteration": 4.8063941, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 31s", "remaining_time": "1h 39m 42s", "loss_scale": 1.0, "consumed_samples": 1309184, "global_step/max_steps": "5114/6350"}
{"lm loss": 4.87662888, "grad_norm": 0.43138558, "learning_rate": 1.269e-05, "elapsed_time_per_iteration": 4.70537639, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 35s", "remaining_time": "1h 39m 37s", "loss_scale": 1.0, "consumed_samples": 1309440, "global_step/max_steps": "5115/6350"}
{"lm loss": 4.86618471, "grad_norm": 0.37777206, "learning_rate": 1.267e-05, "elapsed_time_per_iteration": 4.74102998, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 40s", "remaining_time": "1h 39m 32s", "loss_scale": 1.0, "consumed_samples": 1309696, "global_step/max_steps": "5116/6350"}
{"lm loss": 4.87586212, "grad_norm": 0.38279301, "learning_rate": 1.266e-05, "elapsed_time_per_iteration": 4.79921317, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 45s", "remaining_time": "1h 39m 27s", "loss_scale": 1.0, "consumed_samples": 1309952, "global_step/max_steps": "5117/6350"}
{"lm loss": 4.8722887, "grad_norm": 0.37904784, "learning_rate": 1.264e-05, "elapsed_time_per_iteration": 5.56823325, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 50s", "remaining_time": "1h 39m 22s", "loss_scale": 1.0, "consumed_samples": 1310208, "global_step/max_steps": "5118/6350"}
{"lm loss": 4.86578512, "grad_norm": 0.3727099, "learning_rate": 1.263e-05, "elapsed_time_per_iteration": 5.00658846, "memory(GiB)": 28.03, "elapsed_time": "6h 52m 55s", "remaining_time": "1h 39m 18s", "loss_scale": 1.0, "consumed_samples": 1310464, "global_step/max_steps": "5119/6350"}
{"lm loss": 4.88138628, "grad_norm": 0.36690614, "learning_rate": 1.261e-05, "elapsed_time_per_iteration": 5.66893363, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 1s", "remaining_time": "1h 39m 13s", "loss_scale": 1.0, "consumed_samples": 1310720, "global_step/max_steps": "5120/6350"}
{"lm loss": 4.8682766, "grad_norm": 0.39594898, "learning_rate": 1.26e-05, "elapsed_time_per_iteration": 4.87965655, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 6s", "remaining_time": "1h 39m 8s", "loss_scale": 1.0, "consumed_samples": 1310976, "global_step/max_steps": "5121/6350"}
{"lm loss": 4.86250973, "grad_norm": 0.37116078, "learning_rate": 1.258e-05, "elapsed_time_per_iteration": 4.78288484, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 11s", "remaining_time": "1h 39m 3s", "loss_scale": 1.0, "consumed_samples": 1311232, "global_step/max_steps": "5122/6350"}
{"lm loss": 4.84679174, "grad_norm": 0.38223261, "learning_rate": 1.257e-05, "elapsed_time_per_iteration": 5.5257225, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 16s", "remaining_time": "1h 38m 59s", "loss_scale": 1.0, "consumed_samples": 1311488, "global_step/max_steps": "5123/6350"}
{"lm loss": 4.83745432, "grad_norm": 0.38814723, "learning_rate": 1.255e-05, "elapsed_time_per_iteration": 4.77190948, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 21s", "remaining_time": "1h 38m 54s", "loss_scale": 1.0, "consumed_samples": 1311744, "global_step/max_steps": "5124/6350"}
{"lm loss": 4.8775177, "grad_norm": 0.39919609, "learning_rate": 1.254e-05, "elapsed_time_per_iteration": 4.77021933, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 26s", "remaining_time": "1h 38m 49s", "loss_scale": 1.0, "consumed_samples": 1312000, "global_step/max_steps": "5125/6350"}
{"lm loss": 4.87490797, "grad_norm": 0.37682262, "learning_rate": 1.252e-05, "elapsed_time_per_iteration": 4.74177432, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 30s", "remaining_time": "1h 38m 44s", "loss_scale": 1.0, "consumed_samples": 1312256, "global_step/max_steps": "5126/6350"}
{"lm loss": 4.87654161, "grad_norm": 0.38144588, "learning_rate": 1.251e-05, "elapsed_time_per_iteration": 5.61997461, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 36s", "remaining_time": "1h 38m 39s", "loss_scale": 1.0, "consumed_samples": 1312512, "global_step/max_steps": "5127/6350"}
{"lm loss": 4.87542248, "grad_norm": 0.39657673, "learning_rate": 1.249e-05, "elapsed_time_per_iteration": 4.7734592, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 41s", "remaining_time": "1h 38m 34s", "loss_scale": 1.0, "consumed_samples": 1312768, "global_step/max_steps": "5128/6350"}
{"lm loss": 4.87461185, "grad_norm": 0.38533032, "learning_rate": 1.248e-05, "elapsed_time_per_iteration": 4.78381515, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 46s", "remaining_time": "1h 38m 30s", "loss_scale": 1.0, "consumed_samples": 1313024, "global_step/max_steps": "5129/6350"}
{"lm loss": 4.85792828, "grad_norm": 0.41059664, "learning_rate": 1.246e-05, "elapsed_time_per_iteration": 4.7306993, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 50s", "remaining_time": "1h 38m 25s", "loss_scale": 1.0, "consumed_samples": 1313280, "global_step/max_steps": "5130/6350"}
{"lm loss": 4.86852312, "grad_norm": 0.41370222, "learning_rate": 1.245e-05, "elapsed_time_per_iteration": 5.52902389, "memory(GiB)": 28.03, "elapsed_time": "6h 53m 56s", "remaining_time": "1h 38m 20s", "loss_scale": 1.0, "consumed_samples": 1313536, "global_step/max_steps": "5131/6350"}
{"lm loss": 4.87640572, "grad_norm": 0.38767645, "learning_rate": 1.243e-05, "elapsed_time_per_iteration": 5.64522862, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 2s", "remaining_time": "1h 38m 15s", "loss_scale": 1.0, "consumed_samples": 1313792, "global_step/max_steps": "5132/6350"}
{"lm loss": 4.86662149, "grad_norm": 0.39071915, "learning_rate": 1.242e-05, "elapsed_time_per_iteration": 4.81642938, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 6s", "remaining_time": "1h 38m 11s", "loss_scale": 1.0, "consumed_samples": 1314048, "global_step/max_steps": "5133/6350"}
{"lm loss": 4.88156652, "grad_norm": 0.41297016, "learning_rate": 1.24e-05, "elapsed_time_per_iteration": 5.16244411, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 12s", "remaining_time": "1h 38m 6s", "loss_scale": 1.0, "consumed_samples": 1314304, "global_step/max_steps": "5134/6350"}
{"lm loss": 4.86981344, "grad_norm": 0.37818229, "learning_rate": 1.239e-05, "elapsed_time_per_iteration": 4.78027868, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 16s", "remaining_time": "1h 38m 1s", "loss_scale": 1.0, "consumed_samples": 1314560, "global_step/max_steps": "5135/6350"}
{"lm loss": 4.84968662, "grad_norm": 0.38861489, "learning_rate": 1.237e-05, "elapsed_time_per_iteration": 5.66687346, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 22s", "remaining_time": "1h 37m 56s", "loss_scale": 1.0, "consumed_samples": 1314816, "global_step/max_steps": "5136/6350"}
{"lm loss": 4.8586421, "grad_norm": 0.39656621, "learning_rate": 1.236e-05, "elapsed_time_per_iteration": 4.79523683, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 27s", "remaining_time": "1h 37m 51s", "loss_scale": 1.0, "consumed_samples": 1315072, "global_step/max_steps": "5137/6350"}
{"lm loss": 4.87345648, "grad_norm": 0.38839692, "learning_rate": 1.234e-05, "elapsed_time_per_iteration": 4.78565264, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 32s", "remaining_time": "1h 37m 47s", "loss_scale": 1.0, "consumed_samples": 1315328, "global_step/max_steps": "5138/6350"}
{"lm loss": 4.86422873, "grad_norm": 0.38585597, "learning_rate": 1.233e-05, "elapsed_time_per_iteration": 4.79585505, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 36s", "remaining_time": "1h 37m 42s", "loss_scale": 1.0, "consumed_samples": 1315584, "global_step/max_steps": "5139/6350"}
{"lm loss": 4.88030386, "grad_norm": 0.37421167, "learning_rate": 1.231e-05, "elapsed_time_per_iteration": 4.75349188, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 41s", "remaining_time": "1h 37m 37s", "loss_scale": 1.0, "consumed_samples": 1315840, "global_step/max_steps": "5140/6350"}
{"lm loss": 4.89468241, "grad_norm": 0.40161228, "learning_rate": 1.23e-05, "elapsed_time_per_iteration": 4.72075939, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 46s", "remaining_time": "1h 37m 32s", "loss_scale": 1.0, "consumed_samples": 1316096, "global_step/max_steps": "5141/6350"}
{"lm loss": 4.87473965, "grad_norm": 0.40539384, "learning_rate": 1.228e-05, "elapsed_time_per_iteration": 4.72938681, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 51s", "remaining_time": "1h 37m 27s", "loss_scale": 1.0, "consumed_samples": 1316352, "global_step/max_steps": "5142/6350"}
{"lm loss": 4.90033531, "grad_norm": 0.38003564, "learning_rate": 1.227e-05, "elapsed_time_per_iteration": 4.79904556, "memory(GiB)": 28.03, "elapsed_time": "6h 54m 55s", "remaining_time": "1h 37m 22s", "loss_scale": 1.0, "consumed_samples": 1316608, "global_step/max_steps": "5143/6350"}
{"lm loss": 4.86482, "grad_norm": 0.41174918, "learning_rate": 1.226e-05, "elapsed_time_per_iteration": 4.7630024, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 0s", "remaining_time": "1h 37m 17s", "loss_scale": 1.0, "consumed_samples": 1316864, "global_step/max_steps": "5144/6350"}
{"lm loss": 4.86164427, "grad_norm": 0.4190872, "learning_rate": 1.224e-05, "elapsed_time_per_iteration": 4.74333787, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 5s", "remaining_time": "1h 37m 13s", "loss_scale": 1.0, "consumed_samples": 1317120, "global_step/max_steps": "5145/6350"}
{"lm loss": 4.85308838, "grad_norm": 0.37013483, "learning_rate": 1.223e-05, "elapsed_time_per_iteration": 4.7415967, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 10s", "remaining_time": "1h 37m 8s", "loss_scale": 1.0, "consumed_samples": 1317376, "global_step/max_steps": "5146/6350"}
{"lm loss": 4.89018679, "grad_norm": 0.39211741, "learning_rate": 1.221e-05, "elapsed_time_per_iteration": 4.70849156, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 14s", "remaining_time": "1h 37m 3s", "loss_scale": 1.0, "consumed_samples": 1317632, "global_step/max_steps": "5147/6350"}
{"lm loss": 4.87189627, "grad_norm": 0.41680834, "learning_rate": 1.22e-05, "elapsed_time_per_iteration": 4.7758646, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 19s", "remaining_time": "1h 36m 58s", "loss_scale": 1.0, "consumed_samples": 1317888, "global_step/max_steps": "5148/6350"}
{"lm loss": 4.86329365, "grad_norm": 0.38785824, "learning_rate": 1.218e-05, "elapsed_time_per_iteration": 4.77816749, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 24s", "remaining_time": "1h 36m 53s", "loss_scale": 1.0, "consumed_samples": 1318144, "global_step/max_steps": "5149/6350"}
{"lm loss": 4.85872555, "grad_norm": 0.37202528, "learning_rate": 1.217e-05, "elapsed_time_per_iteration": 4.75131416, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 29s", "remaining_time": "1h 36m 48s", "loss_scale": 1.0, "consumed_samples": 1318400, "global_step/max_steps": "5150/6350"}
{"lm loss": 4.86400032, "grad_norm": 0.38597065, "learning_rate": 1.215e-05, "elapsed_time_per_iteration": 4.71427274, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 33s", "remaining_time": "1h 36m 43s", "loss_scale": 1.0, "consumed_samples": 1318656, "global_step/max_steps": "5151/6350"}
{"lm loss": 4.88651276, "grad_norm": 0.40193599, "learning_rate": 1.214e-05, "elapsed_time_per_iteration": 4.81683469, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 38s", "remaining_time": "1h 36m 39s", "loss_scale": 1.0, "consumed_samples": 1318912, "global_step/max_steps": "5152/6350"}
{"lm loss": 4.86759329, "grad_norm": 0.87219149, "learning_rate": 1.212e-05, "elapsed_time_per_iteration": 4.7284441, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 43s", "remaining_time": "1h 36m 34s", "loss_scale": 1.0, "consumed_samples": 1319168, "global_step/max_steps": "5153/6350"}
{"lm loss": 4.87515831, "grad_norm": 0.42197141, "learning_rate": 1.211e-05, "elapsed_time_per_iteration": 4.76072598, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 48s", "remaining_time": "1h 36m 29s", "loss_scale": 1.0, "consumed_samples": 1319424, "global_step/max_steps": "5154/6350"}
{"lm loss": 4.86887121, "grad_norm": 0.39296463, "learning_rate": 1.209e-05, "elapsed_time_per_iteration": 4.77115154, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 52s", "remaining_time": "1h 36m 24s", "loss_scale": 1.0, "consumed_samples": 1319680, "global_step/max_steps": "5155/6350"}
{"lm loss": 4.87781858, "grad_norm": 0.40774757, "learning_rate": 1.208e-05, "elapsed_time_per_iteration": 5.04844594, "memory(GiB)": 28.03, "elapsed_time": "6h 55m 57s", "remaining_time": "1h 36m 19s", "loss_scale": 1.0, "consumed_samples": 1319936, "global_step/max_steps": "5156/6350"}
{"lm loss": 4.83125734, "grad_norm": 0.40873703, "learning_rate": 1.206e-05, "elapsed_time_per_iteration": 4.7481668, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 2s", "remaining_time": "1h 36m 14s", "loss_scale": 1.0, "consumed_samples": 1320192, "global_step/max_steps": "5157/6350"}
{"lm loss": 4.87174225, "grad_norm": 0.41139138, "learning_rate": 1.205e-05, "elapsed_time_per_iteration": 4.80282831, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 7s", "remaining_time": "1h 36m 9s", "loss_scale": 1.0, "consumed_samples": 1320448, "global_step/max_steps": "5158/6350"}
{"lm loss": 4.84654522, "grad_norm": 0.41053322, "learning_rate": 1.203e-05, "elapsed_time_per_iteration": 4.99286437, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 12s", "remaining_time": "1h 36m 5s", "loss_scale": 1.0, "consumed_samples": 1320704, "global_step/max_steps": "5159/6350"}
{"lm loss": 4.87651634, "grad_norm": 0.39756334, "learning_rate": 1.202e-05, "elapsed_time_per_iteration": 4.73801112, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 17s", "remaining_time": "1h 36m 0s", "loss_scale": 1.0, "consumed_samples": 1320960, "global_step/max_steps": "5160/6350"}
{"lm loss": 4.86409807, "grad_norm": 0.40742019, "learning_rate": 1.2e-05, "elapsed_time_per_iteration": 4.80293274, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 22s", "remaining_time": "1h 35m 55s", "loss_scale": 1.0, "consumed_samples": 1321216, "global_step/max_steps": "5161/6350"}
{"lm loss": 4.85716867, "grad_norm": 0.40668404, "learning_rate": 1.199e-05, "elapsed_time_per_iteration": 5.1021347, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 27s", "remaining_time": "1h 35m 50s", "loss_scale": 1.0, "consumed_samples": 1321472, "global_step/max_steps": "5162/6350"}
{"lm loss": 4.87737417, "grad_norm": 0.41620961, "learning_rate": 1.198e-05, "elapsed_time_per_iteration": 5.58285332, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 32s", "remaining_time": "1h 35m 45s", "loss_scale": 1.0, "consumed_samples": 1321728, "global_step/max_steps": "5163/6350"}
{"lm loss": 4.84755468, "grad_norm": 0.41308481, "learning_rate": 1.196e-05, "elapsed_time_per_iteration": 4.84749579, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 37s", "remaining_time": "1h 35m 41s", "loss_scale": 1.0, "consumed_samples": 1321984, "global_step/max_steps": "5164/6350"}
{"lm loss": 4.87789297, "grad_norm": 0.42173836, "learning_rate": 1.195e-05, "elapsed_time_per_iteration": 4.75426078, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 42s", "remaining_time": "1h 35m 36s", "loss_scale": 1.0, "consumed_samples": 1322240, "global_step/max_steps": "5165/6350"}
{"lm loss": 4.85610867, "grad_norm": 0.4089818, "learning_rate": 1.193e-05, "elapsed_time_per_iteration": 4.7667408, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 47s", "remaining_time": "1h 35m 31s", "loss_scale": 1.0, "consumed_samples": 1322496, "global_step/max_steps": "5166/6350"}
{"lm loss": 4.88260937, "grad_norm": 0.41637427, "learning_rate": 1.192e-05, "elapsed_time_per_iteration": 4.8954699, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 51s", "remaining_time": "1h 35m 26s", "loss_scale": 1.0, "consumed_samples": 1322752, "global_step/max_steps": "5167/6350"}
{"lm loss": 4.84849787, "grad_norm": 0.3993313, "learning_rate": 1.19e-05, "elapsed_time_per_iteration": 5.03485537, "memory(GiB)": 28.03, "elapsed_time": "6h 56m 57s", "remaining_time": "1h 35m 21s", "loss_scale": 1.0, "consumed_samples": 1323008, "global_step/max_steps": "5168/6350"}
{"lm loss": 4.87924099, "grad_norm": 0.39837718, "learning_rate": 1.189e-05, "elapsed_time_per_iteration": 5.02327824, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 2s", "remaining_time": "1h 35m 16s", "loss_scale": 1.0, "consumed_samples": 1323264, "global_step/max_steps": "5169/6350"}
{"lm loss": 4.86422825, "grad_norm": 0.39931732, "learning_rate": 1.187e-05, "elapsed_time_per_iteration": 4.76162028, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 6s", "remaining_time": "1h 35m 12s", "loss_scale": 1.0, "consumed_samples": 1323520, "global_step/max_steps": "5170/6350"}
{"lm loss": 4.84740543, "grad_norm": 0.41951481, "learning_rate": 1.186e-05, "elapsed_time_per_iteration": 4.77661419, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 11s", "remaining_time": "1h 35m 7s", "loss_scale": 1.0, "consumed_samples": 1323776, "global_step/max_steps": "5171/6350"}
{"lm loss": 4.87419128, "grad_norm": 0.3804321, "learning_rate": 1.184e-05, "elapsed_time_per_iteration": 5.481323, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 17s", "remaining_time": "1h 35m 2s", "loss_scale": 1.0, "consumed_samples": 1324032, "global_step/max_steps": "5172/6350"}
{"lm loss": 4.87582541, "grad_norm": 0.42397085, "learning_rate": 1.183e-05, "elapsed_time_per_iteration": 5.58534622, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 22s", "remaining_time": "1h 34m 57s", "loss_scale": 1.0, "consumed_samples": 1324288, "global_step/max_steps": "5173/6350"}
{"lm loss": 4.85155249, "grad_norm": 0.38933131, "learning_rate": 1.181e-05, "elapsed_time_per_iteration": 4.76283765, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 27s", "remaining_time": "1h 34m 53s", "loss_scale": 1.0, "consumed_samples": 1324544, "global_step/max_steps": "5174/6350"}
{"lm loss": 4.85248518, "grad_norm": 0.4104425, "learning_rate": 1.18e-05, "elapsed_time_per_iteration": 4.80094576, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 32s", "remaining_time": "1h 34m 48s", "loss_scale": 1.0, "consumed_samples": 1324800, "global_step/max_steps": "5175/6350"}
{"lm loss": 4.85757637, "grad_norm": 0.38996682, "learning_rate": 1.179e-05, "elapsed_time_per_iteration": 4.7846334, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 37s", "remaining_time": "1h 34m 43s", "loss_scale": 1.0, "consumed_samples": 1325056, "global_step/max_steps": "5176/6350"}
{"lm loss": 4.87734795, "grad_norm": 0.40796462, "learning_rate": 1.177e-05, "elapsed_time_per_iteration": 4.78426719, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 41s", "remaining_time": "1h 34m 38s", "loss_scale": 1.0, "consumed_samples": 1325312, "global_step/max_steps": "5177/6350"}
{"lm loss": 4.89155054, "grad_norm": 0.4080773, "learning_rate": 1.176e-05, "elapsed_time_per_iteration": 4.75797415, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 46s", "remaining_time": "1h 34m 33s", "loss_scale": 1.0, "consumed_samples": 1325568, "global_step/max_steps": "5178/6350"}
{"lm loss": 4.85647154, "grad_norm": 0.38712761, "learning_rate": 1.174e-05, "elapsed_time_per_iteration": 4.73848295, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 51s", "remaining_time": "1h 34m 28s", "loss_scale": 1.0, "consumed_samples": 1325824, "global_step/max_steps": "5179/6350"}
{"lm loss": 4.88827276, "grad_norm": 0.43427372, "learning_rate": 1.173e-05, "elapsed_time_per_iteration": 4.78283548, "memory(GiB)": 28.03, "elapsed_time": "6h 57m 56s", "remaining_time": "1h 34m 23s", "loss_scale": 1.0, "consumed_samples": 1326080, "global_step/max_steps": "5180/6350"}
{"lm loss": 4.86626768, "grad_norm": 0.38709146, "learning_rate": 1.171e-05, "elapsed_time_per_iteration": 4.76525879, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 0s", "remaining_time": "1h 34m 19s", "loss_scale": 1.0, "consumed_samples": 1326336, "global_step/max_steps": "5181/6350"}
{"lm loss": 4.86545658, "grad_norm": 0.40417972, "learning_rate": 1.17e-05, "elapsed_time_per_iteration": 5.54625726, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 6s", "remaining_time": "1h 34m 14s", "loss_scale": 1.0, "consumed_samples": 1326592, "global_step/max_steps": "5182/6350"}
{"lm loss": 4.8724041, "grad_norm": 0.64647222, "learning_rate": 1.168e-05, "elapsed_time_per_iteration": 4.71587467, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 11s", "remaining_time": "1h 34m 9s", "loss_scale": 1.0, "consumed_samples": 1326848, "global_step/max_steps": "5183/6350"}
{"lm loss": 4.84666395, "grad_norm": 0.38166282, "learning_rate": 1.167e-05, "elapsed_time_per_iteration": 4.77232623, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 15s", "remaining_time": "1h 34m 4s", "loss_scale": 1.0, "consumed_samples": 1327104, "global_step/max_steps": "5184/6350"}
{"lm loss": 4.87884903, "grad_norm": 0.42527387, "learning_rate": 1.166e-05, "elapsed_time_per_iteration": 4.71205783, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 20s", "remaining_time": "1h 33m 59s", "loss_scale": 1.0, "consumed_samples": 1327360, "global_step/max_steps": "5185/6350"}
{"lm loss": 4.88025713, "grad_norm": 0.37887332, "learning_rate": 1.164e-05, "elapsed_time_per_iteration": 5.25272322, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 25s", "remaining_time": "1h 33m 55s", "loss_scale": 1.0, "consumed_samples": 1327616, "global_step/max_steps": "5186/6350"}
{"lm loss": 4.83950949, "grad_norm": 0.37454426, "learning_rate": 1.163e-05, "elapsed_time_per_iteration": 5.42713904, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 31s", "remaining_time": "1h 33m 50s", "loss_scale": 1.0, "consumed_samples": 1327872, "global_step/max_steps": "5187/6350"}
{"lm loss": 4.87469864, "grad_norm": 0.37330946, "learning_rate": 1.161e-05, "elapsed_time_per_iteration": 4.81237459, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 36s", "remaining_time": "1h 33m 45s", "loss_scale": 1.0, "consumed_samples": 1328128, "global_step/max_steps": "5188/6350"}
{"lm loss": 4.88900232, "grad_norm": 0.3675811, "learning_rate": 1.16e-05, "elapsed_time_per_iteration": 4.78860497, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 40s", "remaining_time": "1h 33m 40s", "loss_scale": 1.0, "consumed_samples": 1328384, "global_step/max_steps": "5189/6350"}
{"lm loss": 4.87449312, "grad_norm": 0.3922134, "learning_rate": 1.158e-05, "elapsed_time_per_iteration": 4.81074929, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 45s", "remaining_time": "1h 33m 35s", "loss_scale": 1.0, "consumed_samples": 1328640, "global_step/max_steps": "5190/6350"}
{"lm loss": 4.87677526, "grad_norm": 0.40432316, "learning_rate": 1.157e-05, "elapsed_time_per_iteration": 5.40560603, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 51s", "remaining_time": "1h 33m 31s", "loss_scale": 1.0, "consumed_samples": 1328896, "global_step/max_steps": "5191/6350"}
{"lm loss": 4.8449626, "grad_norm": 0.36910298, "learning_rate": 1.156e-05, "elapsed_time_per_iteration": 4.83145237, "memory(GiB)": 28.03, "elapsed_time": "6h 58m 55s", "remaining_time": "1h 33m 26s", "loss_scale": 1.0, "consumed_samples": 1329152, "global_step/max_steps": "5192/6350"}
{"lm loss": 4.86672258, "grad_norm": 0.87290281, "learning_rate": 1.154e-05, "elapsed_time_per_iteration": 4.72980285, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 0s", "remaining_time": "1h 33m 21s", "loss_scale": 1.0, "consumed_samples": 1329408, "global_step/max_steps": "5193/6350"}
{"lm loss": 4.86295128, "grad_norm": 0.41370314, "learning_rate": 1.153e-05, "elapsed_time_per_iteration": 4.69310641, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 5s", "remaining_time": "1h 33m 16s", "loss_scale": 1.0, "consumed_samples": 1329664, "global_step/max_steps": "5194/6350"}
{"lm loss": 4.86965084, "grad_norm": 0.37314254, "learning_rate": 1.151e-05, "elapsed_time_per_iteration": 4.72883797, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 10s", "remaining_time": "1h 33m 11s", "loss_scale": 1.0, "consumed_samples": 1329920, "global_step/max_steps": "5195/6350"}
{"lm loss": 4.8832078, "grad_norm": 0.39697438, "learning_rate": 1.15e-05, "elapsed_time_per_iteration": 4.69355583, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 14s", "remaining_time": "1h 33m 6s", "loss_scale": 1.0, "consumed_samples": 1330176, "global_step/max_steps": "5196/6350"}
{"lm loss": 4.84628248, "grad_norm": 0.40441439, "learning_rate": 1.148e-05, "elapsed_time_per_iteration": 4.78266859, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 19s", "remaining_time": "1h 33m 1s", "loss_scale": 1.0, "consumed_samples": 1330432, "global_step/max_steps": "5197/6350"}
{"lm loss": 4.89103651, "grad_norm": 0.39498422, "learning_rate": 1.147e-05, "elapsed_time_per_iteration": 4.75952268, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 24s", "remaining_time": "1h 32m 57s", "loss_scale": 1.0, "consumed_samples": 1330688, "global_step/max_steps": "5198/6350"}
{"lm loss": 4.86309481, "grad_norm": 0.43588221, "learning_rate": 1.146e-05, "elapsed_time_per_iteration": 4.80147004, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 29s", "remaining_time": "1h 32m 52s", "loss_scale": 1.0, "consumed_samples": 1330944, "global_step/max_steps": "5199/6350"}
{"lm loss": 4.85447407, "grad_norm": 0.37316898, "learning_rate": 1.144e-05, "elapsed_time_per_iteration": 4.87469649, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 33s", "remaining_time": "1h 32m 47s", "loss_scale": 1.0, "consumed_samples": 1331200, "global_step/max_steps": "5200/6350"}
{"lm loss": 4.87656879, "grad_norm": 0.39794844, "learning_rate": 1.143e-05, "elapsed_time_per_iteration": 4.83241343, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 38s", "remaining_time": "1h 32m 42s", "loss_scale": 1.0, "consumed_samples": 1331456, "global_step/max_steps": "5201/6350"}
{"lm loss": 4.88875151, "grad_norm": 0.96519786, "learning_rate": 1.141e-05, "elapsed_time_per_iteration": 4.75722122, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 43s", "remaining_time": "1h 32m 37s", "loss_scale": 1.0, "consumed_samples": 1331712, "global_step/max_steps": "5202/6350"}
{"lm loss": 4.88797951, "grad_norm": 0.39995283, "learning_rate": 1.14e-05, "elapsed_time_per_iteration": 5.5949471, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 49s", "remaining_time": "1h 32m 32s", "loss_scale": 1.0, "consumed_samples": 1331968, "global_step/max_steps": "5203/6350"}
{"lm loss": 4.85748482, "grad_norm": 0.44103718, "learning_rate": 1.138e-05, "elapsed_time_per_iteration": 4.78136349, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 53s", "remaining_time": "1h 32m 28s", "loss_scale": 1.0, "consumed_samples": 1332224, "global_step/max_steps": "5204/6350"}
{"lm loss": 4.86068058, "grad_norm": 0.38487977, "learning_rate": 1.137e-05, "elapsed_time_per_iteration": 4.8594718, "memory(GiB)": 28.03, "elapsed_time": "6h 59m 58s", "remaining_time": "1h 32m 23s", "loss_scale": 1.0, "consumed_samples": 1332480, "global_step/max_steps": "5205/6350"}
{"lm loss": 4.86110878, "grad_norm": 0.37336621, "learning_rate": 1.136e-05, "elapsed_time_per_iteration": 4.78878498, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 3s", "remaining_time": "1h 32m 18s", "loss_scale": 1.0, "consumed_samples": 1332736, "global_step/max_steps": "5206/6350"}
{"lm loss": 4.89492369, "grad_norm": 0.39150232, "learning_rate": 1.134e-05, "elapsed_time_per_iteration": 4.85221052, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 8s", "remaining_time": "1h 32m 13s", "loss_scale": 1.0, "consumed_samples": 1332992, "global_step/max_steps": "5207/6350"}
{"lm loss": 4.83976221, "grad_norm": 0.38187268, "learning_rate": 1.133e-05, "elapsed_time_per_iteration": 4.8344152, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 13s", "remaining_time": "1h 32m 8s", "loss_scale": 1.0, "consumed_samples": 1333248, "global_step/max_steps": "5208/6350"}
{"lm loss": 4.85495329, "grad_norm": 0.38209429, "learning_rate": 1.131e-05, "elapsed_time_per_iteration": 4.74432278, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 18s", "remaining_time": "1h 32m 3s", "loss_scale": 1.0, "consumed_samples": 1333504, "global_step/max_steps": "5209/6350"}
{"lm loss": 4.85797453, "grad_norm": 0.39629984, "learning_rate": 1.13e-05, "elapsed_time_per_iteration": 4.76214576, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 22s", "remaining_time": "1h 31m 58s", "loss_scale": 1.0, "consumed_samples": 1333760, "global_step/max_steps": "5210/6350"}
{"lm loss": 4.85207176, "grad_norm": 0.39937317, "learning_rate": 1.129e-05, "elapsed_time_per_iteration": 4.7904036, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 27s", "remaining_time": "1h 31m 54s", "loss_scale": 1.0, "consumed_samples": 1334016, "global_step/max_steps": "5211/6350"}
{"lm loss": 4.84741306, "grad_norm": 0.37444806, "learning_rate": 1.127e-05, "elapsed_time_per_iteration": 4.72807407, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 32s", "remaining_time": "1h 31m 49s", "loss_scale": 1.0, "consumed_samples": 1334272, "global_step/max_steps": "5212/6350"}
{"lm loss": 4.85780907, "grad_norm": 0.36786389, "learning_rate": 1.126e-05, "elapsed_time_per_iteration": 4.77582455, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 37s", "remaining_time": "1h 31m 44s", "loss_scale": 1.0, "consumed_samples": 1334528, "global_step/max_steps": "5213/6350"}
{"lm loss": 4.87025642, "grad_norm": 1.08758831, "learning_rate": 1.124e-05, "elapsed_time_per_iteration": 4.75779486, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 41s", "remaining_time": "1h 31m 39s", "loss_scale": 1.0, "consumed_samples": 1334784, "global_step/max_steps": "5214/6350"}
{"lm loss": 4.85623121, "grad_norm": 0.38639128, "learning_rate": 1.123e-05, "elapsed_time_per_iteration": 4.70287204, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 46s", "remaining_time": "1h 31m 34s", "loss_scale": 1.0, "consumed_samples": 1335040, "global_step/max_steps": "5215/6350"}
{"lm loss": 4.87586784, "grad_norm": 0.40011826, "learning_rate": 1.121e-05, "elapsed_time_per_iteration": 4.79511786, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 51s", "remaining_time": "1h 31m 29s", "loss_scale": 1.0, "consumed_samples": 1335296, "global_step/max_steps": "5216/6350"}
{"lm loss": 4.87093592, "grad_norm": 0.37583318, "learning_rate": 1.12e-05, "elapsed_time_per_iteration": 4.77521276, "memory(GiB)": 28.03, "elapsed_time": "7h 0m 56s", "remaining_time": "1h 31m 24s", "loss_scale": 1.0, "consumed_samples": 1335552, "global_step/max_steps": "5217/6350"}
{"lm loss": 4.88908577, "grad_norm": 0.48508286, "learning_rate": 1.119e-05, "elapsed_time_per_iteration": 4.72929621, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 0s", "remaining_time": "1h 31m 20s", "loss_scale": 1.0, "consumed_samples": 1335808, "global_step/max_steps": "5218/6350"}
{"lm loss": 4.86200762, "grad_norm": 0.46224365, "learning_rate": 1.117e-05, "elapsed_time_per_iteration": 4.79800391, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 5s", "remaining_time": "1h 31m 15s", "loss_scale": 1.0, "consumed_samples": 1336064, "global_step/max_steps": "5219/6350"}
{"lm loss": 4.86691761, "grad_norm": 0.40608573, "learning_rate": 1.116e-05, "elapsed_time_per_iteration": 4.70959067, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 10s", "remaining_time": "1h 31m 10s", "loss_scale": 1.0, "consumed_samples": 1336320, "global_step/max_steps": "5220/6350"}
{"lm loss": 4.88300562, "grad_norm": 0.42294392, "learning_rate": 1.114e-05, "elapsed_time_per_iteration": 4.78659248, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 15s", "remaining_time": "1h 31m 5s", "loss_scale": 1.0, "consumed_samples": 1336576, "global_step/max_steps": "5221/6350"}
{"lm loss": 4.87898588, "grad_norm": 0.39013711, "learning_rate": 1.113e-05, "elapsed_time_per_iteration": 4.79236531, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 19s", "remaining_time": "1h 31m 0s", "loss_scale": 1.0, "consumed_samples": 1336832, "global_step/max_steps": "5222/6350"}
{"lm loss": 4.87521982, "grad_norm": 0.43728951, "learning_rate": 1.112e-05, "elapsed_time_per_iteration": 4.78368497, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 24s", "remaining_time": "1h 30m 55s", "loss_scale": 1.0, "consumed_samples": 1337088, "global_step/max_steps": "5223/6350"}
{"lm loss": 4.86065674, "grad_norm": 0.35610443, "learning_rate": 1.11e-05, "elapsed_time_per_iteration": 4.79706407, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 29s", "remaining_time": "1h 30m 50s", "loss_scale": 1.0, "consumed_samples": 1337344, "global_step/max_steps": "5224/6350"}
{"lm loss": 4.86330986, "grad_norm": 0.47870994, "learning_rate": 1.109e-05, "elapsed_time_per_iteration": 4.78565216, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 34s", "remaining_time": "1h 30m 46s", "loss_scale": 1.0, "consumed_samples": 1337600, "global_step/max_steps": "5225/6350"}
{"lm loss": 4.87160397, "grad_norm": 0.36030203, "learning_rate": 1.107e-05, "elapsed_time_per_iteration": 4.77815199, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 39s", "remaining_time": "1h 30m 41s", "loss_scale": 1.0, "consumed_samples": 1337856, "global_step/max_steps": "5226/6350"}
{"lm loss": 4.85992289, "grad_norm": 0.37206426, "learning_rate": 1.106e-05, "elapsed_time_per_iteration": 4.74607897, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 43s", "remaining_time": "1h 30m 36s", "loss_scale": 1.0, "consumed_samples": 1338112, "global_step/max_steps": "5227/6350"}
{"lm loss": 4.84817171, "grad_norm": 0.36402705, "learning_rate": 1.105e-05, "elapsed_time_per_iteration": 4.76918197, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 48s", "remaining_time": "1h 30m 31s", "loss_scale": 1.0, "consumed_samples": 1338368, "global_step/max_steps": "5228/6350"}
{"lm loss": 4.85762835, "grad_norm": 0.48223397, "learning_rate": 1.103e-05, "elapsed_time_per_iteration": 4.77370644, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 53s", "remaining_time": "1h 30m 26s", "loss_scale": 1.0, "consumed_samples": 1338624, "global_step/max_steps": "5229/6350"}
{"lm loss": 4.86719942, "grad_norm": 0.37451294, "learning_rate": 1.102e-05, "elapsed_time_per_iteration": 5.60864019, "memory(GiB)": 28.03, "elapsed_time": "7h 1m 58s", "remaining_time": "1h 30m 22s", "loss_scale": 1.0, "consumed_samples": 1338880, "global_step/max_steps": "5230/6350"}
{"lm loss": 4.86751223, "grad_norm": 0.38225573, "learning_rate": 1.1e-05, "elapsed_time_per_iteration": 5.53684211, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 4s", "remaining_time": "1h 30m 17s", "loss_scale": 1.0, "consumed_samples": 1339136, "global_step/max_steps": "5231/6350"}
{"lm loss": 4.85528469, "grad_norm": 0.37701771, "learning_rate": 1.099e-05, "elapsed_time_per_iteration": 4.68688989, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 9s", "remaining_time": "1h 30m 12s", "loss_scale": 1.0, "consumed_samples": 1339392, "global_step/max_steps": "5232/6350"}
{"lm loss": 4.8785429, "grad_norm": 0.37021321, "learning_rate": 1.098e-05, "elapsed_time_per_iteration": 4.70520949, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 13s", "remaining_time": "1h 30m 7s", "loss_scale": 1.0, "consumed_samples": 1339648, "global_step/max_steps": "5233/6350"}
{"lm loss": 4.83938313, "grad_norm": 0.39502653, "learning_rate": 1.096e-05, "elapsed_time_per_iteration": 4.72794509, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 18s", "remaining_time": "1h 30m 2s", "loss_scale": 1.0, "consumed_samples": 1339904, "global_step/max_steps": "5234/6350"}
{"lm loss": 4.86935186, "grad_norm": 0.40264183, "learning_rate": 1.095e-05, "elapsed_time_per_iteration": 5.68715501, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 24s", "remaining_time": "1h 29m 58s", "loss_scale": 1.0, "consumed_samples": 1340160, "global_step/max_steps": "5235/6350"}
{"lm loss": 4.86611748, "grad_norm": 0.38178307, "learning_rate": 1.094e-05, "elapsed_time_per_iteration": 4.67478871, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 28s", "remaining_time": "1h 29m 53s", "loss_scale": 1.0, "consumed_samples": 1340416, "global_step/max_steps": "5236/6350"}
{"lm loss": 4.88996887, "grad_norm": 0.38615426, "learning_rate": 1.092e-05, "elapsed_time_per_iteration": 5.61614466, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 34s", "remaining_time": "1h 29m 48s", "loss_scale": 1.0, "consumed_samples": 1340672, "global_step/max_steps": "5237/6350"}
{"lm loss": 4.86065817, "grad_norm": 0.39465737, "learning_rate": 1.091e-05, "elapsed_time_per_iteration": 4.77273965, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 39s", "remaining_time": "1h 29m 43s", "loss_scale": 1.0, "consumed_samples": 1340928, "global_step/max_steps": "5238/6350"}
{"lm loss": 4.87481165, "grad_norm": 0.35097381, "learning_rate": 1.089e-05, "elapsed_time_per_iteration": 4.72557449, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 44s", "remaining_time": "1h 29m 38s", "loss_scale": 1.0, "consumed_samples": 1341184, "global_step/max_steps": "5239/6350"}
{"lm loss": 4.84731007, "grad_norm": 0.38299069, "learning_rate": 1.088e-05, "elapsed_time_per_iteration": 4.74459529, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 48s", "remaining_time": "1h 29m 33s", "loss_scale": 1.0, "consumed_samples": 1341440, "global_step/max_steps": "5240/6350"}
{"lm loss": 4.85626316, "grad_norm": 0.37531844, "learning_rate": 1.087e-05, "elapsed_time_per_iteration": 4.74420977, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 53s", "remaining_time": "1h 29m 29s", "loss_scale": 1.0, "consumed_samples": 1341696, "global_step/max_steps": "5241/6350"}
{"lm loss": 4.86330986, "grad_norm": 0.36214411, "learning_rate": 1.085e-05, "elapsed_time_per_iteration": 4.7783134, "memory(GiB)": 28.03, "elapsed_time": "7h 2m 58s", "remaining_time": "1h 29m 24s", "loss_scale": 1.0, "consumed_samples": 1341952, "global_step/max_steps": "5242/6350"}
{"lm loss": 4.87838793, "grad_norm": 0.37122533, "learning_rate": 1.084e-05, "elapsed_time_per_iteration": 4.70311546, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 3s", "remaining_time": "1h 29m 19s", "loss_scale": 1.0, "consumed_samples": 1342208, "global_step/max_steps": "5243/6350"}
{"lm loss": 4.85903263, "grad_norm": 0.34251788, "learning_rate": 1.083e-05, "elapsed_time_per_iteration": 4.77420855, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 7s", "remaining_time": "1h 29m 14s", "loss_scale": 1.0, "consumed_samples": 1342464, "global_step/max_steps": "5244/6350"}
{"lm loss": 4.88482571, "grad_norm": 0.40783301, "learning_rate": 1.081e-05, "elapsed_time_per_iteration": 5.63539648, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 13s", "remaining_time": "1h 29m 9s", "loss_scale": 1.0, "consumed_samples": 1342720, "global_step/max_steps": "5245/6350"}
{"lm loss": 4.88245583, "grad_norm": 0.37510797, "learning_rate": 1.08e-05, "elapsed_time_per_iteration": 4.72793913, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 18s", "remaining_time": "1h 29m 4s", "loss_scale": 1.0, "consumed_samples": 1342976, "global_step/max_steps": "5246/6350"}
{"lm loss": 4.87497091, "grad_norm": 0.4089264, "learning_rate": 1.078e-05, "elapsed_time_per_iteration": 4.8105948, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 23s", "remaining_time": "1h 29m 0s", "loss_scale": 1.0, "consumed_samples": 1343232, "global_step/max_steps": "5247/6350"}
{"lm loss": 4.87758589, "grad_norm": 0.43788388, "learning_rate": 1.077e-05, "elapsed_time_per_iteration": 4.83216381, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 27s", "remaining_time": "1h 28m 55s", "loss_scale": 1.0, "consumed_samples": 1343488, "global_step/max_steps": "5248/6350"}
{"lm loss": 4.85939121, "grad_norm": 0.36366805, "learning_rate": 1.076e-05, "elapsed_time_per_iteration": 4.73405361, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 32s", "remaining_time": "1h 28m 50s", "loss_scale": 1.0, "consumed_samples": 1343744, "global_step/max_steps": "5249/6350"}
{"lm loss": 4.85412931, "grad_norm": 0.44277072, "learning_rate": 1.074e-05, "elapsed_time_per_iteration": 4.75693297, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 37s", "remaining_time": "1h 28m 45s", "loss_scale": 1.0, "consumed_samples": 1344000, "global_step/max_steps": "5250/6350"}
{"lm loss": 4.84305716, "grad_norm": 0.39717928, "learning_rate": 1.073e-05, "elapsed_time_per_iteration": 4.72570515, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 42s", "remaining_time": "1h 28m 40s", "loss_scale": 1.0, "consumed_samples": 1344256, "global_step/max_steps": "5251/6350"}
{"lm loss": 4.85516691, "grad_norm": 0.43826649, "learning_rate": 1.072e-05, "elapsed_time_per_iteration": 4.84834814, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 46s", "remaining_time": "1h 28m 35s", "loss_scale": 1.0, "consumed_samples": 1344512, "global_step/max_steps": "5252/6350"}
{"lm loss": 4.86285686, "grad_norm": 0.39939415, "learning_rate": 1.07e-05, "elapsed_time_per_iteration": 4.85649562, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 51s", "remaining_time": "1h 28m 30s", "loss_scale": 1.0, "consumed_samples": 1344768, "global_step/max_steps": "5253/6350"}
{"lm loss": 4.87594986, "grad_norm": 0.42764419, "learning_rate": 1.069e-05, "elapsed_time_per_iteration": 4.81475711, "memory(GiB)": 28.03, "elapsed_time": "7h 3m 56s", "remaining_time": "1h 28m 26s", "loss_scale": 1.0, "consumed_samples": 1345024, "global_step/max_steps": "5254/6350"}
{"lm loss": 4.87164879, "grad_norm": 0.59401762, "learning_rate": 1.067e-05, "elapsed_time_per_iteration": 6.10485911, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 2s", "remaining_time": "1h 28m 21s", "loss_scale": 1.0, "consumed_samples": 1345280, "global_step/max_steps": "5255/6350"}
{"lm loss": 4.88534927, "grad_norm": 0.38761008, "learning_rate": 1.066e-05, "elapsed_time_per_iteration": 4.80377722, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 7s", "remaining_time": "1h 28m 16s", "loss_scale": 1.0, "consumed_samples": 1345536, "global_step/max_steps": "5256/6350"}
{"lm loss": 4.8303318, "grad_norm": 0.40732726, "learning_rate": 1.065e-05, "elapsed_time_per_iteration": 4.68646598, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 12s", "remaining_time": "1h 28m 11s", "loss_scale": 1.0, "consumed_samples": 1345792, "global_step/max_steps": "5257/6350"}
{"lm loss": 4.89485931, "grad_norm": 0.38887969, "learning_rate": 1.063e-05, "elapsed_time_per_iteration": 4.74949956, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 16s", "remaining_time": "1h 28m 6s", "loss_scale": 1.0, "consumed_samples": 1346048, "global_step/max_steps": "5258/6350"}
{"lm loss": 4.88396788, "grad_norm": 0.3905018, "learning_rate": 1.062e-05, "elapsed_time_per_iteration": 4.82908273, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 21s", "remaining_time": "1h 28m 2s", "loss_scale": 1.0, "consumed_samples": 1346304, "global_step/max_steps": "5259/6350"}
{"lm loss": 4.86841106, "grad_norm": 0.37854388, "learning_rate": 1.061e-05, "elapsed_time_per_iteration": 4.77774143, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 26s", "remaining_time": "1h 27m 57s", "loss_scale": 1.0, "consumed_samples": 1346560, "global_step/max_steps": "5260/6350"}
{"lm loss": 4.86083269, "grad_norm": 0.43126276, "learning_rate": 1.059e-05, "elapsed_time_per_iteration": 4.74132776, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 31s", "remaining_time": "1h 27m 52s", "loss_scale": 1.0, "consumed_samples": 1346816, "global_step/max_steps": "5261/6350"}
{"lm loss": 4.85579777, "grad_norm": 0.4001818, "learning_rate": 1.058e-05, "elapsed_time_per_iteration": 4.74672055, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 36s", "remaining_time": "1h 27m 47s", "loss_scale": 1.0, "consumed_samples": 1347072, "global_step/max_steps": "5262/6350"}
{"lm loss": 4.86741924, "grad_norm": 0.44552952, "learning_rate": 1.057e-05, "elapsed_time_per_iteration": 4.79293108, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 40s", "remaining_time": "1h 27m 42s", "loss_scale": 1.0, "consumed_samples": 1347328, "global_step/max_steps": "5263/6350"}
{"lm loss": 4.85368443, "grad_norm": 0.40343848, "learning_rate": 1.055e-05, "elapsed_time_per_iteration": 4.73663545, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 45s", "remaining_time": "1h 27m 37s", "loss_scale": 1.0, "consumed_samples": 1347584, "global_step/max_steps": "5264/6350"}
{"lm loss": 4.8658452, "grad_norm": 0.41425973, "learning_rate": 1.054e-05, "elapsed_time_per_iteration": 5.18851495, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 50s", "remaining_time": "1h 27m 33s", "loss_scale": 1.0, "consumed_samples": 1347840, "global_step/max_steps": "5265/6350"}
{"lm loss": 4.85975409, "grad_norm": 0.40510574, "learning_rate": 1.053e-05, "elapsed_time_per_iteration": 4.70991659, "memory(GiB)": 28.03, "elapsed_time": "7h 4m 55s", "remaining_time": "1h 27m 28s", "loss_scale": 1.0, "consumed_samples": 1348096, "global_step/max_steps": "5266/6350"}
{"lm loss": 4.87336349, "grad_norm": 0.42271611, "learning_rate": 1.051e-05, "elapsed_time_per_iteration": 4.71851063, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 0s", "remaining_time": "1h 27m 23s", "loss_scale": 1.0, "consumed_samples": 1348352, "global_step/max_steps": "5267/6350"}
{"lm loss": 4.86323643, "grad_norm": 0.39058322, "learning_rate": 1.05e-05, "elapsed_time_per_iteration": 4.68800116, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 4s", "remaining_time": "1h 27m 18s", "loss_scale": 1.0, "consumed_samples": 1348608, "global_step/max_steps": "5268/6350"}
{"lm loss": 4.87635183, "grad_norm": 0.37865362, "learning_rate": 1.048e-05, "elapsed_time_per_iteration": 4.76808572, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 9s", "remaining_time": "1h 27m 13s", "loss_scale": 1.0, "consumed_samples": 1348864, "global_step/max_steps": "5269/6350"}
{"lm loss": 4.86253548, "grad_norm": 0.38485199, "learning_rate": 1.047e-05, "elapsed_time_per_iteration": 4.73922777, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 14s", "remaining_time": "1h 27m 8s", "loss_scale": 1.0, "consumed_samples": 1349120, "global_step/max_steps": "5270/6350"}
{"lm loss": 4.86514139, "grad_norm": 0.41415724, "learning_rate": 1.046e-05, "elapsed_time_per_iteration": 4.78227425, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 19s", "remaining_time": "1h 27m 3s", "loss_scale": 1.0, "consumed_samples": 1349376, "global_step/max_steps": "5271/6350"}
{"lm loss": 4.84494257, "grad_norm": 0.38197356, "learning_rate": 1.044e-05, "elapsed_time_per_iteration": 4.70746303, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 23s", "remaining_time": "1h 26m 59s", "loss_scale": 1.0, "consumed_samples": 1349632, "global_step/max_steps": "5272/6350"}
{"lm loss": 4.86542225, "grad_norm": 0.36382186, "learning_rate": 1.043e-05, "elapsed_time_per_iteration": 4.73006535, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 28s", "remaining_time": "1h 26m 54s", "loss_scale": 1.0, "consumed_samples": 1349888, "global_step/max_steps": "5273/6350"}
{"lm loss": 4.85114384, "grad_norm": 0.40058157, "learning_rate": 1.042e-05, "elapsed_time_per_iteration": 4.75994658, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 33s", "remaining_time": "1h 26m 49s", "loss_scale": 1.0, "consumed_samples": 1350144, "global_step/max_steps": "5274/6350"}
{"lm loss": 4.87168884, "grad_norm": 0.3568354, "learning_rate": 1.04e-05, "elapsed_time_per_iteration": 5.52629089, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 38s", "remaining_time": "1h 26m 44s", "loss_scale": 1.0, "consumed_samples": 1350400, "global_step/max_steps": "5275/6350"}
{"lm loss": 4.86868048, "grad_norm": 0.44915536, "learning_rate": 1.039e-05, "elapsed_time_per_iteration": 4.691535, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 43s", "remaining_time": "1h 26m 39s", "loss_scale": 1.0, "consumed_samples": 1350656, "global_step/max_steps": "5276/6350"}
{"lm loss": 4.88417244, "grad_norm": 0.38327095, "learning_rate": 1.038e-05, "elapsed_time_per_iteration": 5.50615215, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 49s", "remaining_time": "1h 26m 35s", "loss_scale": 1.0, "consumed_samples": 1350912, "global_step/max_steps": "5277/6350"}
{"lm loss": 4.85253572, "grad_norm": 0.39472419, "learning_rate": 1.036e-05, "elapsed_time_per_iteration": 4.81099582, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 53s", "remaining_time": "1h 26m 30s", "loss_scale": 1.0, "consumed_samples": 1351168, "global_step/max_steps": "5278/6350"}
{"lm loss": 4.84674168, "grad_norm": 0.38645416, "learning_rate": 1.035e-05, "elapsed_time_per_iteration": 4.76570582, "memory(GiB)": 28.03, "elapsed_time": "7h 5m 58s", "remaining_time": "1h 26m 25s", "loss_scale": 1.0, "consumed_samples": 1351424, "global_step/max_steps": "5279/6350"}
{"lm loss": 4.85252953, "grad_norm": 0.44398689, "learning_rate": 1.034e-05, "elapsed_time_per_iteration": 5.47569227, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 4s", "remaining_time": "1h 26m 20s", "loss_scale": 1.0, "consumed_samples": 1351680, "global_step/max_steps": "5280/6350"}
{"lm loss": 4.86977959, "grad_norm": 0.40251765, "learning_rate": 1.032e-05, "elapsed_time_per_iteration": 4.75930214, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 8s", "remaining_time": "1h 26m 15s", "loss_scale": 1.0, "consumed_samples": 1351936, "global_step/max_steps": "5281/6350"}
{"lm loss": 4.88852119, "grad_norm": 0.39217973, "learning_rate": 1.031e-05, "elapsed_time_per_iteration": 5.22184062, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 14s", "remaining_time": "1h 26m 10s", "loss_scale": 1.0, "consumed_samples": 1352192, "global_step/max_steps": "5282/6350"}
{"lm loss": 4.85040188, "grad_norm": 0.39343476, "learning_rate": 1.03e-05, "elapsed_time_per_iteration": 4.72764921, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 18s", "remaining_time": "1h 26m 6s", "loss_scale": 1.0, "consumed_samples": 1352448, "global_step/max_steps": "5283/6350"}
{"lm loss": 4.8813858, "grad_norm": 0.39115292, "learning_rate": 1.028e-05, "elapsed_time_per_iteration": 4.700207, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 23s", "remaining_time": "1h 26m 1s", "loss_scale": 1.0, "consumed_samples": 1352704, "global_step/max_steps": "5284/6350"}
{"lm loss": 4.84276581, "grad_norm": 0.36818808, "learning_rate": 1.027e-05, "elapsed_time_per_iteration": 4.77710271, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 28s", "remaining_time": "1h 25m 56s", "loss_scale": 1.0, "consumed_samples": 1352960, "global_step/max_steps": "5285/6350"}
{"lm loss": 4.86889791, "grad_norm": 0.38984191, "learning_rate": 1.026e-05, "elapsed_time_per_iteration": 4.77572465, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 33s", "remaining_time": "1h 25m 51s", "loss_scale": 1.0, "consumed_samples": 1353216, "global_step/max_steps": "5286/6350"}
{"lm loss": 4.86589241, "grad_norm": 0.36189231, "learning_rate": 1.024e-05, "elapsed_time_per_iteration": 4.7443912, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 37s", "remaining_time": "1h 25m 46s", "loss_scale": 1.0, "consumed_samples": 1353472, "global_step/max_steps": "5287/6350"}
{"lm loss": 4.88436317, "grad_norm": 0.37802002, "learning_rate": 1.023e-05, "elapsed_time_per_iteration": 4.82195473, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 42s", "remaining_time": "1h 25m 41s", "loss_scale": 1.0, "consumed_samples": 1353728, "global_step/max_steps": "5288/6350"}
{"lm loss": 4.85596848, "grad_norm": 0.40153667, "learning_rate": 1.022e-05, "elapsed_time_per_iteration": 4.79848504, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 47s", "remaining_time": "1h 25m 36s", "loss_scale": 1.0, "consumed_samples": 1353984, "global_step/max_steps": "5289/6350"}
{"lm loss": 4.85505009, "grad_norm": 0.40515339, "learning_rate": 1.02e-05, "elapsed_time_per_iteration": 5.51281643, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 52s", "remaining_time": "1h 25m 32s", "loss_scale": 1.0, "consumed_samples": 1354240, "global_step/max_steps": "5290/6350"}
{"lm loss": 4.86775637, "grad_norm": 0.36003363, "learning_rate": 1.019e-05, "elapsed_time_per_iteration": 4.83047843, "memory(GiB)": 28.03, "elapsed_time": "7h 6m 57s", "remaining_time": "1h 25m 27s", "loss_scale": 1.0, "consumed_samples": 1354496, "global_step/max_steps": "5291/6350"}
{"lm loss": 4.84586048, "grad_norm": 0.39244679, "learning_rate": 1.018e-05, "elapsed_time_per_iteration": 4.73063397, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 2s", "remaining_time": "1h 25m 22s", "loss_scale": 1.0, "consumed_samples": 1354752, "global_step/max_steps": "5292/6350"}
{"lm loss": 4.88341618, "grad_norm": 0.36802897, "learning_rate": 1.016e-05, "elapsed_time_per_iteration": 4.69903159, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 7s", "remaining_time": "1h 25m 17s", "loss_scale": 1.0, "consumed_samples": 1355008, "global_step/max_steps": "5293/6350"}
{"lm loss": 4.85925865, "grad_norm": 0.38284594, "learning_rate": 1.015e-05, "elapsed_time_per_iteration": 4.68424439, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 11s", "remaining_time": "1h 25m 12s", "loss_scale": 1.0, "consumed_samples": 1355264, "global_step/max_steps": "5294/6350"}
{"lm loss": 4.86248875, "grad_norm": 0.38208485, "learning_rate": 1.014e-05, "elapsed_time_per_iteration": 4.75037479, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 16s", "remaining_time": "1h 25m 7s", "loss_scale": 1.0, "consumed_samples": 1355520, "global_step/max_steps": "5295/6350"}
{"lm loss": 4.88886023, "grad_norm": 0.38804758, "learning_rate": 1.012e-05, "elapsed_time_per_iteration": 4.7310555, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 21s", "remaining_time": "1h 25m 3s", "loss_scale": 1.0, "consumed_samples": 1355776, "global_step/max_steps": "5296/6350"}
{"lm loss": 4.86500025, "grad_norm": 0.36172891, "learning_rate": 1.011e-05, "elapsed_time_per_iteration": 4.76505804, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 26s", "remaining_time": "1h 24m 58s", "loss_scale": 1.0, "consumed_samples": 1356032, "global_step/max_steps": "5297/6350"}
{"lm loss": 4.84065819, "grad_norm": 0.40048704, "learning_rate": 1.01e-05, "elapsed_time_per_iteration": 4.69493055, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 30s", "remaining_time": "1h 24m 53s", "loss_scale": 1.0, "consumed_samples": 1356288, "global_step/max_steps": "5298/6350"}
{"lm loss": 4.85578918, "grad_norm": 0.42180261, "learning_rate": 1.009e-05, "elapsed_time_per_iteration": 4.76811314, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 35s", "remaining_time": "1h 24m 48s", "loss_scale": 1.0, "consumed_samples": 1356544, "global_step/max_steps": "5299/6350"}
{"lm loss": 4.83508205, "grad_norm": 0.39134064, "learning_rate": 1.007e-05, "elapsed_time_per_iteration": 4.72641683, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 40s", "remaining_time": "1h 24m 43s", "loss_scale": 1.0, "consumed_samples": 1356800, "global_step/max_steps": "5300/6350"}
{"lm loss": 4.88678265, "grad_norm": 0.38544098, "learning_rate": 1.006e-05, "elapsed_time_per_iteration": 4.78965402, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 45s", "remaining_time": "1h 24m 38s", "loss_scale": 1.0, "consumed_samples": 1357056, "global_step/max_steps": "5301/6350"}
{"lm loss": 4.86258745, "grad_norm": 0.36600915, "learning_rate": 1.005e-05, "elapsed_time_per_iteration": 4.80940247, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 49s", "remaining_time": "1h 24m 33s", "loss_scale": 1.0, "consumed_samples": 1357312, "global_step/max_steps": "5302/6350"}
{"lm loss": 4.88157415, "grad_norm": 0.40455058, "learning_rate": 1.003e-05, "elapsed_time_per_iteration": 5.69826221, "memory(GiB)": 28.03, "elapsed_time": "7h 7m 55s", "remaining_time": "1h 24m 29s", "loss_scale": 1.0, "consumed_samples": 1357568, "global_step/max_steps": "5303/6350"}
{"lm loss": 4.86661243, "grad_norm": 0.51443857, "learning_rate": 1.002e-05, "elapsed_time_per_iteration": 4.88956165, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 0s", "remaining_time": "1h 24m 24s", "loss_scale": 1.0, "consumed_samples": 1357824, "global_step/max_steps": "5304/6350"}
{"lm loss": 4.89079046, "grad_norm": 0.42301816, "learning_rate": 1.001e-05, "elapsed_time_per_iteration": 5.59651494, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 6s", "remaining_time": "1h 24m 19s", "loss_scale": 1.0, "consumed_samples": 1358080, "global_step/max_steps": "5305/6350"}
{"lm loss": 4.86277866, "grad_norm": 0.38444555, "learning_rate": 9.99e-06, "elapsed_time_per_iteration": 4.75275683, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 10s", "remaining_time": "1h 24m 14s", "loss_scale": 1.0, "consumed_samples": 1358336, "global_step/max_steps": "5306/6350"}
{"lm loss": 4.87541056, "grad_norm": 0.45493755, "learning_rate": 9.98e-06, "elapsed_time_per_iteration": 4.76978207, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 15s", "remaining_time": "1h 24m 10s", "loss_scale": 1.0, "consumed_samples": 1358592, "global_step/max_steps": "5307/6350"}
{"lm loss": 4.86121607, "grad_norm": 0.39210674, "learning_rate": 9.97e-06, "elapsed_time_per_iteration": 4.78234124, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 20s", "remaining_time": "1h 24m 5s", "loss_scale": 1.0, "consumed_samples": 1358848, "global_step/max_steps": "5308/6350"}
{"lm loss": 4.88853312, "grad_norm": 0.42243445, "learning_rate": 9.95e-06, "elapsed_time_per_iteration": 4.68734384, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 25s", "remaining_time": "1h 24m 0s", "loss_scale": 1.0, "consumed_samples": 1359104, "global_step/max_steps": "5309/6350"}
{"lm loss": 4.85471535, "grad_norm": 0.44196194, "learning_rate": 9.94e-06, "elapsed_time_per_iteration": 4.71634555, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 29s", "remaining_time": "1h 23m 55s", "loss_scale": 1.0, "consumed_samples": 1359360, "global_step/max_steps": "5310/6350"}
{"lm loss": 4.85702276, "grad_norm": 0.38790879, "learning_rate": 9.93e-06, "elapsed_time_per_iteration": 4.70429516, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 34s", "remaining_time": "1h 23m 50s", "loss_scale": 1.0, "consumed_samples": 1359616, "global_step/max_steps": "5311/6350"}
{"lm loss": 4.87119246, "grad_norm": 0.43014339, "learning_rate": 9.92e-06, "elapsed_time_per_iteration": 5.21699071, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 39s", "remaining_time": "1h 23m 45s", "loss_scale": 1.0, "consumed_samples": 1359872, "global_step/max_steps": "5312/6350"}
{"lm loss": 4.86981106, "grad_norm": 0.40077266, "learning_rate": 9.9e-06, "elapsed_time_per_iteration": 4.74198055, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 44s", "remaining_time": "1h 23m 40s", "loss_scale": 1.0, "consumed_samples": 1360128, "global_step/max_steps": "5313/6350"}
{"lm loss": 4.87864733, "grad_norm": 0.37236813, "learning_rate": 9.89e-06, "elapsed_time_per_iteration": 4.78163171, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 49s", "remaining_time": "1h 23m 36s", "loss_scale": 1.0, "consumed_samples": 1360384, "global_step/max_steps": "5314/6350"}
{"lm loss": 4.8499217, "grad_norm": 0.39752489, "learning_rate": 9.88e-06, "elapsed_time_per_iteration": 4.71741486, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 54s", "remaining_time": "1h 23m 31s", "loss_scale": 1.0, "consumed_samples": 1360640, "global_step/max_steps": "5315/6350"}
{"lm loss": 4.87558079, "grad_norm": 0.37135151, "learning_rate": 9.86e-06, "elapsed_time_per_iteration": 4.73109531, "memory(GiB)": 28.03, "elapsed_time": "7h 8m 58s", "remaining_time": "1h 23m 26s", "loss_scale": 1.0, "consumed_samples": 1360896, "global_step/max_steps": "5316/6350"}
{"lm loss": 4.85313272, "grad_norm": 0.39638287, "learning_rate": 9.85e-06, "elapsed_time_per_iteration": 4.75943518, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 3s", "remaining_time": "1h 23m 21s", "loss_scale": 1.0, "consumed_samples": 1361152, "global_step/max_steps": "5317/6350"}
{"lm loss": 4.84848785, "grad_norm": 0.38004333, "learning_rate": 9.84e-06, "elapsed_time_per_iteration": 4.72328138, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 8s", "remaining_time": "1h 23m 16s", "loss_scale": 1.0, "consumed_samples": 1361408, "global_step/max_steps": "5318/6350"}
{"lm loss": 4.8829608, "grad_norm": 0.37024453, "learning_rate": 9.82e-06, "elapsed_time_per_iteration": 4.72490621, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 12s", "remaining_time": "1h 23m 11s", "loss_scale": 1.0, "consumed_samples": 1361664, "global_step/max_steps": "5319/6350"}
{"lm loss": 4.85394001, "grad_norm": 0.38678244, "learning_rate": 9.81e-06, "elapsed_time_per_iteration": 4.70798039, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 17s", "remaining_time": "1h 23m 6s", "loss_scale": 1.0, "consumed_samples": 1361920, "global_step/max_steps": "5320/6350"}
{"lm loss": 4.86858606, "grad_norm": 0.36714587, "learning_rate": 9.8e-06, "elapsed_time_per_iteration": 4.79906154, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 22s", "remaining_time": "1h 23m 2s", "loss_scale": 1.0, "consumed_samples": 1362176, "global_step/max_steps": "5321/6350"}
{"lm loss": 4.86891031, "grad_norm": 0.36492285, "learning_rate": 9.79e-06, "elapsed_time_per_iteration": 4.71201849, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 27s", "remaining_time": "1h 22m 57s", "loss_scale": 1.0, "consumed_samples": 1362432, "global_step/max_steps": "5322/6350"}
{"lm loss": 4.85476351, "grad_norm": 0.36780852, "learning_rate": 9.77e-06, "elapsed_time_per_iteration": 4.71560216, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 31s", "remaining_time": "1h 22m 52s", "loss_scale": 1.0, "consumed_samples": 1362688, "global_step/max_steps": "5323/6350"}
{"lm loss": 4.86039352, "grad_norm": 0.36333671, "learning_rate": 9.76e-06, "elapsed_time_per_iteration": 4.76791596, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 36s", "remaining_time": "1h 22m 47s", "loss_scale": 1.0, "consumed_samples": 1362944, "global_step/max_steps": "5324/6350"}
{"lm loss": 4.85144711, "grad_norm": 0.35881209, "learning_rate": 9.75e-06, "elapsed_time_per_iteration": 4.74495125, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 41s", "remaining_time": "1h 22m 42s", "loss_scale": 1.0, "consumed_samples": 1363200, "global_step/max_steps": "5325/6350"}
{"lm loss": 4.86994362, "grad_norm": 0.35777074, "learning_rate": 9.73e-06, "elapsed_time_per_iteration": 4.7027421, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 46s", "remaining_time": "1h 22m 37s", "loss_scale": 1.0, "consumed_samples": 1363456, "global_step/max_steps": "5326/6350"}
{"lm loss": 4.87103224, "grad_norm": 0.37866539, "learning_rate": 9.72e-06, "elapsed_time_per_iteration": 4.7399323, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 50s", "remaining_time": "1h 22m 32s", "loss_scale": 1.0, "consumed_samples": 1363712, "global_step/max_steps": "5327/6350"}
{"lm loss": 4.87043095, "grad_norm": 0.37237316, "learning_rate": 9.71e-06, "elapsed_time_per_iteration": 4.67980862, "memory(GiB)": 28.03, "elapsed_time": "7h 9m 55s", "remaining_time": "1h 22m 28s", "loss_scale": 1.0, "consumed_samples": 1363968, "global_step/max_steps": "5328/6350"}
{"lm loss": 4.88343668, "grad_norm": 0.61448151, "learning_rate": 9.7e-06, "elapsed_time_per_iteration": 4.66245294, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 0s", "remaining_time": "1h 22m 23s", "loss_scale": 1.0, "consumed_samples": 1364224, "global_step/max_steps": "5329/6350"}
{"lm loss": 4.85745192, "grad_norm": 0.35600168, "learning_rate": 9.68e-06, "elapsed_time_per_iteration": 4.78581095, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 4s", "remaining_time": "1h 22m 18s", "loss_scale": 1.0, "consumed_samples": 1364480, "global_step/max_steps": "5330/6350"}
{"lm loss": 4.87330627, "grad_norm": 0.42502668, "learning_rate": 9.67e-06, "elapsed_time_per_iteration": 5.60567284, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 10s", "remaining_time": "1h 22m 13s", "loss_scale": 1.0, "consumed_samples": 1364736, "global_step/max_steps": "5331/6350"}
{"lm loss": 4.86829185, "grad_norm": 0.39388818, "learning_rate": 9.66e-06, "elapsed_time_per_iteration": 4.72467542, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 15s", "remaining_time": "1h 22m 8s", "loss_scale": 1.0, "consumed_samples": 1364992, "global_step/max_steps": "5332/6350"}
{"lm loss": 4.86599064, "grad_norm": 0.37791273, "learning_rate": 9.64e-06, "elapsed_time_per_iteration": 4.70897198, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 19s", "remaining_time": "1h 22m 3s", "loss_scale": 1.0, "consumed_samples": 1365248, "global_step/max_steps": "5333/6350"}
{"lm loss": 4.86940384, "grad_norm": 0.41359344, "learning_rate": 9.63e-06, "elapsed_time_per_iteration": 5.70005751, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 25s", "remaining_time": "1h 21m 59s", "loss_scale": 1.0, "consumed_samples": 1365504, "global_step/max_steps": "5334/6350"}
{"lm loss": 4.84932375, "grad_norm": 0.36640283, "learning_rate": 9.62e-06, "elapsed_time_per_iteration": 4.70691013, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 30s", "remaining_time": "1h 21m 54s", "loss_scale": 1.0, "consumed_samples": 1365760, "global_step/max_steps": "5335/6350"}
{"lm loss": 4.89417887, "grad_norm": 0.38119966, "learning_rate": 9.61e-06, "elapsed_time_per_iteration": 4.71008897, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 35s", "remaining_time": "1h 21m 49s", "loss_scale": 1.0, "consumed_samples": 1366016, "global_step/max_steps": "5336/6350"}
{"lm loss": 4.88329124, "grad_norm": 0.39460102, "learning_rate": 9.59e-06, "elapsed_time_per_iteration": 4.72162986, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 39s", "remaining_time": "1h 21m 44s", "loss_scale": 1.0, "consumed_samples": 1366272, "global_step/max_steps": "5337/6350"}
{"lm loss": 4.86702394, "grad_norm": 0.41052115, "learning_rate": 9.58e-06, "elapsed_time_per_iteration": 4.69370818, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 44s", "remaining_time": "1h 21m 39s", "loss_scale": 1.0, "consumed_samples": 1366528, "global_step/max_steps": "5338/6350"}
{"lm loss": 4.88593817, "grad_norm": 0.38953963, "learning_rate": 9.57e-06, "elapsed_time_per_iteration": 4.73348451, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 49s", "remaining_time": "1h 21m 34s", "loss_scale": 1.0, "consumed_samples": 1366784, "global_step/max_steps": "5339/6350"}
{"lm loss": 4.84078264, "grad_norm": 0.3845863, "learning_rate": 9.56e-06, "elapsed_time_per_iteration": 5.50765419, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 54s", "remaining_time": "1h 21m 30s", "loss_scale": 1.0, "consumed_samples": 1367040, "global_step/max_steps": "5340/6350"}
{"lm loss": 4.86128569, "grad_norm": 0.37738067, "learning_rate": 9.54e-06, "elapsed_time_per_iteration": 4.79090905, "memory(GiB)": 28.03, "elapsed_time": "7h 10m 59s", "remaining_time": "1h 21m 25s", "loss_scale": 1.0, "consumed_samples": 1367296, "global_step/max_steps": "5341/6350"}
{"lm loss": 4.85103369, "grad_norm": 0.40484798, "learning_rate": 9.53e-06, "elapsed_time_per_iteration": 4.73470211, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 4s", "remaining_time": "1h 21m 20s", "loss_scale": 1.0, "consumed_samples": 1367552, "global_step/max_steps": "5342/6350"}
{"lm loss": 4.83107567, "grad_norm": 0.37648478, "learning_rate": 9.52e-06, "elapsed_time_per_iteration": 4.68436766, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 8s", "remaining_time": "1h 21m 15s", "loss_scale": 1.0, "consumed_samples": 1367808, "global_step/max_steps": "5343/6350"}
{"lm loss": 4.84786844, "grad_norm": 0.3790839, "learning_rate": 9.51e-06, "elapsed_time_per_iteration": 4.73086238, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 13s", "remaining_time": "1h 21m 10s", "loss_scale": 1.0, "consumed_samples": 1368064, "global_step/max_steps": "5344/6350"}
{"lm loss": 4.85463047, "grad_norm": 0.38363492, "learning_rate": 9.49e-06, "elapsed_time_per_iteration": 4.76389909, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 18s", "remaining_time": "1h 21m 5s", "loss_scale": 1.0, "consumed_samples": 1368320, "global_step/max_steps": "5345/6350"}
{"lm loss": 4.84929514, "grad_norm": 0.42380917, "learning_rate": 9.48e-06, "elapsed_time_per_iteration": 4.78053451, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 23s", "remaining_time": "1h 21m 0s", "loss_scale": 1.0, "consumed_samples": 1368576, "global_step/max_steps": "5346/6350"}
{"lm loss": 4.86866236, "grad_norm": 0.38538033, "learning_rate": 9.47e-06, "elapsed_time_per_iteration": 4.73357797, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 27s", "remaining_time": "1h 20m 56s", "loss_scale": 1.0, "consumed_samples": 1368832, "global_step/max_steps": "5347/6350"}
{"lm loss": 4.85671091, "grad_norm": 0.36537573, "learning_rate": 9.45e-06, "elapsed_time_per_iteration": 4.77557993, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 32s", "remaining_time": "1h 20m 51s", "loss_scale": 1.0, "consumed_samples": 1369088, "global_step/max_steps": "5348/6350"}
{"lm loss": 4.86626101, "grad_norm": 0.36276484, "learning_rate": 9.44e-06, "elapsed_time_per_iteration": 4.77495551, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 37s", "remaining_time": "1h 20m 46s", "loss_scale": 1.0, "consumed_samples": 1369344, "global_step/max_steps": "5349/6350"}
{"lm loss": 4.84039974, "grad_norm": 0.38503942, "learning_rate": 9.43e-06, "elapsed_time_per_iteration": 4.68356419, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 42s", "remaining_time": "1h 20m 41s", "loss_scale": 1.0, "consumed_samples": 1369600, "global_step/max_steps": "5350/6350"}
{"lm loss": 4.82734013, "grad_norm": 0.42343301, "learning_rate": 9.42e-06, "elapsed_time_per_iteration": 4.78321242, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 47s", "remaining_time": "1h 20m 36s", "loss_scale": 1.0, "consumed_samples": 1369856, "global_step/max_steps": "5351/6350"}
{"lm loss": 4.86153603, "grad_norm": 0.36588225, "learning_rate": 9.4e-06, "elapsed_time_per_iteration": 4.82459164, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 51s", "remaining_time": "1h 20m 31s", "loss_scale": 1.0, "consumed_samples": 1370112, "global_step/max_steps": "5352/6350"}
{"lm loss": 4.87622547, "grad_norm": 0.39505383, "learning_rate": 9.39e-06, "elapsed_time_per_iteration": 4.76896954, "memory(GiB)": 28.03, "elapsed_time": "7h 11m 56s", "remaining_time": "1h 20m 26s", "loss_scale": 1.0, "consumed_samples": 1370368, "global_step/max_steps": "5353/6350"}
{"lm loss": 4.85360479, "grad_norm": 0.34963971, "learning_rate": 9.38e-06, "elapsed_time_per_iteration": 4.80076075, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 1s", "remaining_time": "1h 20m 22s", "loss_scale": 1.0, "consumed_samples": 1370624, "global_step/max_steps": "5354/6350"}
{"lm loss": 4.88336658, "grad_norm": 0.42695498, "learning_rate": 9.37e-06, "elapsed_time_per_iteration": 4.75460935, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 6s", "remaining_time": "1h 20m 17s", "loss_scale": 1.0, "consumed_samples": 1370880, "global_step/max_steps": "5355/6350"}
{"lm loss": 4.84942865, "grad_norm": 0.36679775, "learning_rate": 9.35e-06, "elapsed_time_per_iteration": 4.73229098, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 10s", "remaining_time": "1h 20m 12s", "loss_scale": 1.0, "consumed_samples": 1371136, "global_step/max_steps": "5356/6350"}
{"lm loss": 4.86458445, "grad_norm": 0.42155564, "learning_rate": 9.34e-06, "elapsed_time_per_iteration": 4.7495749, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 15s", "remaining_time": "1h 20m 7s", "loss_scale": 1.0, "consumed_samples": 1371392, "global_step/max_steps": "5357/6350"}
{"lm loss": 4.87021303, "grad_norm": 0.35145909, "learning_rate": 9.33e-06, "elapsed_time_per_iteration": 4.73088002, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 20s", "remaining_time": "1h 20m 2s", "loss_scale": 1.0, "consumed_samples": 1371648, "global_step/max_steps": "5358/6350"}
{"lm loss": 4.84617996, "grad_norm": 0.37840906, "learning_rate": 9.32e-06, "elapsed_time_per_iteration": 4.74673152, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 25s", "remaining_time": "1h 19m 57s", "loss_scale": 1.0, "consumed_samples": 1371904, "global_step/max_steps": "5359/6350"}
{"lm loss": 4.86650324, "grad_norm": 0.36896935, "learning_rate": 9.3e-06, "elapsed_time_per_iteration": 4.73668861, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 29s", "remaining_time": "1h 19m 52s", "loss_scale": 1.0, "consumed_samples": 1372160, "global_step/max_steps": "5360/6350"}
{"lm loss": 4.86969519, "grad_norm": 0.35610196, "learning_rate": 9.29e-06, "elapsed_time_per_iteration": 4.80812764, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 34s", "remaining_time": "1h 19m 48s", "loss_scale": 1.0, "consumed_samples": 1372416, "global_step/max_steps": "5361/6350"}
{"lm loss": 4.86408043, "grad_norm": 0.35064241, "learning_rate": 9.28e-06, "elapsed_time_per_iteration": 4.76129103, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 39s", "remaining_time": "1h 19m 43s", "loss_scale": 1.0, "consumed_samples": 1372672, "global_step/max_steps": "5362/6350"}
{"lm loss": 4.84995747, "grad_norm": 0.36816064, "learning_rate": 9.27e-06, "elapsed_time_per_iteration": 4.79783702, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 44s", "remaining_time": "1h 19m 38s", "loss_scale": 1.0, "consumed_samples": 1372928, "global_step/max_steps": "5363/6350"}
{"lm loss": 4.87594223, "grad_norm": 0.33991292, "learning_rate": 9.25e-06, "elapsed_time_per_iteration": 5.69057441, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 49s", "remaining_time": "1h 19m 33s", "loss_scale": 1.0, "consumed_samples": 1373184, "global_step/max_steps": "5364/6350"}
{"lm loss": 4.85023451, "grad_norm": 0.39051878, "learning_rate": 9.24e-06, "elapsed_time_per_iteration": 4.73108077, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 54s", "remaining_time": "1h 19m 28s", "loss_scale": 1.0, "consumed_samples": 1373440, "global_step/max_steps": "5365/6350"}
{"lm loss": 4.87877893, "grad_norm": 0.35964391, "learning_rate": 9.23e-06, "elapsed_time_per_iteration": 4.77375841, "memory(GiB)": 28.03, "elapsed_time": "7h 12m 59s", "remaining_time": "1h 19m 24s", "loss_scale": 1.0, "consumed_samples": 1373696, "global_step/max_steps": "5366/6350"}
{"lm loss": 4.88377523, "grad_norm": 0.3730382, "learning_rate": 9.22e-06, "elapsed_time_per_iteration": 4.78070951, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 4s", "remaining_time": "1h 19m 19s", "loss_scale": 1.0, "consumed_samples": 1373952, "global_step/max_steps": "5367/6350"}
{"lm loss": 4.86863518, "grad_norm": 1.01445186, "learning_rate": 9.21e-06, "elapsed_time_per_iteration": 4.7387898, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 8s", "remaining_time": "1h 19m 14s", "loss_scale": 1.0, "consumed_samples": 1374208, "global_step/max_steps": "5368/6350"}
{"lm loss": 4.86183691, "grad_norm": 0.3759945, "learning_rate": 9.19e-06, "elapsed_time_per_iteration": 4.77103257, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 13s", "remaining_time": "1h 19m 9s", "loss_scale": 1.0, "consumed_samples": 1374464, "global_step/max_steps": "5369/6350"}
{"lm loss": 4.84059477, "grad_norm": 0.42517316, "learning_rate": 9.18e-06, "elapsed_time_per_iteration": 4.68333459, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 18s", "remaining_time": "1h 19m 4s", "loss_scale": 1.0, "consumed_samples": 1374720, "global_step/max_steps": "5370/6350"}
{"lm loss": 4.87015915, "grad_norm": 1.17753434, "learning_rate": 9.17e-06, "elapsed_time_per_iteration": 4.78015232, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 23s", "remaining_time": "1h 18m 59s", "loss_scale": 1.0, "consumed_samples": 1374976, "global_step/max_steps": "5371/6350"}
{"lm loss": 4.86294794, "grad_norm": 0.42860067, "learning_rate": 9.16e-06, "elapsed_time_per_iteration": 4.74575138, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 27s", "remaining_time": "1h 18m 54s", "loss_scale": 1.0, "consumed_samples": 1375232, "global_step/max_steps": "5372/6350"}
{"lm loss": 4.83767033, "grad_norm": 0.3960655, "learning_rate": 9.14e-06, "elapsed_time_per_iteration": 5.65026736, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 33s", "remaining_time": "1h 18m 50s", "loss_scale": 1.0, "consumed_samples": 1375488, "global_step/max_steps": "5373/6350"}
{"lm loss": 4.86812973, "grad_norm": 0.40914953, "learning_rate": 9.13e-06, "elapsed_time_per_iteration": 4.77171206, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 38s", "remaining_time": "1h 18m 45s", "loss_scale": 1.0, "consumed_samples": 1375744, "global_step/max_steps": "5374/6350"}
{"lm loss": 4.84984684, "grad_norm": 0.39916965, "learning_rate": 9.12e-06, "elapsed_time_per_iteration": 5.36725783, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 43s", "remaining_time": "1h 18m 40s", "loss_scale": 1.0, "consumed_samples": 1376000, "global_step/max_steps": "5375/6350"}
{"lm loss": 4.84455633, "grad_norm": 0.41760424, "learning_rate": 9.11e-06, "elapsed_time_per_iteration": 4.72706056, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 48s", "remaining_time": "1h 18m 35s", "loss_scale": 1.0, "consumed_samples": 1376256, "global_step/max_steps": "5376/6350"}
{"lm loss": 4.85783529, "grad_norm": 0.38043493, "learning_rate": 9.09e-06, "elapsed_time_per_iteration": 4.74193239, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 53s", "remaining_time": "1h 18m 30s", "loss_scale": 1.0, "consumed_samples": 1376512, "global_step/max_steps": "5377/6350"}
{"lm loss": 4.84717751, "grad_norm": 0.35474449, "learning_rate": 9.08e-06, "elapsed_time_per_iteration": 4.69995952, "memory(GiB)": 28.03, "elapsed_time": "7h 13m 57s", "remaining_time": "1h 18m 25s", "loss_scale": 1.0, "consumed_samples": 1376768, "global_step/max_steps": "5378/6350"}
{"lm loss": 4.87165499, "grad_norm": 0.42658028, "learning_rate": 9.07e-06, "elapsed_time_per_iteration": 4.7104404, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 2s", "remaining_time": "1h 18m 21s", "loss_scale": 1.0, "consumed_samples": 1377024, "global_step/max_steps": "5379/6350"}
{"lm loss": 4.83691931, "grad_norm": 0.35490966, "learning_rate": 9.06e-06, "elapsed_time_per_iteration": 4.74190474, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 7s", "remaining_time": "1h 18m 16s", "loss_scale": 1.0, "consumed_samples": 1377280, "global_step/max_steps": "5380/6350"}
{"lm loss": 4.87238359, "grad_norm": 0.34393409, "learning_rate": 9.05e-06, "elapsed_time_per_iteration": 4.70517278, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 12s", "remaining_time": "1h 18m 11s", "loss_scale": 1.0, "consumed_samples": 1377536, "global_step/max_steps": "5381/6350"}
{"lm loss": 4.87399673, "grad_norm": 0.37616867, "learning_rate": 9.03e-06, "elapsed_time_per_iteration": 4.73152494, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 16s", "remaining_time": "1h 18m 6s", "loss_scale": 1.0, "consumed_samples": 1377792, "global_step/max_steps": "5382/6350"}
{"lm loss": 4.88152027, "grad_norm": 0.3965148, "learning_rate": 9.02e-06, "elapsed_time_per_iteration": 5.21794605, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 21s", "remaining_time": "1h 18m 1s", "loss_scale": 1.0, "consumed_samples": 1378048, "global_step/max_steps": "5383/6350"}
{"lm loss": 4.87554216, "grad_norm": 0.38193792, "learning_rate": 9.01e-06, "elapsed_time_per_iteration": 4.79272461, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 26s", "remaining_time": "1h 17m 56s", "loss_scale": 1.0, "consumed_samples": 1378304, "global_step/max_steps": "5384/6350"}
{"lm loss": 4.85330868, "grad_norm": 0.35183689, "learning_rate": 9e-06, "elapsed_time_per_iteration": 4.70890784, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 31s", "remaining_time": "1h 17m 52s", "loss_scale": 1.0, "consumed_samples": 1378560, "global_step/max_steps": "5385/6350"}
{"lm loss": 4.85304308, "grad_norm": 0.36821869, "learning_rate": 8.98e-06, "elapsed_time_per_iteration": 4.79184413, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 36s", "remaining_time": "1h 17m 47s", "loss_scale": 1.0, "consumed_samples": 1378816, "global_step/max_steps": "5386/6350"}
{"lm loss": 4.85563803, "grad_norm": 0.38968724, "learning_rate": 8.97e-06, "elapsed_time_per_iteration": 4.71725011, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 40s", "remaining_time": "1h 17m 42s", "loss_scale": 1.0, "consumed_samples": 1379072, "global_step/max_steps": "5387/6350"}
{"lm loss": 4.86208773, "grad_norm": 0.3583892, "learning_rate": 8.96e-06, "elapsed_time_per_iteration": 4.77416539, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 45s", "remaining_time": "1h 17m 37s", "loss_scale": 1.0, "consumed_samples": 1379328, "global_step/max_steps": "5388/6350"}
{"lm loss": 4.85705566, "grad_norm": 0.40449688, "learning_rate": 8.95e-06, "elapsed_time_per_iteration": 5.50624394, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 51s", "remaining_time": "1h 17m 32s", "loss_scale": 1.0, "consumed_samples": 1379584, "global_step/max_steps": "5389/6350"}
{"lm loss": 4.86348009, "grad_norm": 0.36923355, "learning_rate": 8.94e-06, "elapsed_time_per_iteration": 5.55057883, "memory(GiB)": 28.03, "elapsed_time": "7h 14m 56s", "remaining_time": "1h 17m 28s", "loss_scale": 1.0, "consumed_samples": 1379840, "global_step/max_steps": "5390/6350"}
{"lm loss": 4.85731506, "grad_norm": 0.38807121, "learning_rate": 8.92e-06, "elapsed_time_per_iteration": 4.70351911, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 1s", "remaining_time": "1h 17m 23s", "loss_scale": 1.0, "consumed_samples": 1380096, "global_step/max_steps": "5391/6350"}
{"lm loss": 4.8746953, "grad_norm": 0.38814697, "learning_rate": 8.91e-06, "elapsed_time_per_iteration": 4.81467962, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 6s", "remaining_time": "1h 17m 18s", "loss_scale": 1.0, "consumed_samples": 1380352, "global_step/max_steps": "5392/6350"}
{"lm loss": 4.85094118, "grad_norm": 0.34830484, "learning_rate": 8.9e-06, "elapsed_time_per_iteration": 4.82447076, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 11s", "remaining_time": "1h 17m 13s", "loss_scale": 1.0, "consumed_samples": 1380608, "global_step/max_steps": "5393/6350"}
{"lm loss": 4.87648773, "grad_norm": 0.3769373, "learning_rate": 8.89e-06, "elapsed_time_per_iteration": 4.77632785, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 15s", "remaining_time": "1h 17m 8s", "loss_scale": 1.0, "consumed_samples": 1380864, "global_step/max_steps": "5394/6350"}
{"lm loss": 4.86944342, "grad_norm": 0.3586663, "learning_rate": 8.88e-06, "elapsed_time_per_iteration": 4.78030872, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 20s", "remaining_time": "1h 17m 3s", "loss_scale": 1.0, "consumed_samples": 1381120, "global_step/max_steps": "5395/6350"}
{"lm loss": 4.85724688, "grad_norm": 0.36787269, "learning_rate": 8.86e-06, "elapsed_time_per_iteration": 4.79740763, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 25s", "remaining_time": "1h 16m 58s", "loss_scale": 1.0, "consumed_samples": 1381376, "global_step/max_steps": "5396/6350"}
{"lm loss": 4.85893011, "grad_norm": 0.38613343, "learning_rate": 8.85e-06, "elapsed_time_per_iteration": 4.71794057, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 30s", "remaining_time": "1h 16m 54s", "loss_scale": 1.0, "consumed_samples": 1381632, "global_step/max_steps": "5397/6350"}
{"lm loss": 4.86620903, "grad_norm": 0.35546136, "learning_rate": 8.84e-06, "elapsed_time_per_iteration": 4.75053096, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 34s", "remaining_time": "1h 16m 49s", "loss_scale": 1.0, "consumed_samples": 1381888, "global_step/max_steps": "5398/6350"}
{"lm loss": 4.87103033, "grad_norm": 0.37496671, "learning_rate": 8.83e-06, "elapsed_time_per_iteration": 4.74297047, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 39s", "remaining_time": "1h 16m 44s", "loss_scale": 1.0, "consumed_samples": 1382144, "global_step/max_steps": "5399/6350"}
{"lm loss": 4.85131741, "grad_norm": 0.34874719, "learning_rate": 8.82e-06, "elapsed_time_per_iteration": 4.70659375, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 44s", "remaining_time": "1h 16m 39s", "loss_scale": 1.0, "consumed_samples": 1382400, "global_step/max_steps": "5400/6350"}
{"lm loss": 4.86549902, "grad_norm": 0.37501296, "learning_rate": 8.8e-06, "elapsed_time_per_iteration": 4.72023535, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 49s", "remaining_time": "1h 16m 34s", "loss_scale": 1.0, "consumed_samples": 1382656, "global_step/max_steps": "5401/6350"}
{"lm loss": 4.85642338, "grad_norm": 0.39169627, "learning_rate": 8.79e-06, "elapsed_time_per_iteration": 4.80796027, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 53s", "remaining_time": "1h 16m 29s", "loss_scale": 1.0, "consumed_samples": 1382912, "global_step/max_steps": "5402/6350"}
{"lm loss": 4.87584829, "grad_norm": 0.36516452, "learning_rate": 8.78e-06, "elapsed_time_per_iteration": 4.73273468, "memory(GiB)": 28.03, "elapsed_time": "7h 15m 58s", "remaining_time": "1h 16m 24s", "loss_scale": 1.0, "consumed_samples": 1383168, "global_step/max_steps": "5403/6350"}
{"lm loss": 4.84689426, "grad_norm": 0.36303812, "learning_rate": 8.77e-06, "elapsed_time_per_iteration": 4.7292645, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 3s", "remaining_time": "1h 16m 20s", "loss_scale": 1.0, "consumed_samples": 1383424, "global_step/max_steps": "5404/6350"}
{"lm loss": 4.85045195, "grad_norm": 0.4008919, "learning_rate": 8.76e-06, "elapsed_time_per_iteration": 5.54580188, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 8s", "remaining_time": "1h 16m 15s", "loss_scale": 1.0, "consumed_samples": 1383680, "global_step/max_steps": "5405/6350"}
{"lm loss": 4.88845539, "grad_norm": 0.36218157, "learning_rate": 8.74e-06, "elapsed_time_per_iteration": 4.77913213, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 13s", "remaining_time": "1h 16m 10s", "loss_scale": 1.0, "consumed_samples": 1383936, "global_step/max_steps": "5406/6350"}
{"lm loss": 4.86020994, "grad_norm": 0.35618639, "learning_rate": 8.73e-06, "elapsed_time_per_iteration": 4.77427363, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 18s", "remaining_time": "1h 16m 5s", "loss_scale": 1.0, "consumed_samples": 1384192, "global_step/max_steps": "5407/6350"}
{"lm loss": 4.84750128, "grad_norm": 0.38804466, "learning_rate": 8.72e-06, "elapsed_time_per_iteration": 4.77941799, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 23s", "remaining_time": "1h 16m 0s", "loss_scale": 1.0, "consumed_samples": 1384448, "global_step/max_steps": "5408/6350"}
{"lm loss": 4.85208416, "grad_norm": 0.37643433, "learning_rate": 8.71e-06, "elapsed_time_per_iteration": 4.8036983, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 28s", "remaining_time": "1h 15m 55s", "loss_scale": 1.0, "consumed_samples": 1384704, "global_step/max_steps": "5409/6350"}
{"lm loss": 4.87070084, "grad_norm": 0.35043865, "learning_rate": 8.7e-06, "elapsed_time_per_iteration": 5.61646914, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 33s", "remaining_time": "1h 15m 51s", "loss_scale": 1.0, "consumed_samples": 1384960, "global_step/max_steps": "5410/6350"}
{"lm loss": 4.87325764, "grad_norm": 0.35103273, "learning_rate": 8.68e-06, "elapsed_time_per_iteration": 4.74465895, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 38s", "remaining_time": "1h 15m 46s", "loss_scale": 1.0, "consumed_samples": 1385216, "global_step/max_steps": "5411/6350"}
{"lm loss": 4.84620714, "grad_norm": 0.34072009, "learning_rate": 8.67e-06, "elapsed_time_per_iteration": 4.67750239, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 43s", "remaining_time": "1h 15m 41s", "loss_scale": 1.0, "consumed_samples": 1385472, "global_step/max_steps": "5412/6350"}
{"lm loss": 4.85705328, "grad_norm": 0.37066281, "learning_rate": 8.66e-06, "elapsed_time_per_iteration": 4.78521252, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 47s", "remaining_time": "1h 15m 36s", "loss_scale": 1.0, "consumed_samples": 1385728, "global_step/max_steps": "5413/6350"}
{"lm loss": 4.85686827, "grad_norm": 0.34794989, "learning_rate": 8.65e-06, "elapsed_time_per_iteration": 4.79360604, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 52s", "remaining_time": "1h 15m 31s", "loss_scale": 1.0, "consumed_samples": 1385984, "global_step/max_steps": "5414/6350"}
{"lm loss": 4.86131287, "grad_norm": 0.36030406, "learning_rate": 8.64e-06, "elapsed_time_per_iteration": 4.73027515, "memory(GiB)": 28.03, "elapsed_time": "7h 16m 57s", "remaining_time": "1h 15m 26s", "loss_scale": 1.0, "consumed_samples": 1386240, "global_step/max_steps": "5415/6350"}
{"lm loss": 4.87042618, "grad_norm": 0.33125299, "learning_rate": 8.63e-06, "elapsed_time_per_iteration": 4.71518779, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 2s", "remaining_time": "1h 15m 22s", "loss_scale": 1.0, "consumed_samples": 1386496, "global_step/max_steps": "5416/6350"}
{"lm loss": 4.89221573, "grad_norm": 0.373983, "learning_rate": 8.61e-06, "elapsed_time_per_iteration": 4.74792004, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 6s", "remaining_time": "1h 15m 17s", "loss_scale": 1.0, "consumed_samples": 1386752, "global_step/max_steps": "5417/6350"}
{"lm loss": 4.87034845, "grad_norm": 0.3876645, "learning_rate": 8.6e-06, "elapsed_time_per_iteration": 4.78964257, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 11s", "remaining_time": "1h 15m 12s", "loss_scale": 1.0, "consumed_samples": 1387008, "global_step/max_steps": "5418/6350"}
{"lm loss": 4.85695171, "grad_norm": 0.35887608, "learning_rate": 8.59e-06, "elapsed_time_per_iteration": 4.80052352, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 16s", "remaining_time": "1h 15m 7s", "loss_scale": 1.0, "consumed_samples": 1387264, "global_step/max_steps": "5419/6350"}
{"lm loss": 4.87270117, "grad_norm": 0.36988321, "learning_rate": 8.58e-06, "elapsed_time_per_iteration": 4.7585969, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 21s", "remaining_time": "1h 15m 2s", "loss_scale": 1.0, "consumed_samples": 1387520, "global_step/max_steps": "5420/6350"}
{"lm loss": 4.85538912, "grad_norm": 0.36284685, "learning_rate": 8.57e-06, "elapsed_time_per_iteration": 4.78949022, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 26s", "remaining_time": "1h 14m 57s", "loss_scale": 1.0, "consumed_samples": 1387776, "global_step/max_steps": "5421/6350"}
{"lm loss": 4.8414526, "grad_norm": 0.36884788, "learning_rate": 8.55e-06, "elapsed_time_per_iteration": 4.79610538, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 30s", "remaining_time": "1h 14m 52s", "loss_scale": 1.0, "consumed_samples": 1388032, "global_step/max_steps": "5422/6350"}
{"lm loss": 4.86444712, "grad_norm": 0.34859106, "learning_rate": 8.54e-06, "elapsed_time_per_iteration": 4.78137493, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 35s", "remaining_time": "1h 14m 48s", "loss_scale": 1.0, "consumed_samples": 1388288, "global_step/max_steps": "5423/6350"}
{"lm loss": 4.85556126, "grad_norm": 0.39272651, "learning_rate": 8.53e-06, "elapsed_time_per_iteration": 4.82314539, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 40s", "remaining_time": "1h 14m 43s", "loss_scale": 1.0, "consumed_samples": 1388544, "global_step/max_steps": "5424/6350"}
{"lm loss": 4.84749937, "grad_norm": 0.34703591, "learning_rate": 8.52e-06, "elapsed_time_per_iteration": 5.20688605, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 45s", "remaining_time": "1h 14m 38s", "loss_scale": 1.0, "consumed_samples": 1388800, "global_step/max_steps": "5425/6350"}
{"lm loss": 4.88439894, "grad_norm": 0.38191149, "learning_rate": 8.51e-06, "elapsed_time_per_iteration": 4.73070884, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 50s", "remaining_time": "1h 14m 33s", "loss_scale": 1.0, "consumed_samples": 1389056, "global_step/max_steps": "5426/6350"}
{"lm loss": 4.88566446, "grad_norm": 0.37404013, "learning_rate": 8.5e-06, "elapsed_time_per_iteration": 5.63642716, "memory(GiB)": 28.03, "elapsed_time": "7h 17m 56s", "remaining_time": "1h 14m 28s", "loss_scale": 1.0, "consumed_samples": 1389312, "global_step/max_steps": "5427/6350"}
{"lm loss": 4.87338829, "grad_norm": 0.35490555, "learning_rate": 8.48e-06, "elapsed_time_per_iteration": 4.78878069, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 0s", "remaining_time": "1h 14m 24s", "loss_scale": 1.0, "consumed_samples": 1389568, "global_step/max_steps": "5428/6350"}
{"lm loss": 4.87301207, "grad_norm": 0.35968965, "learning_rate": 8.47e-06, "elapsed_time_per_iteration": 4.68874145, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 5s", "remaining_time": "1h 14m 19s", "loss_scale": 1.0, "consumed_samples": 1389824, "global_step/max_steps": "5429/6350"}
{"lm loss": 4.85896778, "grad_norm": 0.36903396, "learning_rate": 8.46e-06, "elapsed_time_per_iteration": 4.72445965, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 10s", "remaining_time": "1h 14m 14s", "loss_scale": 1.0, "consumed_samples": 1390080, "global_step/max_steps": "5430/6350"}
{"lm loss": 4.87268591, "grad_norm": 0.35521621, "learning_rate": 8.45e-06, "elapsed_time_per_iteration": 4.68896151, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 14s", "remaining_time": "1h 14m 9s", "loss_scale": 1.0, "consumed_samples": 1390336, "global_step/max_steps": "5431/6350"}
{"lm loss": 4.86890888, "grad_norm": 0.37461028, "learning_rate": 8.44e-06, "elapsed_time_per_iteration": 4.74896955, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 19s", "remaining_time": "1h 14m 4s", "loss_scale": 1.0, "consumed_samples": 1390592, "global_step/max_steps": "5432/6350"}
{"lm loss": 4.848248, "grad_norm": 0.33938864, "learning_rate": 8.43e-06, "elapsed_time_per_iteration": 5.34208107, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 25s", "remaining_time": "1h 13m 59s", "loss_scale": 1.0, "consumed_samples": 1390848, "global_step/max_steps": "5433/6350"}
{"lm loss": 4.84722185, "grad_norm": 0.34858179, "learning_rate": 8.41e-06, "elapsed_time_per_iteration": 4.71441817, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 29s", "remaining_time": "1h 13m 54s", "loss_scale": 1.0, "consumed_samples": 1391104, "global_step/max_steps": "5434/6350"}
{"lm loss": 4.86467552, "grad_norm": 0.5129593, "learning_rate": 8.4e-06, "elapsed_time_per_iteration": 4.74976254, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 34s", "remaining_time": "1h 13m 50s", "loss_scale": 1.0, "consumed_samples": 1391360, "global_step/max_steps": "5435/6350"}
{"lm loss": 4.83239603, "grad_norm": 0.35981169, "learning_rate": 8.39e-06, "elapsed_time_per_iteration": 5.4829917, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 39s", "remaining_time": "1h 13m 45s", "loss_scale": 1.0, "consumed_samples": 1391616, "global_step/max_steps": "5436/6350"}
{"lm loss": 4.86682606, "grad_norm": 0.36139131, "learning_rate": 8.38e-06, "elapsed_time_per_iteration": 4.77659202, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 44s", "remaining_time": "1h 13m 40s", "loss_scale": 1.0, "consumed_samples": 1391872, "global_step/max_steps": "5437/6350"}
{"lm loss": 4.8377142, "grad_norm": 0.3789435, "learning_rate": 8.37e-06, "elapsed_time_per_iteration": 4.75843501, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 49s", "remaining_time": "1h 13m 35s", "loss_scale": 1.0, "consumed_samples": 1392128, "global_step/max_steps": "5438/6350"}
{"lm loss": 4.8460269, "grad_norm": 0.35291392, "learning_rate": 8.36e-06, "elapsed_time_per_iteration": 4.7129631, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 54s", "remaining_time": "1h 13m 30s", "loss_scale": 1.0, "consumed_samples": 1392384, "global_step/max_steps": "5439/6350"}
{"lm loss": 4.86886692, "grad_norm": 0.3887558, "learning_rate": 8.35e-06, "elapsed_time_per_iteration": 4.71896863, "memory(GiB)": 28.03, "elapsed_time": "7h 18m 58s", "remaining_time": "1h 13m 25s", "loss_scale": 1.0, "consumed_samples": 1392640, "global_step/max_steps": "5440/6350"}
{"lm loss": 4.8751893, "grad_norm": 1.13759387, "learning_rate": 8.33e-06, "elapsed_time_per_iteration": 4.84819937, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 3s", "remaining_time": "1h 13m 21s", "loss_scale": 1.0, "consumed_samples": 1392896, "global_step/max_steps": "5441/6350"}
{"lm loss": 4.88206387, "grad_norm": 0.34877956, "learning_rate": 8.32e-06, "elapsed_time_per_iteration": 4.77125502, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 8s", "remaining_time": "1h 13m 16s", "loss_scale": 1.0, "consumed_samples": 1393152, "global_step/max_steps": "5442/6350"}
{"lm loss": 4.86903381, "grad_norm": 0.33855438, "learning_rate": 8.31e-06, "elapsed_time_per_iteration": 4.86046863, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 13s", "remaining_time": "1h 13m 11s", "loss_scale": 1.0, "consumed_samples": 1393408, "global_step/max_steps": "5443/6350"}
{"lm loss": 4.86049938, "grad_norm": 0.3491109, "learning_rate": 8.3e-06, "elapsed_time_per_iteration": 5.11332011, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 18s", "remaining_time": "1h 13m 6s", "loss_scale": 1.0, "consumed_samples": 1393664, "global_step/max_steps": "5444/6350"}
{"lm loss": 4.8534956, "grad_norm": 0.36968231, "learning_rate": 8.29e-06, "elapsed_time_per_iteration": 4.75128627, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 23s", "remaining_time": "1h 13m 1s", "loss_scale": 1.0, "consumed_samples": 1393920, "global_step/max_steps": "5445/6350"}
{"lm loss": 4.86322641, "grad_norm": 0.34420547, "learning_rate": 8.28e-06, "elapsed_time_per_iteration": 4.70672178, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 27s", "remaining_time": "1h 12m 56s", "loss_scale": 1.0, "consumed_samples": 1394176, "global_step/max_steps": "5446/6350"}
{"lm loss": 4.86601877, "grad_norm": 0.35899413, "learning_rate": 8.26e-06, "elapsed_time_per_iteration": 4.71190572, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 32s", "remaining_time": "1h 12m 52s", "loss_scale": 1.0, "consumed_samples": 1394432, "global_step/max_steps": "5447/6350"}
{"lm loss": 4.88101339, "grad_norm": 0.34879142, "learning_rate": 8.25e-06, "elapsed_time_per_iteration": 4.7831881, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 37s", "remaining_time": "1h 12m 47s", "loss_scale": 1.0, "consumed_samples": 1394688, "global_step/max_steps": "5448/6350"}
{"lm loss": 4.87549353, "grad_norm": 0.34260866, "learning_rate": 8.24e-06, "elapsed_time_per_iteration": 4.81650043, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 42s", "remaining_time": "1h 12m 42s", "loss_scale": 1.0, "consumed_samples": 1394944, "global_step/max_steps": "5449/6350"}
{"lm loss": 4.86398172, "grad_norm": 0.39193568, "learning_rate": 8.23e-06, "elapsed_time_per_iteration": 4.8195219, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 47s", "remaining_time": "1h 12m 37s", "loss_scale": 1.0, "consumed_samples": 1395200, "global_step/max_steps": "5450/6350"}
{"lm loss": 4.84749317, "grad_norm": 0.41831684, "learning_rate": 8.22e-06, "elapsed_time_per_iteration": 4.79573822, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 51s", "remaining_time": "1h 12m 32s", "loss_scale": 1.0, "consumed_samples": 1395456, "global_step/max_steps": "5451/6350"}
{"lm loss": 4.86556721, "grad_norm": 0.36253387, "learning_rate": 8.21e-06, "elapsed_time_per_iteration": 4.71450353, "memory(GiB)": 28.03, "elapsed_time": "7h 19m 56s", "remaining_time": "1h 12m 27s", "loss_scale": 1.0, "consumed_samples": 1395712, "global_step/max_steps": "5452/6350"}
{"lm loss": 4.87856913, "grad_norm": 0.45150378, "learning_rate": 8.2e-06, "elapsed_time_per_iteration": 4.76062846, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 1s", "remaining_time": "1h 12m 22s", "loss_scale": 1.0, "consumed_samples": 1395968, "global_step/max_steps": "5453/6350"}
{"lm loss": 4.84147072, "grad_norm": 0.40690267, "learning_rate": 8.18e-06, "elapsed_time_per_iteration": 4.78479362, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 6s", "remaining_time": "1h 12m 18s", "loss_scale": 1.0, "consumed_samples": 1396224, "global_step/max_steps": "5454/6350"}
{"lm loss": 4.86288548, "grad_norm": 0.36292759, "learning_rate": 8.17e-06, "elapsed_time_per_iteration": 4.79857683, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 10s", "remaining_time": "1h 12m 13s", "loss_scale": 1.0, "consumed_samples": 1396480, "global_step/max_steps": "5455/6350"}
{"lm loss": 4.87125587, "grad_norm": 0.38073972, "learning_rate": 8.16e-06, "elapsed_time_per_iteration": 5.44590855, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 16s", "remaining_time": "1h 12m 8s", "loss_scale": 1.0, "consumed_samples": 1396736, "global_step/max_steps": "5456/6350"}
{"lm loss": 4.85352468, "grad_norm": 0.35807323, "learning_rate": 8.15e-06, "elapsed_time_per_iteration": 4.72244096, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 21s", "remaining_time": "1h 12m 3s", "loss_scale": 1.0, "consumed_samples": 1396992, "global_step/max_steps": "5457/6350"}
{"lm loss": 4.855474, "grad_norm": 0.37530419, "learning_rate": 8.14e-06, "elapsed_time_per_iteration": 4.7922442, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 25s", "remaining_time": "1h 11m 58s", "loss_scale": 1.0, "consumed_samples": 1397248, "global_step/max_steps": "5458/6350"}
{"lm loss": 4.83477974, "grad_norm": 0.35662696, "learning_rate": 8.13e-06, "elapsed_time_per_iteration": 5.58533597, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 31s", "remaining_time": "1h 11m 54s", "loss_scale": 1.0, "consumed_samples": 1397504, "global_step/max_steps": "5459/6350"}
{"lm loss": 4.86633348, "grad_norm": 0.37278232, "learning_rate": 8.12e-06, "elapsed_time_per_iteration": 4.78211236, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 36s", "remaining_time": "1h 11m 49s", "loss_scale": 1.0, "consumed_samples": 1397760, "global_step/max_steps": "5460/6350"}
{"lm loss": 4.86664391, "grad_norm": 0.37195426, "learning_rate": 8.11e-06, "elapsed_time_per_iteration": 4.76721454, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 41s", "remaining_time": "1h 11m 44s", "loss_scale": 1.0, "consumed_samples": 1398016, "global_step/max_steps": "5461/6350"}
{"lm loss": 4.87303448, "grad_norm": 0.38091087, "learning_rate": 8.09e-06, "elapsed_time_per_iteration": 4.81309152, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 45s", "remaining_time": "1h 11m 39s", "loss_scale": 1.0, "consumed_samples": 1398272, "global_step/max_steps": "5462/6350"}
{"lm loss": 4.86369038, "grad_norm": 0.39817128, "learning_rate": 8.08e-06, "elapsed_time_per_iteration": 4.7967484, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 50s", "remaining_time": "1h 11m 34s", "loss_scale": 1.0, "consumed_samples": 1398528, "global_step/max_steps": "5463/6350"}
{"lm loss": 4.85707092, "grad_norm": 0.36520278, "learning_rate": 8.07e-06, "elapsed_time_per_iteration": 4.77314401, "memory(GiB)": 28.03, "elapsed_time": "7h 20m 55s", "remaining_time": "1h 11m 29s", "loss_scale": 1.0, "consumed_samples": 1398784, "global_step/max_steps": "5464/6350"}
{"lm loss": 4.86669922, "grad_norm": 0.40296987, "learning_rate": 8.06e-06, "elapsed_time_per_iteration": 4.80164933, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 0s", "remaining_time": "1h 11m 24s", "loss_scale": 1.0, "consumed_samples": 1399040, "global_step/max_steps": "5465/6350"}
{"lm loss": 4.87387419, "grad_norm": 0.43075478, "learning_rate": 8.05e-06, "elapsed_time_per_iteration": 4.77648592, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 5s", "remaining_time": "1h 11m 20s", "loss_scale": 1.0, "consumed_samples": 1399296, "global_step/max_steps": "5466/6350"}
{"lm loss": 4.8843689, "grad_norm": 0.38542372, "learning_rate": 8.04e-06, "elapsed_time_per_iteration": 4.68209529, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 9s", "remaining_time": "1h 11m 15s", "loss_scale": 1.0, "consumed_samples": 1399552, "global_step/max_steps": "5467/6350"}
{"lm loss": 4.85292435, "grad_norm": 0.41422018, "learning_rate": 8.03e-06, "elapsed_time_per_iteration": 4.74536347, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 14s", "remaining_time": "1h 11m 10s", "loss_scale": 1.0, "consumed_samples": 1399808, "global_step/max_steps": "5468/6350"}
{"lm loss": 4.85955954, "grad_norm": 0.43527323, "learning_rate": 8.02e-06, "elapsed_time_per_iteration": 4.72726059, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 19s", "remaining_time": "1h 11m 5s", "loss_scale": 1.0, "consumed_samples": 1400064, "global_step/max_steps": "5469/6350"}
{"lm loss": 4.87272549, "grad_norm": 0.37666014, "learning_rate": 8e-06, "elapsed_time_per_iteration": 4.74206614, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 23s", "remaining_time": "1h 11m 0s", "loss_scale": 1.0, "consumed_samples": 1400320, "global_step/max_steps": "5470/6350"}
{"lm loss": 4.88474894, "grad_norm": 0.38712373, "learning_rate": 7.99e-06, "elapsed_time_per_iteration": 4.84233546, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 28s", "remaining_time": "1h 10m 55s", "loss_scale": 1.0, "consumed_samples": 1400576, "global_step/max_steps": "5471/6350"}
{"lm loss": 4.84804583, "grad_norm": 0.39998722, "learning_rate": 7.98e-06, "elapsed_time_per_iteration": 4.69037366, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 33s", "remaining_time": "1h 10m 50s", "loss_scale": 1.0, "consumed_samples": 1400832, "global_step/max_steps": "5472/6350"}
{"lm loss": 4.85795069, "grad_norm": 0.41091907, "learning_rate": 7.97e-06, "elapsed_time_per_iteration": 5.55958486, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 39s", "remaining_time": "1h 10m 46s", "loss_scale": 1.0, "consumed_samples": 1401088, "global_step/max_steps": "5473/6350"}
{"lm loss": 4.85190535, "grad_norm": 0.38002753, "learning_rate": 7.96e-06, "elapsed_time_per_iteration": 4.73826647, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 43s", "remaining_time": "1h 10m 41s", "loss_scale": 1.0, "consumed_samples": 1401344, "global_step/max_steps": "5474/6350"}
{"lm loss": 4.87283993, "grad_norm": 0.37900266, "learning_rate": 7.95e-06, "elapsed_time_per_iteration": 5.61856508, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 49s", "remaining_time": "1h 10m 36s", "loss_scale": 1.0, "consumed_samples": 1401600, "global_step/max_steps": "5475/6350"}
{"lm loss": 4.86344051, "grad_norm": 0.89786512, "learning_rate": 7.94e-06, "elapsed_time_per_iteration": 4.74472094, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 54s", "remaining_time": "1h 10m 31s", "loss_scale": 1.0, "consumed_samples": 1401856, "global_step/max_steps": "5476/6350"}
{"lm loss": 4.89237118, "grad_norm": 0.39089572, "learning_rate": 7.93e-06, "elapsed_time_per_iteration": 4.69246578, "memory(GiB)": 28.03, "elapsed_time": "7h 21m 58s", "remaining_time": "1h 10m 26s", "loss_scale": 1.0, "consumed_samples": 1402112, "global_step/max_steps": "5477/6350"}
{"lm loss": 4.85233164, "grad_norm": 0.37035772, "learning_rate": 7.92e-06, "elapsed_time_per_iteration": 4.81939793, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 3s", "remaining_time": "1h 10m 22s", "loss_scale": 1.0, "consumed_samples": 1402368, "global_step/max_steps": "5478/6350"}
{"lm loss": 4.85051823, "grad_norm": 0.39738026, "learning_rate": 7.9e-06, "elapsed_time_per_iteration": 4.72968554, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 8s", "remaining_time": "1h 10m 17s", "loss_scale": 1.0, "consumed_samples": 1402624, "global_step/max_steps": "5479/6350"}
{"lm loss": 4.87474585, "grad_norm": 0.37203294, "learning_rate": 7.89e-06, "elapsed_time_per_iteration": 4.74993706, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 13s", "remaining_time": "1h 10m 12s", "loss_scale": 1.0, "consumed_samples": 1402880, "global_step/max_steps": "5480/6350"}
{"lm loss": 4.87355852, "grad_norm": 0.37850145, "learning_rate": 7.88e-06, "elapsed_time_per_iteration": 5.78181553, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 18s", "remaining_time": "1h 10m 7s", "loss_scale": 1.0, "consumed_samples": 1403136, "global_step/max_steps": "5481/6350"}
{"lm loss": 4.86004019, "grad_norm": 0.37378925, "learning_rate": 7.87e-06, "elapsed_time_per_iteration": 4.73263192, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 23s", "remaining_time": "1h 10m 2s", "loss_scale": 1.0, "consumed_samples": 1403392, "global_step/max_steps": "5482/6350"}
{"lm loss": 4.863976, "grad_norm": 0.37687421, "learning_rate": 7.86e-06, "elapsed_time_per_iteration": 5.6189537, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 29s", "remaining_time": "1h 9m 58s", "loss_scale": 1.0, "consumed_samples": 1403648, "global_step/max_steps": "5483/6350"}
{"lm loss": 4.84451962, "grad_norm": 0.34462801, "learning_rate": 7.85e-06, "elapsed_time_per_iteration": 4.75203729, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 33s", "remaining_time": "1h 9m 53s", "loss_scale": 1.0, "consumed_samples": 1403904, "global_step/max_steps": "5484/6350"}
{"lm loss": 4.87530184, "grad_norm": 0.40768024, "learning_rate": 7.84e-06, "elapsed_time_per_iteration": 4.74510288, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 38s", "remaining_time": "1h 9m 48s", "loss_scale": 1.0, "consumed_samples": 1404160, "global_step/max_steps": "5485/6350"}
{"lm loss": 4.8709383, "grad_norm": 0.38428122, "learning_rate": 7.83e-06, "elapsed_time_per_iteration": 4.72228694, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 43s", "remaining_time": "1h 9m 43s", "loss_scale": 1.0, "consumed_samples": 1404416, "global_step/max_steps": "5486/6350"}
{"lm loss": 4.83583355, "grad_norm": 0.3549118, "learning_rate": 7.82e-06, "elapsed_time_per_iteration": 4.75807643, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 48s", "remaining_time": "1h 9m 38s", "loss_scale": 1.0, "consumed_samples": 1404672, "global_step/max_steps": "5487/6350"}
{"lm loss": 4.88012266, "grad_norm": 0.38711831, "learning_rate": 7.81e-06, "elapsed_time_per_iteration": 4.6982398, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 52s", "remaining_time": "1h 9m 33s", "loss_scale": 1.0, "consumed_samples": 1404928, "global_step/max_steps": "5488/6350"}
{"lm loss": 4.85962868, "grad_norm": 0.35582584, "learning_rate": 7.79e-06, "elapsed_time_per_iteration": 5.20888615, "memory(GiB)": 28.03, "elapsed_time": "7h 22m 58s", "remaining_time": "1h 9m 29s", "loss_scale": 1.0, "consumed_samples": 1405184, "global_step/max_steps": "5489/6350"}
{"lm loss": 4.87224627, "grad_norm": 0.37111834, "learning_rate": 7.78e-06, "elapsed_time_per_iteration": 5.01956129, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 3s", "remaining_time": "1h 9m 24s", "loss_scale": 1.0, "consumed_samples": 1405440, "global_step/max_steps": "5490/6350"}
{"lm loss": 4.87030458, "grad_norm": 1.13838363, "learning_rate": 7.77e-06, "elapsed_time_per_iteration": 4.75595284, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 7s", "remaining_time": "1h 9m 19s", "loss_scale": 1.0, "consumed_samples": 1405696, "global_step/max_steps": "5491/6350"}
{"lm loss": 4.87311411, "grad_norm": 1.31533086, "learning_rate": 7.76e-06, "elapsed_time_per_iteration": 4.7127862, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 12s", "remaining_time": "1h 9m 14s", "loss_scale": 1.0, "consumed_samples": 1405952, "global_step/max_steps": "5492/6350"}
{"lm loss": 4.87789869, "grad_norm": 0.36906061, "learning_rate": 7.75e-06, "elapsed_time_per_iteration": 4.81767273, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 17s", "remaining_time": "1h 9m 9s", "loss_scale": 1.0, "consumed_samples": 1406208, "global_step/max_steps": "5493/6350"}
{"lm loss": 4.84334087, "grad_norm": 0.35638055, "learning_rate": 7.74e-06, "elapsed_time_per_iteration": 4.76628113, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 22s", "remaining_time": "1h 9m 4s", "loss_scale": 1.0, "consumed_samples": 1406464, "global_step/max_steps": "5494/6350"}
{"lm loss": 4.87080622, "grad_norm": 0.37436211, "learning_rate": 7.73e-06, "elapsed_time_per_iteration": 4.78436899, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 26s", "remaining_time": "1h 8m 59s", "loss_scale": 1.0, "consumed_samples": 1406720, "global_step/max_steps": "5495/6350"}
{"lm loss": 4.86715603, "grad_norm": 0.39303455, "learning_rate": 7.72e-06, "elapsed_time_per_iteration": 4.67887378, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 31s", "remaining_time": "1h 8m 55s", "loss_scale": 1.0, "consumed_samples": 1406976, "global_step/max_steps": "5496/6350"}
{"lm loss": 4.86059237, "grad_norm": 0.34483853, "learning_rate": 7.71e-06, "elapsed_time_per_iteration": 4.598423, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 36s", "remaining_time": "1h 8m 50s", "loss_scale": 1.0, "consumed_samples": 1407232, "global_step/max_steps": "5497/6350"}
{"lm loss": 4.87650156, "grad_norm": 0.36639169, "learning_rate": 7.7e-06, "elapsed_time_per_iteration": 4.72142696, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 40s", "remaining_time": "1h 8m 45s", "loss_scale": 1.0, "consumed_samples": 1407488, "global_step/max_steps": "5498/6350"}
{"lm loss": 4.86985683, "grad_norm": 0.36890817, "learning_rate": 7.69e-06, "elapsed_time_per_iteration": 4.68427444, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 45s", "remaining_time": "1h 8m 40s", "loss_scale": 1.0, "consumed_samples": 1407744, "global_step/max_steps": "5499/6350"}
{"lm loss": 4.84447861, "grad_norm": 0.37814686, "learning_rate": 7.67e-06, "elapsed_time_per_iteration": 4.69248343, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 50s", "remaining_time": "1h 8m 35s", "loss_scale": 1.0, "consumed_samples": 1408000, "global_step/max_steps": "5500/6350"}
{"lm loss": 4.87620258, "grad_norm": 0.34652913, "learning_rate": 7.66e-06, "elapsed_time_per_iteration": 4.71157384, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 55s", "remaining_time": "1h 8m 30s", "loss_scale": 1.0, "consumed_samples": 1408256, "global_step/max_steps": "5501/6350"}
{"lm loss": 4.85934019, "grad_norm": 0.37731686, "learning_rate": 7.65e-06, "elapsed_time_per_iteration": 4.71739697, "memory(GiB)": 28.03, "elapsed_time": "7h 23m 59s", "remaining_time": "1h 8m 25s", "loss_scale": 1.0, "consumed_samples": 1408512, "global_step/max_steps": "5502/6350"}
{"lm loss": 4.84248829, "grad_norm": 0.36995539, "learning_rate": 7.64e-06, "elapsed_time_per_iteration": 4.73928142, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 4s", "remaining_time": "1h 8m 21s", "loss_scale": 1.0, "consumed_samples": 1408768, "global_step/max_steps": "5503/6350"}
{"lm loss": 4.84704065, "grad_norm": 0.39416882, "learning_rate": 7.63e-06, "elapsed_time_per_iteration": 4.70343232, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 9s", "remaining_time": "1h 8m 16s", "loss_scale": 1.0, "consumed_samples": 1409024, "global_step/max_steps": "5504/6350"}
{"lm loss": 4.85910654, "grad_norm": 0.39110881, "learning_rate": 7.62e-06, "elapsed_time_per_iteration": 4.69019485, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 13s", "remaining_time": "1h 8m 11s", "loss_scale": 1.0, "consumed_samples": 1409280, "global_step/max_steps": "5505/6350"}
{"lm loss": 4.86789656, "grad_norm": 0.38002464, "learning_rate": 7.61e-06, "elapsed_time_per_iteration": 4.70467639, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 18s", "remaining_time": "1h 8m 6s", "loss_scale": 1.0, "consumed_samples": 1409536, "global_step/max_steps": "5506/6350"}
{"lm loss": 4.84002829, "grad_norm": 0.36858818, "learning_rate": 7.6e-06, "elapsed_time_per_iteration": 4.74147058, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 23s", "remaining_time": "1h 8m 1s", "loss_scale": 1.0, "consumed_samples": 1409792, "global_step/max_steps": "5507/6350"}
{"lm loss": 4.86278343, "grad_norm": 0.38632524, "learning_rate": 7.59e-06, "elapsed_time_per_iteration": 4.75769949, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 28s", "remaining_time": "1h 7m 56s", "loss_scale": 1.0, "consumed_samples": 1410048, "global_step/max_steps": "5508/6350"}
{"lm loss": 4.86788845, "grad_norm": 0.38888767, "learning_rate": 7.58e-06, "elapsed_time_per_iteration": 4.69354963, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 32s", "remaining_time": "1h 7m 51s", "loss_scale": 1.0, "consumed_samples": 1410304, "global_step/max_steps": "5509/6350"}
{"lm loss": 4.85063362, "grad_norm": 0.35947818, "learning_rate": 7.57e-06, "elapsed_time_per_iteration": 4.74015284, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 37s", "remaining_time": "1h 7m 46s", "loss_scale": 1.0, "consumed_samples": 1410560, "global_step/max_steps": "5510/6350"}
{"lm loss": 4.85961723, "grad_norm": 0.33532473, "learning_rate": 7.56e-06, "elapsed_time_per_iteration": 4.69848943, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 42s", "remaining_time": "1h 7m 42s", "loss_scale": 1.0, "consumed_samples": 1410816, "global_step/max_steps": "5511/6350"}
{"lm loss": 4.85811377, "grad_norm": 0.3966614, "learning_rate": 7.55e-06, "elapsed_time_per_iteration": 4.68443012, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 46s", "remaining_time": "1h 7m 37s", "loss_scale": 1.0, "consumed_samples": 1411072, "global_step/max_steps": "5512/6350"}
{"lm loss": 4.84849119, "grad_norm": 0.35743064, "learning_rate": 7.54e-06, "elapsed_time_per_iteration": 4.72632694, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 51s", "remaining_time": "1h 7m 32s", "loss_scale": 1.0, "consumed_samples": 1411328, "global_step/max_steps": "5513/6350"}
{"lm loss": 4.86089039, "grad_norm": 0.37844804, "learning_rate": 7.52e-06, "elapsed_time_per_iteration": 4.7688756, "memory(GiB)": 28.03, "elapsed_time": "7h 24m 56s", "remaining_time": "1h 7m 27s", "loss_scale": 1.0, "consumed_samples": 1411584, "global_step/max_steps": "5514/6350"}
{"lm loss": 4.8747344, "grad_norm": 0.34482816, "learning_rate": 7.51e-06, "elapsed_time_per_iteration": 4.72807145, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 1s", "remaining_time": "1h 7m 22s", "loss_scale": 1.0, "consumed_samples": 1411840, "global_step/max_steps": "5515/6350"}
{"lm loss": 4.8501687, "grad_norm": 0.36354843, "learning_rate": 7.5e-06, "elapsed_time_per_iteration": 4.73544121, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 5s", "remaining_time": "1h 7m 17s", "loss_scale": 1.0, "consumed_samples": 1412096, "global_step/max_steps": "5516/6350"}
{"lm loss": 4.87924528, "grad_norm": 0.34938368, "learning_rate": 7.49e-06, "elapsed_time_per_iteration": 4.71498728, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 10s", "remaining_time": "1h 7m 12s", "loss_scale": 1.0, "consumed_samples": 1412352, "global_step/max_steps": "5517/6350"}
{"lm loss": 4.85463285, "grad_norm": 0.33961967, "learning_rate": 7.48e-06, "elapsed_time_per_iteration": 5.13053608, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 15s", "remaining_time": "1h 7m 8s", "loss_scale": 1.0, "consumed_samples": 1412608, "global_step/max_steps": "5518/6350"}
{"lm loss": 4.84030104, "grad_norm": 0.35714176, "learning_rate": 7.47e-06, "elapsed_time_per_iteration": 4.67411661, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 20s", "remaining_time": "1h 7m 3s", "loss_scale": 1.0, "consumed_samples": 1412864, "global_step/max_steps": "5519/6350"}
{"lm loss": 4.87345695, "grad_norm": 0.37622705, "learning_rate": 7.46e-06, "elapsed_time_per_iteration": 4.82571554, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 25s", "remaining_time": "1h 6m 58s", "loss_scale": 1.0, "consumed_samples": 1413120, "global_step/max_steps": "5520/6350"}
{"lm loss": 4.87227201, "grad_norm": 0.34356204, "learning_rate": 7.45e-06, "elapsed_time_per_iteration": 4.70207334, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 29s", "remaining_time": "1h 6m 53s", "loss_scale": 1.0, "consumed_samples": 1413376, "global_step/max_steps": "5521/6350"}
{"lm loss": 4.87528181, "grad_norm": 0.36425322, "learning_rate": 7.44e-06, "elapsed_time_per_iteration": 4.66681576, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 34s", "remaining_time": "1h 6m 48s", "loss_scale": 1.0, "consumed_samples": 1413632, "global_step/max_steps": "5522/6350"}
{"lm loss": 4.86991405, "grad_norm": 0.35075662, "learning_rate": 7.43e-06, "elapsed_time_per_iteration": 4.68207479, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 39s", "remaining_time": "1h 6m 43s", "loss_scale": 1.0, "consumed_samples": 1413888, "global_step/max_steps": "5523/6350"}
{"lm loss": 4.84340477, "grad_norm": 0.34642261, "learning_rate": 7.42e-06, "elapsed_time_per_iteration": 4.66909242, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 43s", "remaining_time": "1h 6m 39s", "loss_scale": 1.0, "consumed_samples": 1414144, "global_step/max_steps": "5524/6350"}
{"lm loss": 4.88312578, "grad_norm": 0.36280814, "learning_rate": 7.41e-06, "elapsed_time_per_iteration": 5.26746798, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 49s", "remaining_time": "1h 6m 34s", "loss_scale": 1.0, "consumed_samples": 1414400, "global_step/max_steps": "5525/6350"}
{"lm loss": 4.86013651, "grad_norm": 0.36848152, "learning_rate": 7.4e-06, "elapsed_time_per_iteration": 4.73151422, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 53s", "remaining_time": "1h 6m 29s", "loss_scale": 1.0, "consumed_samples": 1414656, "global_step/max_steps": "5526/6350"}
{"lm loss": 4.84950686, "grad_norm": 0.36284825, "learning_rate": 7.39e-06, "elapsed_time_per_iteration": 4.76642609, "memory(GiB)": 28.03, "elapsed_time": "7h 25m 58s", "remaining_time": "1h 6m 24s", "loss_scale": 1.0, "consumed_samples": 1414912, "global_step/max_steps": "5527/6350"}
{"lm loss": 4.87217426, "grad_norm": 0.35624692, "learning_rate": 7.38e-06, "elapsed_time_per_iteration": 4.70247936, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 3s", "remaining_time": "1h 6m 19s", "loss_scale": 1.0, "consumed_samples": 1415168, "global_step/max_steps": "5528/6350"}
{"lm loss": 4.86504745, "grad_norm": 0.37360832, "learning_rate": 7.37e-06, "elapsed_time_per_iteration": 4.67630076, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 8s", "remaining_time": "1h 6m 14s", "loss_scale": 1.0, "consumed_samples": 1415424, "global_step/max_steps": "5529/6350"}
{"lm loss": 4.86802959, "grad_norm": 0.39363006, "learning_rate": 7.36e-06, "elapsed_time_per_iteration": 4.77253008, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 12s", "remaining_time": "1h 6m 9s", "loss_scale": 1.0, "consumed_samples": 1415680, "global_step/max_steps": "5530/6350"}
{"lm loss": 4.86596346, "grad_norm": 0.36082968, "learning_rate": 7.35e-06, "elapsed_time_per_iteration": 4.70447922, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 17s", "remaining_time": "1h 6m 5s", "loss_scale": 1.0, "consumed_samples": 1415936, "global_step/max_steps": "5531/6350"}
{"lm loss": 4.88500595, "grad_norm": 0.38751259, "learning_rate": 7.33e-06, "elapsed_time_per_iteration": 4.72521973, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 22s", "remaining_time": "1h 6m 0s", "loss_scale": 1.0, "consumed_samples": 1416192, "global_step/max_steps": "5532/6350"}
{"lm loss": 4.86169958, "grad_norm": 0.34303457, "learning_rate": 7.32e-06, "elapsed_time_per_iteration": 4.67895603, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 26s", "remaining_time": "1h 5m 55s", "loss_scale": 1.0, "consumed_samples": 1416448, "global_step/max_steps": "5533/6350"}
{"lm loss": 4.85756969, "grad_norm": 0.40091369, "learning_rate": 7.31e-06, "elapsed_time_per_iteration": 4.73200989, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 31s", "remaining_time": "1h 5m 50s", "loss_scale": 1.0, "consumed_samples": 1416704, "global_step/max_steps": "5534/6350"}
{"lm loss": 4.85889435, "grad_norm": 0.35904929, "learning_rate": 7.3e-06, "elapsed_time_per_iteration": 4.73840356, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 36s", "remaining_time": "1h 5m 45s", "loss_scale": 1.0, "consumed_samples": 1416960, "global_step/max_steps": "5535/6350"}
{"lm loss": 4.83793354, "grad_norm": 0.36982211, "learning_rate": 7.29e-06, "elapsed_time_per_iteration": 4.72789454, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 41s", "remaining_time": "1h 5m 40s", "loss_scale": 1.0, "consumed_samples": 1417216, "global_step/max_steps": "5536/6350"}
{"lm loss": 4.84553719, "grad_norm": 0.34069771, "learning_rate": 7.28e-06, "elapsed_time_per_iteration": 4.82786584, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 46s", "remaining_time": "1h 5m 35s", "loss_scale": 1.0, "consumed_samples": 1417472, "global_step/max_steps": "5537/6350"}
{"lm loss": 4.87668705, "grad_norm": 0.43308559, "learning_rate": 7.27e-06, "elapsed_time_per_iteration": 4.90792942, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 50s", "remaining_time": "1h 5m 31s", "loss_scale": 1.0, "consumed_samples": 1417728, "global_step/max_steps": "5538/6350"}
{"lm loss": 4.86956978, "grad_norm": 0.34963301, "learning_rate": 7.26e-06, "elapsed_time_per_iteration": 4.72578764, "memory(GiB)": 28.03, "elapsed_time": "7h 26m 55s", "remaining_time": "1h 5m 26s", "loss_scale": 1.0, "consumed_samples": 1417984, "global_step/max_steps": "5539/6350"}
{"lm loss": 4.84622097, "grad_norm": 0.35234338, "learning_rate": 7.25e-06, "elapsed_time_per_iteration": 4.62801647, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 0s", "remaining_time": "1h 5m 21s", "loss_scale": 1.0, "consumed_samples": 1418240, "global_step/max_steps": "5540/6350"}
{"lm loss": 4.87464714, "grad_norm": 0.36227429, "learning_rate": 7.24e-06, "elapsed_time_per_iteration": 4.74532485, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 5s", "remaining_time": "1h 5m 16s", "loss_scale": 1.0, "consumed_samples": 1418496, "global_step/max_steps": "5541/6350"}
{"lm loss": 4.87036276, "grad_norm": 0.39635113, "learning_rate": 7.23e-06, "elapsed_time_per_iteration": 5.66507363, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 10s", "remaining_time": "1h 5m 11s", "loss_scale": 1.0, "consumed_samples": 1418752, "global_step/max_steps": "5542/6350"}
{"lm loss": 4.84873009, "grad_norm": 0.32626137, "learning_rate": 7.22e-06, "elapsed_time_per_iteration": 4.70479608, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 15s", "remaining_time": "1h 5m 6s", "loss_scale": 1.0, "consumed_samples": 1419008, "global_step/max_steps": "5543/6350"}
{"lm loss": 4.84937572, "grad_norm": 0.3606348, "learning_rate": 7.21e-06, "elapsed_time_per_iteration": 5.26260281, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 20s", "remaining_time": "1h 5m 2s", "loss_scale": 1.0, "consumed_samples": 1419264, "global_step/max_steps": "5544/6350"}
{"lm loss": 4.86749172, "grad_norm": 0.35826516, "learning_rate": 7.2e-06, "elapsed_time_per_iteration": 4.74657321, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 25s", "remaining_time": "1h 4m 57s", "loss_scale": 1.0, "consumed_samples": 1419520, "global_step/max_steps": "5545/6350"}
{"lm loss": 4.87530327, "grad_norm": 0.33414662, "learning_rate": 7.19e-06, "elapsed_time_per_iteration": 4.65549588, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 30s", "remaining_time": "1h 4m 52s", "loss_scale": 1.0, "consumed_samples": 1419776, "global_step/max_steps": "5546/6350"}
{"lm loss": 4.85103321, "grad_norm": 0.3741031, "learning_rate": 7.18e-06, "elapsed_time_per_iteration": 4.75971746, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 34s", "remaining_time": "1h 4m 47s", "loss_scale": 1.0, "consumed_samples": 1420032, "global_step/max_steps": "5547/6350"}
{"lm loss": 4.87715149, "grad_norm": 0.34534582, "learning_rate": 7.17e-06, "elapsed_time_per_iteration": 4.82718182, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 39s", "remaining_time": "1h 4m 42s", "loss_scale": 1.0, "consumed_samples": 1420288, "global_step/max_steps": "5548/6350"}
{"lm loss": 4.86310816, "grad_norm": 0.33621487, "learning_rate": 7.16e-06, "elapsed_time_per_iteration": 4.78968596, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 44s", "remaining_time": "1h 4m 37s", "loss_scale": 1.0, "consumed_samples": 1420544, "global_step/max_steps": "5549/6350"}
{"lm loss": 4.87047577, "grad_norm": 0.3865464, "learning_rate": 7.15e-06, "elapsed_time_per_iteration": 4.67010355, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 49s", "remaining_time": "1h 4m 33s", "loss_scale": 1.0, "consumed_samples": 1420800, "global_step/max_steps": "5550/6350"}
{"lm loss": 4.86275244, "grad_norm": 0.35478979, "learning_rate": 7.14e-06, "elapsed_time_per_iteration": 4.74800992, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 53s", "remaining_time": "1h 4m 28s", "loss_scale": 1.0, "consumed_samples": 1421056, "global_step/max_steps": "5551/6350"}
{"lm loss": 4.83707285, "grad_norm": 0.3500852, "learning_rate": 7.13e-06, "elapsed_time_per_iteration": 5.62455273, "memory(GiB)": 28.03, "elapsed_time": "7h 27m 59s", "remaining_time": "1h 4m 23s", "loss_scale": 1.0, "consumed_samples": 1421312, "global_step/max_steps": "5552/6350"}
{"lm loss": 4.8607893, "grad_norm": 0.40521148, "learning_rate": 7.12e-06, "elapsed_time_per_iteration": 5.6569109, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 5s", "remaining_time": "1h 4m 18s", "loss_scale": 1.0, "consumed_samples": 1421568, "global_step/max_steps": "5553/6350"}
{"lm loss": 4.87098455, "grad_norm": 1.11360908, "learning_rate": 7.11e-06, "elapsed_time_per_iteration": 4.69137502, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 9s", "remaining_time": "1h 4m 13s", "loss_scale": 1.0, "consumed_samples": 1421824, "global_step/max_steps": "5554/6350"}
{"lm loss": 4.8756938, "grad_norm": 0.35209692, "learning_rate": 7.1e-06, "elapsed_time_per_iteration": 4.67467976, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 14s", "remaining_time": "1h 4m 8s", "loss_scale": 1.0, "consumed_samples": 1422080, "global_step/max_steps": "5555/6350"}
{"lm loss": 4.85861111, "grad_norm": 0.38389039, "learning_rate": 7.09e-06, "elapsed_time_per_iteration": 4.68878412, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 19s", "remaining_time": "1h 4m 4s", "loss_scale": 1.0, "consumed_samples": 1422336, "global_step/max_steps": "5556/6350"}
{"lm loss": 4.8515625, "grad_norm": 0.35128585, "learning_rate": 7.08e-06, "elapsed_time_per_iteration": 4.74507236, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 23s", "remaining_time": "1h 3m 59s", "loss_scale": 1.0, "consumed_samples": 1422592, "global_step/max_steps": "5557/6350"}
{"lm loss": 4.85904217, "grad_norm": 0.3651568, "learning_rate": 7.07e-06, "elapsed_time_per_iteration": 4.73884416, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 28s", "remaining_time": "1h 3m 54s", "loss_scale": 1.0, "consumed_samples": 1422848, "global_step/max_steps": "5558/6350"}
{"lm loss": 4.88297319, "grad_norm": 0.34682462, "learning_rate": 7.06e-06, "elapsed_time_per_iteration": 4.69610381, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 33s", "remaining_time": "1h 3m 49s", "loss_scale": 1.0, "consumed_samples": 1423104, "global_step/max_steps": "5559/6350"}
{"lm loss": 4.84793329, "grad_norm": 0.38113073, "learning_rate": 7.05e-06, "elapsed_time_per_iteration": 4.74562597, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 38s", "remaining_time": "1h 3m 44s", "loss_scale": 1.0, "consumed_samples": 1423360, "global_step/max_steps": "5560/6350"}
{"lm loss": 4.84757853, "grad_norm": 0.35051915, "learning_rate": 7.04e-06, "elapsed_time_per_iteration": 4.75291419, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 42s", "remaining_time": "1h 3m 39s", "loss_scale": 1.0, "consumed_samples": 1423616, "global_step/max_steps": "5561/6350"}
{"lm loss": 4.86882877, "grad_norm": 0.39550266, "learning_rate": 7.03e-06, "elapsed_time_per_iteration": 5.60579777, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 48s", "remaining_time": "1h 3m 35s", "loss_scale": 1.0, "consumed_samples": 1423872, "global_step/max_steps": "5562/6350"}
{"lm loss": 4.84418297, "grad_norm": 0.34194103, "learning_rate": 7.02e-06, "elapsed_time_per_iteration": 4.74637461, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 53s", "remaining_time": "1h 3m 30s", "loss_scale": 1.0, "consumed_samples": 1424128, "global_step/max_steps": "5563/6350"}
{"lm loss": 4.8784008, "grad_norm": 0.37870175, "learning_rate": 7.01e-06, "elapsed_time_per_iteration": 4.77234554, "memory(GiB)": 28.03, "elapsed_time": "7h 28m 57s", "remaining_time": "1h 3m 25s", "loss_scale": 1.0, "consumed_samples": 1424384, "global_step/max_steps": "5564/6350"}
{"lm loss": 4.86757278, "grad_norm": 0.36689261, "learning_rate": 7e-06, "elapsed_time_per_iteration": 4.74595785, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 2s", "remaining_time": "1h 3m 20s", "loss_scale": 1.0, "consumed_samples": 1424640, "global_step/max_steps": "5565/6350"}
{"lm loss": 4.8771553, "grad_norm": 0.35964948, "learning_rate": 6.99e-06, "elapsed_time_per_iteration": 4.77369285, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 7s", "remaining_time": "1h 3m 15s", "loss_scale": 1.0, "consumed_samples": 1424896, "global_step/max_steps": "5566/6350"}
{"lm loss": 4.84925127, "grad_norm": 0.33268607, "learning_rate": 6.98e-06, "elapsed_time_per_iteration": 4.7205658, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 12s", "remaining_time": "1h 3m 10s", "loss_scale": 1.0, "consumed_samples": 1425152, "global_step/max_steps": "5567/6350"}
{"lm loss": 4.86518669, "grad_norm": 0.34710297, "learning_rate": 6.97e-06, "elapsed_time_per_iteration": 4.79396415, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 17s", "remaining_time": "1h 3m 5s", "loss_scale": 1.0, "consumed_samples": 1425408, "global_step/max_steps": "5568/6350"}
{"lm loss": 4.85361195, "grad_norm": 0.35462332, "learning_rate": 6.96e-06, "elapsed_time_per_iteration": 4.75512981, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 21s", "remaining_time": "1h 3m 1s", "loss_scale": 1.0, "consumed_samples": 1425664, "global_step/max_steps": "5569/6350"}
{"lm loss": 4.84383821, "grad_norm": 0.36569923, "learning_rate": 6.95e-06, "elapsed_time_per_iteration": 5.51464701, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 27s", "remaining_time": "1h 2m 56s", "loss_scale": 1.0, "consumed_samples": 1425920, "global_step/max_steps": "5570/6350"}
{"lm loss": 4.87222862, "grad_norm": 0.34238172, "learning_rate": 6.94e-06, "elapsed_time_per_iteration": 4.72045851, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 32s", "remaining_time": "1h 2m 51s", "loss_scale": 1.0, "consumed_samples": 1426176, "global_step/max_steps": "5571/6350"}
{"lm loss": 4.85670233, "grad_norm": 0.38470036, "learning_rate": 6.93e-06, "elapsed_time_per_iteration": 4.77341938, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 36s", "remaining_time": "1h 2m 46s", "loss_scale": 1.0, "consumed_samples": 1426432, "global_step/max_steps": "5572/6350"}
{"lm loss": 4.85809946, "grad_norm": 0.36126944, "learning_rate": 6.92e-06, "elapsed_time_per_iteration": 5.00146508, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 41s", "remaining_time": "1h 2m 41s", "loss_scale": 1.0, "consumed_samples": 1426688, "global_step/max_steps": "5573/6350"}
{"lm loss": 4.85815287, "grad_norm": 0.40313503, "learning_rate": 6.91e-06, "elapsed_time_per_iteration": 4.71942925, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 46s", "remaining_time": "1h 2m 37s", "loss_scale": 1.0, "consumed_samples": 1426944, "global_step/max_steps": "5574/6350"}
{"lm loss": 4.86606359, "grad_norm": 0.35982123, "learning_rate": 6.9e-06, "elapsed_time_per_iteration": 4.71417332, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 51s", "remaining_time": "1h 2m 32s", "loss_scale": 1.0, "consumed_samples": 1427200, "global_step/max_steps": "5575/6350"}
{"lm loss": 4.85138035, "grad_norm": 0.34312969, "learning_rate": 6.89e-06, "elapsed_time_per_iteration": 4.86408877, "memory(GiB)": 28.03, "elapsed_time": "7h 29m 56s", "remaining_time": "1h 2m 27s", "loss_scale": 1.0, "consumed_samples": 1427456, "global_step/max_steps": "5576/6350"}
{"lm loss": 4.8765564, "grad_norm": 0.40756065, "learning_rate": 6.88e-06, "elapsed_time_per_iteration": 4.6568563, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 0s", "remaining_time": "1h 2m 22s", "loss_scale": 1.0, "consumed_samples": 1427712, "global_step/max_steps": "5577/6350"}
{"lm loss": 4.84060383, "grad_norm": 0.38839278, "learning_rate": 6.87e-06, "elapsed_time_per_iteration": 4.69319868, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 5s", "remaining_time": "1h 2m 17s", "loss_scale": 1.0, "consumed_samples": 1427968, "global_step/max_steps": "5578/6350"}
{"lm loss": 4.8177228, "grad_norm": 0.366317, "learning_rate": 6.86e-06, "elapsed_time_per_iteration": 4.78658533, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 10s", "remaining_time": "1h 2m 12s", "loss_scale": 1.0, "consumed_samples": 1428224, "global_step/max_steps": "5579/6350"}
{"lm loss": 4.87128067, "grad_norm": 0.34680384, "learning_rate": 6.85e-06, "elapsed_time_per_iteration": 4.74225497, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 14s", "remaining_time": "1h 2m 7s", "loss_scale": 1.0, "consumed_samples": 1428480, "global_step/max_steps": "5580/6350"}
{"lm loss": 4.86767054, "grad_norm": 0.36198801, "learning_rate": 6.84e-06, "elapsed_time_per_iteration": 4.74697804, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 19s", "remaining_time": "1h 2m 3s", "loss_scale": 1.0, "consumed_samples": 1428736, "global_step/max_steps": "5581/6350"}
{"lm loss": 4.86876631, "grad_norm": 0.36014244, "learning_rate": 6.83e-06, "elapsed_time_per_iteration": 4.74522281, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 24s", "remaining_time": "1h 1m 58s", "loss_scale": 1.0, "consumed_samples": 1428992, "global_step/max_steps": "5582/6350"}
{"lm loss": 4.86947489, "grad_norm": 0.35720116, "learning_rate": 6.82e-06, "elapsed_time_per_iteration": 4.76237965, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 29s", "remaining_time": "1h 1m 53s", "loss_scale": 1.0, "consumed_samples": 1429248, "global_step/max_steps": "5583/6350"}
{"lm loss": 4.83203268, "grad_norm": 0.33588591, "learning_rate": 6.81e-06, "elapsed_time_per_iteration": 4.73138142, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 33s", "remaining_time": "1h 1m 48s", "loss_scale": 1.0, "consumed_samples": 1429504, "global_step/max_steps": "5584/6350"}
{"lm loss": 4.87272406, "grad_norm": 0.36476281, "learning_rate": 6.8e-06, "elapsed_time_per_iteration": 4.69336271, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 38s", "remaining_time": "1h 1m 43s", "loss_scale": 1.0, "consumed_samples": 1429760, "global_step/max_steps": "5585/6350"}
{"lm loss": 4.8819375, "grad_norm": 0.36196458, "learning_rate": 6.79e-06, "elapsed_time_per_iteration": 4.73783183, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 43s", "remaining_time": "1h 1m 38s", "loss_scale": 1.0, "consumed_samples": 1430016, "global_step/max_steps": "5586/6350"}
{"lm loss": 4.89462662, "grad_norm": 0.34515902, "learning_rate": 6.78e-06, "elapsed_time_per_iteration": 4.66813397, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 48s", "remaining_time": "1h 1m 33s", "loss_scale": 1.0, "consumed_samples": 1430272, "global_step/max_steps": "5587/6350"}
{"lm loss": 4.86649609, "grad_norm": 0.37336442, "learning_rate": 6.77e-06, "elapsed_time_per_iteration": 4.62993264, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 52s", "remaining_time": "1h 1m 29s", "loss_scale": 1.0, "consumed_samples": 1430528, "global_step/max_steps": "5588/6350"}
{"lm loss": 4.85452366, "grad_norm": 0.37359467, "learning_rate": 6.76e-06, "elapsed_time_per_iteration": 4.73599744, "memory(GiB)": 28.03, "elapsed_time": "7h 30m 57s", "remaining_time": "1h 1m 24s", "loss_scale": 1.0, "consumed_samples": 1430784, "global_step/max_steps": "5589/6350"}
{"lm loss": 4.86439514, "grad_norm": 0.33705103, "learning_rate": 6.75e-06, "elapsed_time_per_iteration": 4.79364133, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 2s", "remaining_time": "1h 1m 19s", "loss_scale": 1.0, "consumed_samples": 1431040, "global_step/max_steps": "5590/6350"}
{"lm loss": 4.88926697, "grad_norm": 0.36470008, "learning_rate": 6.74e-06, "elapsed_time_per_iteration": 4.74798346, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 6s", "remaining_time": "1h 1m 14s", "loss_scale": 1.0, "consumed_samples": 1431296, "global_step/max_steps": "5591/6350"}
{"lm loss": 4.87649918, "grad_norm": 0.32703874, "learning_rate": 6.73e-06, "elapsed_time_per_iteration": 4.72233915, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 11s", "remaining_time": "1h 1m 9s", "loss_scale": 1.0, "consumed_samples": 1431552, "global_step/max_steps": "5592/6350"}
{"lm loss": 4.82924509, "grad_norm": 0.36134392, "learning_rate": 6.72e-06, "elapsed_time_per_iteration": 4.74598885, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 16s", "remaining_time": "1h 1m 4s", "loss_scale": 1.0, "consumed_samples": 1431808, "global_step/max_steps": "5593/6350"}
{"lm loss": 4.86487436, "grad_norm": 0.37821937, "learning_rate": 6.71e-06, "elapsed_time_per_iteration": 4.79194951, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 21s", "remaining_time": "1h 0m 59s", "loss_scale": 1.0, "consumed_samples": 1432064, "global_step/max_steps": "5594/6350"}
{"lm loss": 4.87729406, "grad_norm": 0.7413156, "learning_rate": 6.7e-06, "elapsed_time_per_iteration": 4.70423651, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 25s", "remaining_time": "1h 0m 55s", "loss_scale": 1.0, "consumed_samples": 1432320, "global_step/max_steps": "5595/6350"}
{"lm loss": 4.83985329, "grad_norm": 0.34049478, "learning_rate": 6.69e-06, "elapsed_time_per_iteration": 4.80950999, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 30s", "remaining_time": "1h 0m 50s", "loss_scale": 1.0, "consumed_samples": 1432576, "global_step/max_steps": "5596/6350"}
{"lm loss": 4.85613966, "grad_norm": 0.34754896, "learning_rate": 6.68e-06, "elapsed_time_per_iteration": 5.45683479, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 36s", "remaining_time": "1h 0m 45s", "loss_scale": 1.0, "consumed_samples": 1432832, "global_step/max_steps": "5597/6350"}
{"lm loss": 4.86704874, "grad_norm": 0.34238133, "learning_rate": 6.67e-06, "elapsed_time_per_iteration": 4.72744584, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 40s", "remaining_time": "1h 0m 40s", "loss_scale": 1.0, "consumed_samples": 1433088, "global_step/max_steps": "5598/6350"}
{"lm loss": 4.85625553, "grad_norm": 0.34884459, "learning_rate": 6.66e-06, "elapsed_time_per_iteration": 5.50113106, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 46s", "remaining_time": "1h 0m 35s", "loss_scale": 1.0, "consumed_samples": 1433344, "global_step/max_steps": "5599/6350"}
{"lm loss": 4.85590982, "grad_norm": 0.43363532, "learning_rate": 6.65e-06, "elapsed_time_per_iteration": 4.75640249, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 51s", "remaining_time": "1h 0m 30s", "loss_scale": 1.0, "consumed_samples": 1433600, "global_step/max_steps": "5600/6350"}
{"lm loss": 4.84220028, "grad_norm": 0.35584009, "learning_rate": 6.64e-06, "elapsed_time_per_iteration": 4.77037096, "memory(GiB)": 28.03, "elapsed_time": "7h 31m 55s", "remaining_time": "1h 0m 26s", "loss_scale": 1.0, "consumed_samples": 1433856, "global_step/max_steps": "5601/6350"}
{"lm loss": 4.86425114, "grad_norm": 0.36511102, "learning_rate": 6.63e-06, "elapsed_time_per_iteration": 4.75333309, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 0s", "remaining_time": "1h 0m 21s", "loss_scale": 1.0, "consumed_samples": 1434112, "global_step/max_steps": "5602/6350"}
{"lm loss": 4.88698292, "grad_norm": 0.34040019, "learning_rate": 6.62e-06, "elapsed_time_per_iteration": 4.71520329, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 5s", "remaining_time": "1h 0m 16s", "loss_scale": 1.0, "consumed_samples": 1434368, "global_step/max_steps": "5603/6350"}
{"lm loss": 4.86203766, "grad_norm": 0.34715629, "learning_rate": 6.61e-06, "elapsed_time_per_iteration": 4.70128989, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 10s", "remaining_time": "1h 0m 11s", "loss_scale": 1.0, "consumed_samples": 1434624, "global_step/max_steps": "5604/6350"}
{"lm loss": 4.86329269, "grad_norm": 0.39803725, "learning_rate": 6.6e-06, "elapsed_time_per_iteration": 5.76287436, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 15s", "remaining_time": "1h 0m 6s", "loss_scale": 1.0, "consumed_samples": 1434880, "global_step/max_steps": "5605/6350"}
{"lm loss": 4.87417126, "grad_norm": 0.35195327, "learning_rate": 6.6e-06, "elapsed_time_per_iteration": 5.59320354, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 21s", "remaining_time": "1h 0m 2s", "loss_scale": 1.0, "consumed_samples": 1435136, "global_step/max_steps": "5606/6350"}
{"lm loss": 4.8720026, "grad_norm": 0.34270886, "learning_rate": 6.59e-06, "elapsed_time_per_iteration": 4.74065948, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 26s", "remaining_time": "59m 57s", "loss_scale": 1.0, "consumed_samples": 1435392, "global_step/max_steps": "5607/6350"}
{"lm loss": 4.8739562, "grad_norm": 0.37199423, "learning_rate": 6.58e-06, "elapsed_time_per_iteration": 5.34416962, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 31s", "remaining_time": "59m 52s", "loss_scale": 1.0, "consumed_samples": 1435648, "global_step/max_steps": "5608/6350"}
{"lm loss": 4.86319065, "grad_norm": 0.39566305, "learning_rate": 6.57e-06, "elapsed_time_per_iteration": 4.73741722, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 36s", "remaining_time": "59m 47s", "loss_scale": 1.0, "consumed_samples": 1435904, "global_step/max_steps": "5609/6350"}
{"lm loss": 4.87011242, "grad_norm": 0.34775484, "learning_rate": 6.56e-06, "elapsed_time_per_iteration": 4.77921319, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 41s", "remaining_time": "59m 42s", "loss_scale": 1.0, "consumed_samples": 1436160, "global_step/max_steps": "5610/6350"}
{"lm loss": 4.85816813, "grad_norm": 0.35475552, "learning_rate": 6.55e-06, "elapsed_time_per_iteration": 4.72704673, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 45s", "remaining_time": "59m 37s", "loss_scale": 1.0, "consumed_samples": 1436416, "global_step/max_steps": "5611/6350"}
{"lm loss": 4.83453894, "grad_norm": 0.36333013, "learning_rate": 6.54e-06, "elapsed_time_per_iteration": 4.80795503, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 50s", "remaining_time": "59m 33s", "loss_scale": 1.0, "consumed_samples": 1436672, "global_step/max_steps": "5612/6350"}
{"lm loss": 4.86127758, "grad_norm": 0.35985693, "learning_rate": 6.53e-06, "elapsed_time_per_iteration": 4.71407223, "memory(GiB)": 28.03, "elapsed_time": "7h 32m 55s", "remaining_time": "59m 28s", "loss_scale": 1.0, "consumed_samples": 1436928, "global_step/max_steps": "5613/6350"}
{"lm loss": 4.87208271, "grad_norm": 0.37017077, "learning_rate": 6.52e-06, "elapsed_time_per_iteration": 4.71836257, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 0s", "remaining_time": "59m 23s", "loss_scale": 1.0, "consumed_samples": 1437184, "global_step/max_steps": "5614/6350"}
{"lm loss": 4.85151911, "grad_norm": 0.34226081, "learning_rate": 6.51e-06, "elapsed_time_per_iteration": 4.72274613, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 4s", "remaining_time": "59m 18s", "loss_scale": 1.0, "consumed_samples": 1437440, "global_step/max_steps": "5615/6350"}
{"lm loss": 4.86860371, "grad_norm": 0.38521492, "learning_rate": 6.5e-06, "elapsed_time_per_iteration": 4.73031759, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 9s", "remaining_time": "59m 13s", "loss_scale": 1.0, "consumed_samples": 1437696, "global_step/max_steps": "5616/6350"}
{"lm loss": 4.87196207, "grad_norm": 0.3516483, "learning_rate": 6.49e-06, "elapsed_time_per_iteration": 4.77238536, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 14s", "remaining_time": "59m 8s", "loss_scale": 1.0, "consumed_samples": 1437952, "global_step/max_steps": "5617/6350"}
{"lm loss": 4.85384321, "grad_norm": 0.58081198, "learning_rate": 6.48e-06, "elapsed_time_per_iteration": 4.79078913, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 19s", "remaining_time": "59m 3s", "loss_scale": 1.0, "consumed_samples": 1438208, "global_step/max_steps": "5618/6350"}
{"lm loss": 4.87517786, "grad_norm": 0.34521168, "learning_rate": 6.47e-06, "elapsed_time_per_iteration": 4.6797266, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 23s", "remaining_time": "58m 59s", "loss_scale": 1.0, "consumed_samples": 1438464, "global_step/max_steps": "5619/6350"}
{"lm loss": 4.85804129, "grad_norm": 0.35251242, "learning_rate": 6.46e-06, "elapsed_time_per_iteration": 4.69807053, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 28s", "remaining_time": "58m 54s", "loss_scale": 1.0, "consumed_samples": 1438720, "global_step/max_steps": "5620/6350"}
{"lm loss": 4.85535908, "grad_norm": 0.34567481, "learning_rate": 6.45e-06, "elapsed_time_per_iteration": 5.45957279, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 33s", "remaining_time": "58m 49s", "loss_scale": 1.0, "consumed_samples": 1438976, "global_step/max_steps": "5621/6350"}
{"lm loss": 4.86281157, "grad_norm": 0.34319925, "learning_rate": 6.44e-06, "elapsed_time_per_iteration": 4.70713139, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 38s", "remaining_time": "58m 44s", "loss_scale": 1.0, "consumed_samples": 1439232, "global_step/max_steps": "5622/6350"}
{"lm loss": 4.84291935, "grad_norm": 0.36318126, "learning_rate": 6.43e-06, "elapsed_time_per_iteration": 4.79100966, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 43s", "remaining_time": "58m 39s", "loss_scale": 1.0, "consumed_samples": 1439488, "global_step/max_steps": "5623/6350"}
{"lm loss": 4.85793734, "grad_norm": 0.3567225, "learning_rate": 6.43e-06, "elapsed_time_per_iteration": 4.71941566, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 48s", "remaining_time": "58m 34s", "loss_scale": 1.0, "consumed_samples": 1439744, "global_step/max_steps": "5624/6350"}
{"lm loss": 4.83638668, "grad_norm": 0.34360775, "learning_rate": 6.42e-06, "elapsed_time_per_iteration": 4.72609401, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 52s", "remaining_time": "58m 30s", "loss_scale": 1.0, "consumed_samples": 1440000, "global_step/max_steps": "5625/6350"}
{"lm loss": 4.85962057, "grad_norm": 0.36059538, "learning_rate": 6.41e-06, "elapsed_time_per_iteration": 5.27910209, "memory(GiB)": 28.03, "elapsed_time": "7h 33m 58s", "remaining_time": "58m 25s", "loss_scale": 1.0, "consumed_samples": 1440256, "global_step/max_steps": "5626/6350"}
{"lm loss": 4.86545563, "grad_norm": 0.39808512, "learning_rate": 6.4e-06, "elapsed_time_per_iteration": 4.7316978, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 2s", "remaining_time": "58m 20s", "loss_scale": 1.0, "consumed_samples": 1440512, "global_step/max_steps": "5627/6350"}
{"lm loss": 4.90680599, "grad_norm": 0.33422226, "learning_rate": 6.39e-06, "elapsed_time_per_iteration": 4.76032543, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 7s", "remaining_time": "58m 15s", "loss_scale": 1.0, "consumed_samples": 1440768, "global_step/max_steps": "5628/6350"}
{"lm loss": 4.8564105, "grad_norm": 0.35975116, "learning_rate": 6.38e-06, "elapsed_time_per_iteration": 4.73242474, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 12s", "remaining_time": "58m 10s", "loss_scale": 1.0, "consumed_samples": 1441024, "global_step/max_steps": "5629/6350"}
{"lm loss": 4.86709642, "grad_norm": 0.36173332, "learning_rate": 6.37e-06, "elapsed_time_per_iteration": 4.80711555, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 17s", "remaining_time": "58m 5s", "loss_scale": 1.0, "consumed_samples": 1441280, "global_step/max_steps": "5630/6350"}
{"lm loss": 4.88082218, "grad_norm": 0.39576915, "learning_rate": 6.36e-06, "elapsed_time_per_iteration": 4.68546271, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 21s", "remaining_time": "58m 0s", "loss_scale": 1.0, "consumed_samples": 1441536, "global_step/max_steps": "5631/6350"}
{"lm loss": 4.84330845, "grad_norm": 0.34399268, "learning_rate": 6.35e-06, "elapsed_time_per_iteration": 4.76217961, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 26s", "remaining_time": "57m 56s", "loss_scale": 1.0, "consumed_samples": 1441792, "global_step/max_steps": "5632/6350"}
{"lm loss": 4.87336206, "grad_norm": 0.38326848, "learning_rate": 6.34e-06, "elapsed_time_per_iteration": 4.7212224, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 31s", "remaining_time": "57m 51s", "loss_scale": 1.0, "consumed_samples": 1442048, "global_step/max_steps": "5633/6350"}
{"lm loss": 4.87402248, "grad_norm": 0.36231411, "learning_rate": 6.33e-06, "elapsed_time_per_iteration": 5.61869621, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 36s", "remaining_time": "57m 46s", "loss_scale": 1.0, "consumed_samples": 1442304, "global_step/max_steps": "5634/6350"}
{"lm loss": 4.84795332, "grad_norm": 0.37086415, "learning_rate": 6.32e-06, "elapsed_time_per_iteration": 4.79401994, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 41s", "remaining_time": "57m 41s", "loss_scale": 1.0, "consumed_samples": 1442560, "global_step/max_steps": "5635/6350"}
{"lm loss": 4.84662485, "grad_norm": 0.34206015, "learning_rate": 6.31e-06, "elapsed_time_per_iteration": 4.78700542, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 46s", "remaining_time": "57m 36s", "loss_scale": 1.0, "consumed_samples": 1442816, "global_step/max_steps": "5636/6350"}
{"lm loss": 4.88708496, "grad_norm": 0.3653461, "learning_rate": 6.31e-06, "elapsed_time_per_iteration": 4.76224327, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 51s", "remaining_time": "57m 31s", "loss_scale": 1.0, "consumed_samples": 1443072, "global_step/max_steps": "5637/6350"}
{"lm loss": 4.86861372, "grad_norm": 0.35631326, "learning_rate": 6.3e-06, "elapsed_time_per_iteration": 4.69103265, "memory(GiB)": 28.03, "elapsed_time": "7h 34m 55s", "remaining_time": "57m 27s", "loss_scale": 1.0, "consumed_samples": 1443328, "global_step/max_steps": "5638/6350"}
{"lm loss": 4.84970093, "grad_norm": 0.3469348, "learning_rate": 6.29e-06, "elapsed_time_per_iteration": 4.79371142, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 0s", "remaining_time": "57m 22s", "loss_scale": 1.0, "consumed_samples": 1443584, "global_step/max_steps": "5639/6350"}
{"lm loss": 4.86973572, "grad_norm": 0.32813269, "learning_rate": 6.28e-06, "elapsed_time_per_iteration": 5.5616231, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 6s", "remaining_time": "57m 17s", "loss_scale": 1.0, "consumed_samples": 1443840, "global_step/max_steps": "5640/6350"}
{"lm loss": 4.83563805, "grad_norm": 0.33974454, "learning_rate": 6.27e-06, "elapsed_time_per_iteration": 4.74376798, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 11s", "remaining_time": "57m 12s", "loss_scale": 1.0, "consumed_samples": 1444096, "global_step/max_steps": "5641/6350"}
{"lm loss": 4.86286688, "grad_norm": 0.34690103, "learning_rate": 6.26e-06, "elapsed_time_per_iteration": 5.57391977, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 16s", "remaining_time": "57m 7s", "loss_scale": 1.0, "consumed_samples": 1444352, "global_step/max_steps": "5642/6350"}
{"lm loss": 4.85256529, "grad_norm": 0.39695019, "learning_rate": 6.25e-06, "elapsed_time_per_iteration": 4.72364783, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 21s", "remaining_time": "57m 3s", "loss_scale": 1.0, "consumed_samples": 1444608, "global_step/max_steps": "5643/6350"}
{"lm loss": 4.87178421, "grad_norm": 0.32410735, "learning_rate": 6.24e-06, "elapsed_time_per_iteration": 4.68350387, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 26s", "remaining_time": "56m 58s", "loss_scale": 1.0, "consumed_samples": 1444864, "global_step/max_steps": "5644/6350"}
{"lm loss": 4.85478306, "grad_norm": 0.35177368, "learning_rate": 6.23e-06, "elapsed_time_per_iteration": 4.71013689, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 30s", "remaining_time": "56m 53s", "loss_scale": 1.0, "consumed_samples": 1445120, "global_step/max_steps": "5645/6350"}
{"lm loss": 4.86296701, "grad_norm": 0.34483093, "learning_rate": 6.22e-06, "elapsed_time_per_iteration": 4.76195264, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 35s", "remaining_time": "56m 48s", "loss_scale": 1.0, "consumed_samples": 1445376, "global_step/max_steps": "5646/6350"}
{"lm loss": 4.8542285, "grad_norm": 0.38035551, "learning_rate": 6.21e-06, "elapsed_time_per_iteration": 4.76034284, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 40s", "remaining_time": "56m 43s", "loss_scale": 1.0, "consumed_samples": 1445632, "global_step/max_steps": "5647/6350"}
{"lm loss": 4.83793879, "grad_norm": 0.32891497, "learning_rate": 6.21e-06, "elapsed_time_per_iteration": 4.80648613, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 45s", "remaining_time": "56m 38s", "loss_scale": 1.0, "consumed_samples": 1445888, "global_step/max_steps": "5648/6350"}
{"lm loss": 4.85083151, "grad_norm": 0.36894554, "learning_rate": 6.2e-06, "elapsed_time_per_iteration": 4.68667507, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 49s", "remaining_time": "56m 33s", "loss_scale": 1.0, "consumed_samples": 1446144, "global_step/max_steps": "5649/6350"}
{"lm loss": 4.871243, "grad_norm": 0.35088712, "learning_rate": 6.19e-06, "elapsed_time_per_iteration": 5.14452839, "memory(GiB)": 28.03, "elapsed_time": "7h 35m 54s", "remaining_time": "56m 29s", "loss_scale": 1.0, "consumed_samples": 1446400, "global_step/max_steps": "5650/6350"}
{"lm loss": 4.84480524, "grad_norm": 0.36028299, "learning_rate": 6.18e-06, "elapsed_time_per_iteration": 5.60223842, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 0s", "remaining_time": "56m 24s", "loss_scale": 1.0, "consumed_samples": 1446656, "global_step/max_steps": "5651/6350"}
{"lm loss": 4.89284134, "grad_norm": 0.37500322, "learning_rate": 6.17e-06, "elapsed_time_per_iteration": 4.76240468, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 5s", "remaining_time": "56m 19s", "loss_scale": 1.0, "consumed_samples": 1446912, "global_step/max_steps": "5652/6350"}
{"lm loss": 4.87033749, "grad_norm": 0.37388617, "learning_rate": 6.16e-06, "elapsed_time_per_iteration": 5.52356172, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 10s", "remaining_time": "56m 14s", "loss_scale": 1.0, "consumed_samples": 1447168, "global_step/max_steps": "5653/6350"}
{"lm loss": 4.86939955, "grad_norm": 0.34912014, "learning_rate": 6.15e-06, "elapsed_time_per_iteration": 4.73366213, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 15s", "remaining_time": "56m 9s", "loss_scale": 1.0, "consumed_samples": 1447424, "global_step/max_steps": "5654/6350"}
{"lm loss": 4.85951328, "grad_norm": 0.40453774, "learning_rate": 6.14e-06, "elapsed_time_per_iteration": 4.78868675, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 20s", "remaining_time": "56m 5s", "loss_scale": 1.0, "consumed_samples": 1447680, "global_step/max_steps": "5655/6350"}
{"lm loss": 4.88476992, "grad_norm": 0.35986155, "learning_rate": 6.13e-06, "elapsed_time_per_iteration": 4.80918598, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 25s", "remaining_time": "56m 0s", "loss_scale": 1.0, "consumed_samples": 1447936, "global_step/max_steps": "5656/6350"}
{"lm loss": 4.85894966, "grad_norm": 0.34449318, "learning_rate": 6.12e-06, "elapsed_time_per_iteration": 4.78246212, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 29s", "remaining_time": "55m 55s", "loss_scale": 1.0, "consumed_samples": 1448192, "global_step/max_steps": "5657/6350"}
{"lm loss": 4.8493762, "grad_norm": 0.34180146, "learning_rate": 6.12e-06, "elapsed_time_per_iteration": 4.71648836, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 34s", "remaining_time": "55m 50s", "loss_scale": 1.0, "consumed_samples": 1448448, "global_step/max_steps": "5658/6350"}
{"lm loss": 4.8665247, "grad_norm": 0.42246878, "learning_rate": 6.11e-06, "elapsed_time_per_iteration": 4.74038219, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 39s", "remaining_time": "55m 45s", "loss_scale": 1.0, "consumed_samples": 1448704, "global_step/max_steps": "5659/6350"}
{"lm loss": 4.86907387, "grad_norm": 0.36092985, "learning_rate": 6.1e-06, "elapsed_time_per_iteration": 4.70278406, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 44s", "remaining_time": "55m 40s", "loss_scale": 1.0, "consumed_samples": 1448960, "global_step/max_steps": "5660/6350"}
{"lm loss": 4.86760426, "grad_norm": 0.36217868, "learning_rate": 6.09e-06, "elapsed_time_per_iteration": 4.80524087, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 48s", "remaining_time": "55m 35s", "loss_scale": 1.0, "consumed_samples": 1449216, "global_step/max_steps": "5661/6350"}
{"lm loss": 4.86917067, "grad_norm": 0.34777272, "learning_rate": 6.08e-06, "elapsed_time_per_iteration": 4.73295975, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 53s", "remaining_time": "55m 31s", "loss_scale": 1.0, "consumed_samples": 1449472, "global_step/max_steps": "5662/6350"}
{"lm loss": 4.85506868, "grad_norm": 0.36067593, "learning_rate": 6.07e-06, "elapsed_time_per_iteration": 4.77501059, "memory(GiB)": 28.03, "elapsed_time": "7h 36m 58s", "remaining_time": "55m 26s", "loss_scale": 1.0, "consumed_samples": 1449728, "global_step/max_steps": "5663/6350"}
{"lm loss": 4.86340666, "grad_norm": 0.3633081, "learning_rate": 6.06e-06, "elapsed_time_per_iteration": 4.73863006, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 3s", "remaining_time": "55m 21s", "loss_scale": 1.0, "consumed_samples": 1449984, "global_step/max_steps": "5664/6350"}
{"lm loss": 4.88182306, "grad_norm": 0.35430366, "learning_rate": 6.05e-06, "elapsed_time_per_iteration": 4.72972775, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 7s", "remaining_time": "55m 16s", "loss_scale": 1.0, "consumed_samples": 1450240, "global_step/max_steps": "5665/6350"}
{"lm loss": 4.86216354, "grad_norm": 0.36172006, "learning_rate": 6.04e-06, "elapsed_time_per_iteration": 4.75474906, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 12s", "remaining_time": "55m 11s", "loss_scale": 1.0, "consumed_samples": 1450496, "global_step/max_steps": "5666/6350"}
{"lm loss": 4.85030842, "grad_norm": 0.35812134, "learning_rate": 6.04e-06, "elapsed_time_per_iteration": 5.49755526, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 18s", "remaining_time": "55m 6s", "loss_scale": 1.0, "consumed_samples": 1450752, "global_step/max_steps": "5667/6350"}
{"lm loss": 4.85599232, "grad_norm": 0.35697767, "learning_rate": 6.03e-06, "elapsed_time_per_iteration": 4.74267364, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 22s", "remaining_time": "55m 2s", "loss_scale": 1.0, "consumed_samples": 1451008, "global_step/max_steps": "5668/6350"}
{"lm loss": 4.85475445, "grad_norm": 0.34662697, "learning_rate": 6.02e-06, "elapsed_time_per_iteration": 4.78682113, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 27s", "remaining_time": "54m 57s", "loss_scale": 1.0, "consumed_samples": 1451264, "global_step/max_steps": "5669/6350"}
{"lm loss": 4.85187721, "grad_norm": 0.3424125, "learning_rate": 6.01e-06, "elapsed_time_per_iteration": 4.72907686, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 32s", "remaining_time": "54m 52s", "loss_scale": 1.0, "consumed_samples": 1451520, "global_step/max_steps": "5670/6350"}
{"lm loss": 4.85906601, "grad_norm": 0.37570867, "learning_rate": 6e-06, "elapsed_time_per_iteration": 4.67283225, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 37s", "remaining_time": "54m 47s", "loss_scale": 1.0, "consumed_samples": 1451776, "global_step/max_steps": "5671/6350"}
{"lm loss": 4.84925365, "grad_norm": 0.35585898, "learning_rate": 5.99e-06, "elapsed_time_per_iteration": 4.71663213, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 41s", "remaining_time": "54m 42s", "loss_scale": 1.0, "consumed_samples": 1452032, "global_step/max_steps": "5672/6350"}
{"lm loss": 4.88861799, "grad_norm": 0.38023502, "learning_rate": 5.98e-06, "elapsed_time_per_iteration": 4.73899865, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 46s", "remaining_time": "54m 37s", "loss_scale": 1.0, "consumed_samples": 1452288, "global_step/max_steps": "5673/6350"}
{"lm loss": 4.87468719, "grad_norm": 0.36366361, "learning_rate": 5.97e-06, "elapsed_time_per_iteration": 4.71992755, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 51s", "remaining_time": "54m 32s", "loss_scale": 1.0, "consumed_samples": 1452544, "global_step/max_steps": "5674/6350"}
{"lm loss": 4.85330391, "grad_norm": 0.35273957, "learning_rate": 5.97e-06, "elapsed_time_per_iteration": 4.68251038, "memory(GiB)": 28.03, "elapsed_time": "7h 37m 55s", "remaining_time": "54m 28s", "loss_scale": 1.0, "consumed_samples": 1452800, "global_step/max_steps": "5675/6350"}
{"lm loss": 4.85269499, "grad_norm": 0.40285128, "learning_rate": 5.96e-06, "elapsed_time_per_iteration": 4.81193376, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 0s", "remaining_time": "54m 23s", "loss_scale": 1.0, "consumed_samples": 1453056, "global_step/max_steps": "5676/6350"}
{"lm loss": 4.86242962, "grad_norm": 0.37262759, "learning_rate": 5.95e-06, "elapsed_time_per_iteration": 4.79347014, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 5s", "remaining_time": "54m 18s", "loss_scale": 1.0, "consumed_samples": 1453312, "global_step/max_steps": "5677/6350"}
{"lm loss": 4.84592772, "grad_norm": 0.40953994, "learning_rate": 5.94e-06, "elapsed_time_per_iteration": 4.74094725, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 10s", "remaining_time": "54m 13s", "loss_scale": 1.0, "consumed_samples": 1453568, "global_step/max_steps": "5678/6350"}
{"lm loss": 4.84010029, "grad_norm": 0.35400903, "learning_rate": 5.93e-06, "elapsed_time_per_iteration": 4.71596193, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 14s", "remaining_time": "54m 8s", "loss_scale": 1.0, "consumed_samples": 1453824, "global_step/max_steps": "5679/6350"}
{"lm loss": 4.86780977, "grad_norm": 0.34974232, "learning_rate": 5.92e-06, "elapsed_time_per_iteration": 5.74729538, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 20s", "remaining_time": "54m 3s", "loss_scale": 1.0, "consumed_samples": 1454080, "global_step/max_steps": "5680/6350"}
{"lm loss": 4.8499074, "grad_norm": 0.39292607, "learning_rate": 5.91e-06, "elapsed_time_per_iteration": 4.74636126, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 25s", "remaining_time": "53m 59s", "loss_scale": 1.0, "consumed_samples": 1454336, "global_step/max_steps": "5681/6350"}
{"lm loss": 4.8603487, "grad_norm": 0.37927228, "learning_rate": 5.91e-06, "elapsed_time_per_iteration": 4.77149987, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 30s", "remaining_time": "53m 54s", "loss_scale": 1.0, "consumed_samples": 1454592, "global_step/max_steps": "5682/6350"}
{"lm loss": 4.88909006, "grad_norm": 0.37177908, "learning_rate": 5.9e-06, "elapsed_time_per_iteration": 4.66655326, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 34s", "remaining_time": "53m 49s", "loss_scale": 1.0, "consumed_samples": 1454848, "global_step/max_steps": "5683/6350"}
{"lm loss": 4.84385443, "grad_norm": 0.34156859, "learning_rate": 5.89e-06, "elapsed_time_per_iteration": 4.75957155, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 39s", "remaining_time": "53m 44s", "loss_scale": 1.0, "consumed_samples": 1455104, "global_step/max_steps": "5684/6350"}
{"lm loss": 4.87156153, "grad_norm": 0.37180677, "learning_rate": 5.88e-06, "elapsed_time_per_iteration": 4.71236324, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 44s", "remaining_time": "53m 39s", "loss_scale": 1.0, "consumed_samples": 1455360, "global_step/max_steps": "5685/6350"}
{"lm loss": 4.84080029, "grad_norm": 0.34528044, "learning_rate": 5.87e-06, "elapsed_time_per_iteration": 4.74654007, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 49s", "remaining_time": "53m 34s", "loss_scale": 1.0, "consumed_samples": 1455616, "global_step/max_steps": "5686/6350"}
{"lm loss": 4.85113907, "grad_norm": 0.3726483, "learning_rate": 5.86e-06, "elapsed_time_per_iteration": 4.73991466, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 53s", "remaining_time": "53m 29s", "loss_scale": 1.0, "consumed_samples": 1455872, "global_step/max_steps": "5687/6350"}
{"lm loss": 4.85266685, "grad_norm": 0.37062338, "learning_rate": 5.85e-06, "elapsed_time_per_iteration": 5.52870202, "memory(GiB)": 28.03, "elapsed_time": "7h 38m 59s", "remaining_time": "53m 25s", "loss_scale": 1.0, "consumed_samples": 1456128, "global_step/max_steps": "5688/6350"}
{"lm loss": 4.85413599, "grad_norm": 0.33635902, "learning_rate": 5.85e-06, "elapsed_time_per_iteration": 4.77815795, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 4s", "remaining_time": "53m 20s", "loss_scale": 1.0, "consumed_samples": 1456384, "global_step/max_steps": "5689/6350"}
{"lm loss": 4.8768549, "grad_norm": 0.36004087, "learning_rate": 5.84e-06, "elapsed_time_per_iteration": 4.68224192, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 8s", "remaining_time": "53m 15s", "loss_scale": 1.0, "consumed_samples": 1456640, "global_step/max_steps": "5690/6350"}
{"lm loss": 4.87383032, "grad_norm": 0.36354998, "learning_rate": 5.83e-06, "elapsed_time_per_iteration": 4.78852963, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 13s", "remaining_time": "53m 10s", "loss_scale": 1.0, "consumed_samples": 1456896, "global_step/max_steps": "5691/6350"}
{"lm loss": 4.85533619, "grad_norm": 0.3594816, "learning_rate": 5.82e-06, "elapsed_time_per_iteration": 4.73713589, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 18s", "remaining_time": "53m 5s", "loss_scale": 1.0, "consumed_samples": 1457152, "global_step/max_steps": "5692/6350"}
{"lm loss": 4.84453011, "grad_norm": 0.35367167, "learning_rate": 5.81e-06, "elapsed_time_per_iteration": 4.71128917, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 23s", "remaining_time": "53m 0s", "loss_scale": 1.0, "consumed_samples": 1457408, "global_step/max_steps": "5693/6350"}
{"lm loss": 4.84902382, "grad_norm": 0.3667196, "learning_rate": 5.8e-06, "elapsed_time_per_iteration": 4.75561023, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 27s", "remaining_time": "52m 56s", "loss_scale": 1.0, "consumed_samples": 1457664, "global_step/max_steps": "5694/6350"}
{"lm loss": 4.83082962, "grad_norm": 0.34036404, "learning_rate": 5.79e-06, "elapsed_time_per_iteration": 4.73223352, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 32s", "remaining_time": "52m 51s", "loss_scale": 1.0, "consumed_samples": 1457920, "global_step/max_steps": "5695/6350"}
{"lm loss": 4.87188959, "grad_norm": 0.360266, "learning_rate": 5.79e-06, "elapsed_time_per_iteration": 4.74933004, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 37s", "remaining_time": "52m 46s", "loss_scale": 1.0, "consumed_samples": 1458176, "global_step/max_steps": "5696/6350"}
{"lm loss": 4.85920334, "grad_norm": 0.35627121, "learning_rate": 5.78e-06, "elapsed_time_per_iteration": 4.7393856, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 42s", "remaining_time": "52m 41s", "loss_scale": 1.0, "consumed_samples": 1458432, "global_step/max_steps": "5697/6350"}
{"lm loss": 4.86096764, "grad_norm": 0.34665924, "learning_rate": 5.77e-06, "elapsed_time_per_iteration": 4.76766109, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 46s", "remaining_time": "52m 36s", "loss_scale": 1.0, "consumed_samples": 1458688, "global_step/max_steps": "5698/6350"}
{"lm loss": 4.86069012, "grad_norm": 0.34218648, "learning_rate": 5.76e-06, "elapsed_time_per_iteration": 4.79336858, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 51s", "remaining_time": "52m 31s", "loss_scale": 1.0, "consumed_samples": 1458944, "global_step/max_steps": "5699/6350"}
{"lm loss": 4.86205435, "grad_norm": 0.35916793, "learning_rate": 5.75e-06, "elapsed_time_per_iteration": 4.73213387, "memory(GiB)": 28.03, "elapsed_time": "7h 39m 56s", "remaining_time": "52m 26s", "loss_scale": 1.0, "consumed_samples": 1459200, "global_step/max_steps": "5700/6350"}
{"lm loss": 4.84727049, "grad_norm": 0.3376354, "learning_rate": 5.74e-06, "elapsed_time_per_iteration": 4.81291914, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 1s", "remaining_time": "52m 22s", "loss_scale": 1.0, "consumed_samples": 1459456, "global_step/max_steps": "5701/6350"}
{"lm loss": 4.87476492, "grad_norm": 0.31960344, "learning_rate": 5.74e-06, "elapsed_time_per_iteration": 4.77575779, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 5s", "remaining_time": "52m 17s", "loss_scale": 1.0, "consumed_samples": 1459712, "global_step/max_steps": "5702/6350"}
{"lm loss": 4.88341665, "grad_norm": 0.33544627, "learning_rate": 5.73e-06, "elapsed_time_per_iteration": 4.71165109, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 10s", "remaining_time": "52m 12s", "loss_scale": 1.0, "consumed_samples": 1459968, "global_step/max_steps": "5703/6350"}
{"lm loss": 4.86395645, "grad_norm": 0.32199687, "learning_rate": 5.72e-06, "elapsed_time_per_iteration": 4.67994833, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 15s", "remaining_time": "52m 7s", "loss_scale": 1.0, "consumed_samples": 1460224, "global_step/max_steps": "5704/6350"}
{"lm loss": 4.8486681, "grad_norm": 0.34628928, "learning_rate": 5.71e-06, "elapsed_time_per_iteration": 4.72655749, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 20s", "remaining_time": "52m 2s", "loss_scale": 1.0, "consumed_samples": 1460480, "global_step/max_steps": "5705/6350"}
{"lm loss": 4.85553598, "grad_norm": 0.33776712, "learning_rate": 5.7e-06, "elapsed_time_per_iteration": 4.73087621, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 24s", "remaining_time": "51m 57s", "loss_scale": 1.0, "consumed_samples": 1460736, "global_step/max_steps": "5706/6350"}
{"lm loss": 4.85573769, "grad_norm": 0.78307265, "learning_rate": 5.69e-06, "elapsed_time_per_iteration": 4.69652653, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 29s", "remaining_time": "51m 52s", "loss_scale": 1.0, "consumed_samples": 1460992, "global_step/max_steps": "5707/6350"}
{"lm loss": 4.87654352, "grad_norm": 0.33350277, "learning_rate": 5.69e-06, "elapsed_time_per_iteration": 4.71786547, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 34s", "remaining_time": "51m 48s", "loss_scale": 1.0, "consumed_samples": 1461248, "global_step/max_steps": "5708/6350"}
{"lm loss": 4.88371325, "grad_norm": 0.33134139, "learning_rate": 5.68e-06, "elapsed_time_per_iteration": 5.71316695, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 39s", "remaining_time": "51m 43s", "loss_scale": 1.0, "consumed_samples": 1461504, "global_step/max_steps": "5709/6350"}
{"lm loss": 4.8600769, "grad_norm": 0.33225316, "learning_rate": 5.67e-06, "elapsed_time_per_iteration": 4.79716825, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 44s", "remaining_time": "51m 38s", "loss_scale": 1.0, "consumed_samples": 1461760, "global_step/max_steps": "5710/6350"}
{"lm loss": 4.88953018, "grad_norm": 0.32765895, "learning_rate": 5.66e-06, "elapsed_time_per_iteration": 4.72909379, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 49s", "remaining_time": "51m 33s", "loss_scale": 1.0, "consumed_samples": 1462016, "global_step/max_steps": "5711/6350"}
{"lm loss": 4.84239388, "grad_norm": 0.32644615, "learning_rate": 5.65e-06, "elapsed_time_per_iteration": 5.52390242, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 54s", "remaining_time": "51m 28s", "loss_scale": 1.0, "consumed_samples": 1462272, "global_step/max_steps": "5712/6350"}
{"lm loss": 4.87916183, "grad_norm": 0.36538661, "learning_rate": 5.64e-06, "elapsed_time_per_iteration": 4.8303194, "memory(GiB)": 28.03, "elapsed_time": "7h 40m 59s", "remaining_time": "51m 24s", "loss_scale": 1.0, "consumed_samples": 1462528, "global_step/max_steps": "5713/6350"}
{"lm loss": 4.85103703, "grad_norm": 0.35008302, "learning_rate": 5.64e-06, "elapsed_time_per_iteration": 4.75144005, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 4s", "remaining_time": "51m 19s", "loss_scale": 1.0, "consumed_samples": 1462784, "global_step/max_steps": "5714/6350"}
{"lm loss": 4.86262417, "grad_norm": 0.36137661, "learning_rate": 5.63e-06, "elapsed_time_per_iteration": 4.89371753, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 9s", "remaining_time": "51m 14s", "loss_scale": 1.0, "consumed_samples": 1463040, "global_step/max_steps": "5715/6350"}
{"lm loss": 4.85545063, "grad_norm": 0.58098149, "learning_rate": 5.62e-06, "elapsed_time_per_iteration": 4.71002245, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 14s", "remaining_time": "51m 9s", "loss_scale": 1.0, "consumed_samples": 1463296, "global_step/max_steps": "5716/6350"}
{"lm loss": 4.87197495, "grad_norm": 0.3552548, "learning_rate": 5.61e-06, "elapsed_time_per_iteration": 4.75811815, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 18s", "remaining_time": "51m 4s", "loss_scale": 1.0, "consumed_samples": 1463552, "global_step/max_steps": "5717/6350"}
{"lm loss": 4.84070873, "grad_norm": 0.3877947, "learning_rate": 5.6e-06, "elapsed_time_per_iteration": 4.74699497, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 23s", "remaining_time": "50m 59s", "loss_scale": 1.0, "consumed_samples": 1463808, "global_step/max_steps": "5718/6350"}
{"lm loss": 4.87508249, "grad_norm": 0.37210959, "learning_rate": 5.6e-06, "elapsed_time_per_iteration": 5.55878925, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 29s", "remaining_time": "50m 55s", "loss_scale": 1.0, "consumed_samples": 1464064, "global_step/max_steps": "5719/6350"}
{"lm loss": 4.83433628, "grad_norm": 0.34648639, "learning_rate": 5.59e-06, "elapsed_time_per_iteration": 5.73187733, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 34s", "remaining_time": "50m 50s", "loss_scale": 1.0, "consumed_samples": 1464320, "global_step/max_steps": "5720/6350"}
{"lm loss": 4.88270378, "grad_norm": 0.33691397, "learning_rate": 5.58e-06, "elapsed_time_per_iteration": 4.81125069, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 39s", "remaining_time": "50m 45s", "loss_scale": 1.0, "consumed_samples": 1464576, "global_step/max_steps": "5721/6350"}
{"lm loss": 4.85969687, "grad_norm": 0.3385939, "learning_rate": 5.57e-06, "elapsed_time_per_iteration": 5.90433073, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 45s", "remaining_time": "50m 40s", "loss_scale": 1.0, "consumed_samples": 1464832, "global_step/max_steps": "5722/6350"}
{"lm loss": 4.85812902, "grad_norm": 0.3448731, "learning_rate": 5.56e-06, "elapsed_time_per_iteration": 4.79738855, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 50s", "remaining_time": "50m 35s", "loss_scale": 1.0, "consumed_samples": 1465088, "global_step/max_steps": "5723/6350"}
{"lm loss": 4.87134409, "grad_norm": 0.34927952, "learning_rate": 5.55e-06, "elapsed_time_per_iteration": 4.84322977, "memory(GiB)": 28.03, "elapsed_time": "7h 41m 55s", "remaining_time": "50m 31s", "loss_scale": 1.0, "consumed_samples": 1465344, "global_step/max_steps": "5724/6350"}
{"lm loss": 4.85631943, "grad_norm": 0.36268437, "learning_rate": 5.55e-06, "elapsed_time_per_iteration": 4.76164746, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 0s", "remaining_time": "50m 26s", "loss_scale": 1.0, "consumed_samples": 1465600, "global_step/max_steps": "5725/6350"}
{"lm loss": 4.86730099, "grad_norm": 0.35296839, "learning_rate": 5.54e-06, "elapsed_time_per_iteration": 4.84394217, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 4s", "remaining_time": "50m 21s", "loss_scale": 1.0, "consumed_samples": 1465856, "global_step/max_steps": "5726/6350"}
{"lm loss": 4.85722589, "grad_norm": 0.39442548, "learning_rate": 5.53e-06, "elapsed_time_per_iteration": 5.57300091, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 10s", "remaining_time": "50m 16s", "loss_scale": 1.0, "consumed_samples": 1466112, "global_step/max_steps": "5727/6350"}
{"lm loss": 4.86037588, "grad_norm": 0.37979004, "learning_rate": 5.52e-06, "elapsed_time_per_iteration": 4.75802922, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 15s", "remaining_time": "50m 11s", "loss_scale": 1.0, "consumed_samples": 1466368, "global_step/max_steps": "5728/6350"}
{"lm loss": 4.85328293, "grad_norm": 0.36044091, "learning_rate": 5.51e-06, "elapsed_time_per_iteration": 4.7448976, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 19s", "remaining_time": "50m 6s", "loss_scale": 1.0, "consumed_samples": 1466624, "global_step/max_steps": "5729/6350"}
{"lm loss": 4.84764338, "grad_norm": 0.34910899, "learning_rate": 5.51e-06, "elapsed_time_per_iteration": 4.87957859, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 24s", "remaining_time": "50m 2s", "loss_scale": 1.0, "consumed_samples": 1466880, "global_step/max_steps": "5730/6350"}
{"lm loss": 4.86717749, "grad_norm": 0.3523466, "learning_rate": 5.5e-06, "elapsed_time_per_iteration": 4.75938368, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 29s", "remaining_time": "49m 57s", "loss_scale": 1.0, "consumed_samples": 1467136, "global_step/max_steps": "5731/6350"}
{"lm loss": 4.8573432, "grad_norm": 0.3512792, "learning_rate": 5.49e-06, "elapsed_time_per_iteration": 4.76279569, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 34s", "remaining_time": "49m 52s", "loss_scale": 1.0, "consumed_samples": 1467392, "global_step/max_steps": "5732/6350"}
{"lm loss": 4.86138916, "grad_norm": 0.33006504, "learning_rate": 5.48e-06, "elapsed_time_per_iteration": 4.82499385, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 39s", "remaining_time": "49m 47s", "loss_scale": 1.0, "consumed_samples": 1467648, "global_step/max_steps": "5733/6350"}
{"lm loss": 4.87571478, "grad_norm": 0.34961674, "learning_rate": 5.47e-06, "elapsed_time_per_iteration": 4.78601623, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 43s", "remaining_time": "49m 42s", "loss_scale": 1.0, "consumed_samples": 1467904, "global_step/max_steps": "5734/6350"}
{"lm loss": 4.87012911, "grad_norm": 0.34858936, "learning_rate": 5.47e-06, "elapsed_time_per_iteration": 4.71801829, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 48s", "remaining_time": "49m 37s", "loss_scale": 1.0, "consumed_samples": 1468160, "global_step/max_steps": "5735/6350"}
{"lm loss": 4.84089613, "grad_norm": 0.34555173, "learning_rate": 5.46e-06, "elapsed_time_per_iteration": 4.77156973, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 53s", "remaining_time": "49m 32s", "loss_scale": 1.0, "consumed_samples": 1468416, "global_step/max_steps": "5736/6350"}
{"lm loss": 4.87877989, "grad_norm": 0.39898184, "learning_rate": 5.45e-06, "elapsed_time_per_iteration": 4.79374361, "memory(GiB)": 28.03, "elapsed_time": "7h 42m 58s", "remaining_time": "49m 28s", "loss_scale": 1.0, "consumed_samples": 1468672, "global_step/max_steps": "5737/6350"}
{"lm loss": 4.8641777, "grad_norm": 0.34107897, "learning_rate": 5.44e-06, "elapsed_time_per_iteration": 4.72160172, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 3s", "remaining_time": "49m 23s", "loss_scale": 1.0, "consumed_samples": 1468928, "global_step/max_steps": "5738/6350"}
{"lm loss": 4.82458162, "grad_norm": 0.33190694, "learning_rate": 5.43e-06, "elapsed_time_per_iteration": 4.75979757, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 7s", "remaining_time": "49m 18s", "loss_scale": 1.0, "consumed_samples": 1469184, "global_step/max_steps": "5739/6350"}
{"lm loss": 4.85429144, "grad_norm": 0.35379592, "learning_rate": 5.43e-06, "elapsed_time_per_iteration": 4.72046518, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 12s", "remaining_time": "49m 13s", "loss_scale": 1.0, "consumed_samples": 1469440, "global_step/max_steps": "5740/6350"}
{"lm loss": 4.87209606, "grad_norm": 0.31627363, "learning_rate": 5.42e-06, "elapsed_time_per_iteration": 5.54331708, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 18s", "remaining_time": "49m 8s", "loss_scale": 1.0, "consumed_samples": 1469696, "global_step/max_steps": "5741/6350"}
{"lm loss": 4.84653521, "grad_norm": 0.3496089, "learning_rate": 5.41e-06, "elapsed_time_per_iteration": 4.72901344, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 22s", "remaining_time": "49m 3s", "loss_scale": 1.0, "consumed_samples": 1469952, "global_step/max_steps": "5742/6350"}
{"lm loss": 4.88640404, "grad_norm": 0.32662386, "learning_rate": 5.4e-06, "elapsed_time_per_iteration": 5.65794086, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 28s", "remaining_time": "48m 59s", "loss_scale": 1.0, "consumed_samples": 1470208, "global_step/max_steps": "5743/6350"}
{"lm loss": 4.85388184, "grad_norm": 0.33769143, "learning_rate": 5.4e-06, "elapsed_time_per_iteration": 4.73545218, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 33s", "remaining_time": "48m 54s", "loss_scale": 1.0, "consumed_samples": 1470464, "global_step/max_steps": "5744/6350"}
{"lm loss": 4.87908316, "grad_norm": 0.46812263, "learning_rate": 5.39e-06, "elapsed_time_per_iteration": 4.68972468, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 37s", "remaining_time": "48m 49s", "loss_scale": 1.0, "consumed_samples": 1470720, "global_step/max_steps": "5745/6350"}
{"lm loss": 4.88081741, "grad_norm": 0.32856193, "learning_rate": 5.38e-06, "elapsed_time_per_iteration": 4.69761276, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 42s", "remaining_time": "48m 44s", "loss_scale": 1.0, "consumed_samples": 1470976, "global_step/max_steps": "5746/6350"}
{"lm loss": 4.83765411, "grad_norm": 0.33050129, "learning_rate": 5.37e-06, "elapsed_time_per_iteration": 4.72534966, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 47s", "remaining_time": "48m 39s", "loss_scale": 1.0, "consumed_samples": 1471232, "global_step/max_steps": "5747/6350"}
{"lm loss": 4.87236118, "grad_norm": 0.35140941, "learning_rate": 5.36e-06, "elapsed_time_per_iteration": 4.78482938, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 52s", "remaining_time": "48m 34s", "loss_scale": 1.0, "consumed_samples": 1471488, "global_step/max_steps": "5748/6350"}
{"lm loss": 4.86958694, "grad_norm": 0.32566655, "learning_rate": 5.36e-06, "elapsed_time_per_iteration": 4.79858708, "memory(GiB)": 28.03, "elapsed_time": "7h 43m 56s", "remaining_time": "48m 30s", "loss_scale": 1.0, "consumed_samples": 1471744, "global_step/max_steps": "5749/6350"}
{"lm loss": 4.8615756, "grad_norm": 0.36302701, "learning_rate": 5.35e-06, "elapsed_time_per_iteration": 4.7401123, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 1s", "remaining_time": "48m 25s", "loss_scale": 1.0, "consumed_samples": 1472000, "global_step/max_steps": "5750/6350"}
{"lm loss": 4.85730743, "grad_norm": 0.330028, "learning_rate": 5.34e-06, "elapsed_time_per_iteration": 4.82196593, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 6s", "remaining_time": "48m 20s", "loss_scale": 1.0, "consumed_samples": 1472256, "global_step/max_steps": "5751/6350"}
{"lm loss": 4.85505295, "grad_norm": 0.35483447, "learning_rate": 5.33e-06, "elapsed_time_per_iteration": 4.74448395, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 11s", "remaining_time": "48m 15s", "loss_scale": 1.0, "consumed_samples": 1472512, "global_step/max_steps": "5752/6350"}
{"lm loss": 4.86641645, "grad_norm": 0.33479226, "learning_rate": 5.33e-06, "elapsed_time_per_iteration": 4.75935292, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 15s", "remaining_time": "48m 10s", "loss_scale": 1.0, "consumed_samples": 1472768, "global_step/max_steps": "5753/6350"}
{"lm loss": 4.85401773, "grad_norm": 0.34181809, "learning_rate": 5.32e-06, "elapsed_time_per_iteration": 4.76506114, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 20s", "remaining_time": "48m 5s", "loss_scale": 1.0, "consumed_samples": 1473024, "global_step/max_steps": "5754/6350"}
{"lm loss": 4.85164404, "grad_norm": 0.35977098, "learning_rate": 5.31e-06, "elapsed_time_per_iteration": 4.76662707, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 25s", "remaining_time": "48m 0s", "loss_scale": 1.0, "consumed_samples": 1473280, "global_step/max_steps": "5755/6350"}
{"lm loss": 4.86496115, "grad_norm": 0.33978307, "learning_rate": 5.3e-06, "elapsed_time_per_iteration": 4.79424763, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 30s", "remaining_time": "47m 56s", "loss_scale": 1.0, "consumed_samples": 1473536, "global_step/max_steps": "5756/6350"}
{"lm loss": 4.8517189, "grad_norm": 0.37055835, "learning_rate": 5.29e-06, "elapsed_time_per_iteration": 4.79074645, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 35s", "remaining_time": "47m 51s", "loss_scale": 1.0, "consumed_samples": 1473792, "global_step/max_steps": "5757/6350"}
{"lm loss": 4.84105825, "grad_norm": 0.32828891, "learning_rate": 5.29e-06, "elapsed_time_per_iteration": 4.65364695, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 39s", "remaining_time": "47m 46s", "loss_scale": 1.0, "consumed_samples": 1474048, "global_step/max_steps": "5758/6350"}
{"lm loss": 4.86414003, "grad_norm": 0.34777501, "learning_rate": 5.28e-06, "elapsed_time_per_iteration": 4.76308703, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 44s", "remaining_time": "47m 41s", "loss_scale": 1.0, "consumed_samples": 1474304, "global_step/max_steps": "5759/6350"}
{"lm loss": 4.8558569, "grad_norm": 0.33098227, "learning_rate": 5.27e-06, "elapsed_time_per_iteration": 4.75872493, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 49s", "remaining_time": "47m 36s", "loss_scale": 1.0, "consumed_samples": 1474560, "global_step/max_steps": "5760/6350"}
{"lm loss": 4.86687708, "grad_norm": 0.32598546, "learning_rate": 5.26e-06, "elapsed_time_per_iteration": 4.71393704, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 53s", "remaining_time": "47m 31s", "loss_scale": 1.0, "consumed_samples": 1474816, "global_step/max_steps": "5761/6350"}
{"lm loss": 4.8607893, "grad_norm": 0.34869733, "learning_rate": 5.26e-06, "elapsed_time_per_iteration": 4.75480437, "memory(GiB)": 28.03, "elapsed_time": "7h 44m 58s", "remaining_time": "47m 27s", "loss_scale": 1.0, "consumed_samples": 1475072, "global_step/max_steps": "5762/6350"}
{"lm loss": 4.8713541, "grad_norm": 0.33627424, "learning_rate": 5.25e-06, "elapsed_time_per_iteration": 4.79993844, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 3s", "remaining_time": "47m 22s", "loss_scale": 1.0, "consumed_samples": 1475328, "global_step/max_steps": "5763/6350"}
{"lm loss": 4.85850048, "grad_norm": 0.35527936, "learning_rate": 5.24e-06, "elapsed_time_per_iteration": 5.62875676, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 9s", "remaining_time": "47m 17s", "loss_scale": 1.0, "consumed_samples": 1475584, "global_step/max_steps": "5764/6350"}
{"lm loss": 4.83715773, "grad_norm": 0.65761989, "learning_rate": 5.23e-06, "elapsed_time_per_iteration": 4.81256628, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 13s", "remaining_time": "47m 12s", "loss_scale": 1.0, "consumed_samples": 1475840, "global_step/max_steps": "5765/6350"}
{"lm loss": 4.86490726, "grad_norm": 0.34899414, "learning_rate": 5.23e-06, "elapsed_time_per_iteration": 5.3509798, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 19s", "remaining_time": "47m 7s", "loss_scale": 1.0, "consumed_samples": 1476096, "global_step/max_steps": "5766/6350"}
{"lm loss": 4.85945511, "grad_norm": 0.36940864, "learning_rate": 5.22e-06, "elapsed_time_per_iteration": 4.79322958, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 24s", "remaining_time": "47m 2s", "loss_scale": 1.0, "consumed_samples": 1476352, "global_step/max_steps": "5767/6350"}
{"lm loss": 4.85053062, "grad_norm": 0.41531524, "learning_rate": 5.21e-06, "elapsed_time_per_iteration": 4.6907773, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 28s", "remaining_time": "46m 58s", "loss_scale": 1.0, "consumed_samples": 1476608, "global_step/max_steps": "5768/6350"}
{"lm loss": 4.87855577, "grad_norm": 0.32828748, "learning_rate": 5.2e-06, "elapsed_time_per_iteration": 5.24013805, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 33s", "remaining_time": "46m 53s", "loss_scale": 1.0, "consumed_samples": 1476864, "global_step/max_steps": "5769/6350"}
{"lm loss": 4.87329102, "grad_norm": 0.3527084, "learning_rate": 5.2e-06, "elapsed_time_per_iteration": 4.75890183, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 38s", "remaining_time": "46m 48s", "loss_scale": 1.0, "consumed_samples": 1477120, "global_step/max_steps": "5770/6350"}
{"lm loss": 4.86093092, "grad_norm": 0.33938232, "learning_rate": 5.19e-06, "elapsed_time_per_iteration": 4.71615601, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 43s", "remaining_time": "46m 43s", "loss_scale": 1.0, "consumed_samples": 1477376, "global_step/max_steps": "5771/6350"}
{"lm loss": 4.87942266, "grad_norm": 0.33023727, "learning_rate": 5.18e-06, "elapsed_time_per_iteration": 4.68416953, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 48s", "remaining_time": "46m 38s", "loss_scale": 1.0, "consumed_samples": 1477632, "global_step/max_steps": "5772/6350"}
{"lm loss": 4.85343838, "grad_norm": 0.35589206, "learning_rate": 5.17e-06, "elapsed_time_per_iteration": 4.73663473, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 52s", "remaining_time": "46m 33s", "loss_scale": 1.0, "consumed_samples": 1477888, "global_step/max_steps": "5773/6350"}
{"lm loss": 4.88265944, "grad_norm": 0.33254799, "learning_rate": 5.17e-06, "elapsed_time_per_iteration": 5.27438426, "memory(GiB)": 28.03, "elapsed_time": "7h 45m 58s", "remaining_time": "46m 29s", "loss_scale": 1.0, "consumed_samples": 1478144, "global_step/max_steps": "5774/6350"}
{"lm loss": 4.88576365, "grad_norm": 0.32598525, "learning_rate": 5.16e-06, "elapsed_time_per_iteration": 4.76271963, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 2s", "remaining_time": "46m 24s", "loss_scale": 1.0, "consumed_samples": 1478400, "global_step/max_steps": "5775/6350"}
{"lm loss": 4.86195278, "grad_norm": 0.346607, "learning_rate": 5.15e-06, "elapsed_time_per_iteration": 4.72284436, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 7s", "remaining_time": "46m 19s", "loss_scale": 1.0, "consumed_samples": 1478656, "global_step/max_steps": "5776/6350"}
{"lm loss": 4.86762142, "grad_norm": 0.33049509, "learning_rate": 5.14e-06, "elapsed_time_per_iteration": 4.75255108, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 12s", "remaining_time": "46m 14s", "loss_scale": 1.0, "consumed_samples": 1478912, "global_step/max_steps": "5777/6350"}
{"lm loss": 4.85161638, "grad_norm": 0.32909453, "learning_rate": 5.14e-06, "elapsed_time_per_iteration": 4.8953371, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 17s", "remaining_time": "46m 9s", "loss_scale": 1.0, "consumed_samples": 1479168, "global_step/max_steps": "5778/6350"}
{"lm loss": 4.87623882, "grad_norm": 0.33953962, "learning_rate": 5.13e-06, "elapsed_time_per_iteration": 4.73136735, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 22s", "remaining_time": "46m 4s", "loss_scale": 1.0, "consumed_samples": 1479424, "global_step/max_steps": "5779/6350"}
{"lm loss": 4.86609364, "grad_norm": 0.3247034, "learning_rate": 5.12e-06, "elapsed_time_per_iteration": 4.67952991, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 26s", "remaining_time": "45m 59s", "loss_scale": 1.0, "consumed_samples": 1479680, "global_step/max_steps": "5780/6350"}
{"lm loss": 4.88055658, "grad_norm": 0.3304598, "learning_rate": 5.11e-06, "elapsed_time_per_iteration": 4.76362276, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 31s", "remaining_time": "45m 55s", "loss_scale": 1.0, "consumed_samples": 1479936, "global_step/max_steps": "5781/6350"}
{"lm loss": 4.86354113, "grad_norm": 0.38303941, "learning_rate": 5.11e-06, "elapsed_time_per_iteration": 4.76444888, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 36s", "remaining_time": "45m 50s", "loss_scale": 1.0, "consumed_samples": 1480192, "global_step/max_steps": "5782/6350"}
{"lm loss": 4.8808918, "grad_norm": 0.34475771, "learning_rate": 5.1e-06, "elapsed_time_per_iteration": 4.73191333, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 40s", "remaining_time": "45m 45s", "loss_scale": 1.0, "consumed_samples": 1480448, "global_step/max_steps": "5783/6350"}
{"lm loss": 4.88178062, "grad_norm": 0.70819288, "learning_rate": 5.09e-06, "elapsed_time_per_iteration": 4.80920887, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 45s", "remaining_time": "45m 40s", "loss_scale": 1.0, "consumed_samples": 1480704, "global_step/max_steps": "5784/6350"}
{"lm loss": 4.86346769, "grad_norm": 0.34819585, "learning_rate": 5.08e-06, "elapsed_time_per_iteration": 4.71398449, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 50s", "remaining_time": "45m 35s", "loss_scale": 1.0, "consumed_samples": 1480960, "global_step/max_steps": "5785/6350"}
{"lm loss": 4.86605549, "grad_norm": 0.33237627, "learning_rate": 5.08e-06, "elapsed_time_per_iteration": 5.51012516, "memory(GiB)": 28.03, "elapsed_time": "7h 46m 55s", "remaining_time": "45m 30s", "loss_scale": 1.0, "consumed_samples": 1481216, "global_step/max_steps": "5786/6350"}
{"lm loss": 4.85360384, "grad_norm": 0.3493678, "learning_rate": 5.07e-06, "elapsed_time_per_iteration": 4.75359535, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 0s", "remaining_time": "45m 26s", "loss_scale": 1.0, "consumed_samples": 1481472, "global_step/max_steps": "5787/6350"}
{"lm loss": 4.84446383, "grad_norm": 0.33484158, "learning_rate": 5.06e-06, "elapsed_time_per_iteration": 5.72887206, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 6s", "remaining_time": "45m 21s", "loss_scale": 1.0, "consumed_samples": 1481728, "global_step/max_steps": "5788/6350"}
{"lm loss": 4.85787582, "grad_norm": 0.35942522, "learning_rate": 5.06e-06, "elapsed_time_per_iteration": 4.7467618, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 11s", "remaining_time": "45m 16s", "loss_scale": 1.0, "consumed_samples": 1481984, "global_step/max_steps": "5789/6350"}
{"lm loss": 4.84984446, "grad_norm": 0.36393437, "learning_rate": 5.05e-06, "elapsed_time_per_iteration": 4.68050861, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 15s", "remaining_time": "45m 11s", "loss_scale": 1.0, "consumed_samples": 1482240, "global_step/max_steps": "5790/6350"}
{"lm loss": 4.86585331, "grad_norm": 0.34055305, "learning_rate": 5.04e-06, "elapsed_time_per_iteration": 4.74775815, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 20s", "remaining_time": "45m 6s", "loss_scale": 1.0, "consumed_samples": 1482496, "global_step/max_steps": "5791/6350"}
{"lm loss": 4.8706665, "grad_norm": 0.40504691, "learning_rate": 5.03e-06, "elapsed_time_per_iteration": 4.76182365, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 25s", "remaining_time": "45m 1s", "loss_scale": 1.0, "consumed_samples": 1482752, "global_step/max_steps": "5792/6350"}
{"lm loss": 4.85266399, "grad_norm": 0.40335536, "learning_rate": 5.03e-06, "elapsed_time_per_iteration": 5.65101147, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 31s", "remaining_time": "44m 57s", "loss_scale": 1.0, "consumed_samples": 1483008, "global_step/max_steps": "5793/6350"}
{"lm loss": 4.86940956, "grad_norm": 0.35538715, "learning_rate": 5.02e-06, "elapsed_time_per_iteration": 4.71440005, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 35s", "remaining_time": "44m 52s", "loss_scale": 1.0, "consumed_samples": 1483264, "global_step/max_steps": "5794/6350"}
{"lm loss": 4.85599613, "grad_norm": 0.4000127, "learning_rate": 5.01e-06, "elapsed_time_per_iteration": 4.71571159, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 40s", "remaining_time": "44m 47s", "loss_scale": 1.0, "consumed_samples": 1483520, "global_step/max_steps": "5795/6350"}
{"lm loss": 4.88314867, "grad_norm": 0.39061484, "learning_rate": 5e-06, "elapsed_time_per_iteration": 4.83795118, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 45s", "remaining_time": "44m 42s", "loss_scale": 1.0, "consumed_samples": 1483776, "global_step/max_steps": "5796/6350"}
{"lm loss": 4.8654232, "grad_norm": 0.36098877, "learning_rate": 5e-06, "elapsed_time_per_iteration": 4.74585009, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 50s", "remaining_time": "44m 37s", "loss_scale": 1.0, "consumed_samples": 1484032, "global_step/max_steps": "5797/6350"}
{"lm loss": 4.82545328, "grad_norm": 0.34689841, "learning_rate": 4.99e-06, "elapsed_time_per_iteration": 4.76377916, "memory(GiB)": 28.03, "elapsed_time": "7h 47m 54s", "remaining_time": "44m 32s", "loss_scale": 1.0, "consumed_samples": 1484288, "global_step/max_steps": "5798/6350"}
{"lm loss": 4.8767066, "grad_norm": 0.34185591, "learning_rate": 4.98e-06, "elapsed_time_per_iteration": 5.29525638, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 0s", "remaining_time": "44m 28s", "loss_scale": 1.0, "consumed_samples": 1484544, "global_step/max_steps": "5799/6350"}
{"lm loss": 4.87243652, "grad_norm": 0.35105872, "learning_rate": 4.98e-06, "elapsed_time_per_iteration": 4.77999353, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 4s", "remaining_time": "44m 23s", "loss_scale": 1.0, "consumed_samples": 1484800, "global_step/max_steps": "5800/6350"}
{"lm loss": 4.84736538, "grad_norm": 0.33749253, "learning_rate": 4.97e-06, "elapsed_time_per_iteration": 4.7915895, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 9s", "remaining_time": "44m 18s", "loss_scale": 1.0, "consumed_samples": 1485056, "global_step/max_steps": "5801/6350"}
{"lm loss": 4.85710812, "grad_norm": 0.35170189, "learning_rate": 4.96e-06, "elapsed_time_per_iteration": 4.77346492, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 14s", "remaining_time": "44m 13s", "loss_scale": 1.0, "consumed_samples": 1485312, "global_step/max_steps": "5802/6350"}
{"lm loss": 4.85338402, "grad_norm": 0.35126334, "learning_rate": 4.95e-06, "elapsed_time_per_iteration": 4.70272756, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 19s", "remaining_time": "44m 8s", "loss_scale": 1.0, "consumed_samples": 1485568, "global_step/max_steps": "5803/6350"}
{"lm loss": 4.8561759, "grad_norm": 0.33973333, "learning_rate": 4.95e-06, "elapsed_time_per_iteration": 4.75301099, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 23s", "remaining_time": "44m 3s", "loss_scale": 1.0, "consumed_samples": 1485824, "global_step/max_steps": "5804/6350"}
{"lm loss": 4.88047028, "grad_norm": 0.33218405, "learning_rate": 4.94e-06, "elapsed_time_per_iteration": 4.76673269, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 28s", "remaining_time": "43m 58s", "loss_scale": 1.0, "consumed_samples": 1486080, "global_step/max_steps": "5805/6350"}
{"lm loss": 4.84324884, "grad_norm": 0.36106235, "learning_rate": 4.93e-06, "elapsed_time_per_iteration": 4.84436107, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 33s", "remaining_time": "43m 54s", "loss_scale": 1.0, "consumed_samples": 1486336, "global_step/max_steps": "5806/6350"}
{"lm loss": 4.83575201, "grad_norm": 0.3378914, "learning_rate": 4.93e-06, "elapsed_time_per_iteration": 4.73167515, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 38s", "remaining_time": "43m 49s", "loss_scale": 1.0, "consumed_samples": 1486592, "global_step/max_steps": "5807/6350"}
{"lm loss": 4.88677359, "grad_norm": 0.35487244, "learning_rate": 4.92e-06, "elapsed_time_per_iteration": 4.79530978, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 43s", "remaining_time": "43m 44s", "loss_scale": 1.0, "consumed_samples": 1486848, "global_step/max_steps": "5808/6350"}
{"lm loss": 4.82845449, "grad_norm": 0.45371097, "learning_rate": 4.91e-06, "elapsed_time_per_iteration": 4.77618885, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 47s", "remaining_time": "43m 39s", "loss_scale": 1.0, "consumed_samples": 1487104, "global_step/max_steps": "5809/6350"}
{"lm loss": 4.87940741, "grad_norm": 0.3728115, "learning_rate": 4.91e-06, "elapsed_time_per_iteration": 5.52889466, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 53s", "remaining_time": "43m 34s", "loss_scale": 1.0, "consumed_samples": 1487360, "global_step/max_steps": "5810/6350"}
{"lm loss": 4.8409729, "grad_norm": 0.353374, "learning_rate": 4.9e-06, "elapsed_time_per_iteration": 4.76943731, "memory(GiB)": 28.03, "elapsed_time": "7h 48m 58s", "remaining_time": "43m 29s", "loss_scale": 1.0, "consumed_samples": 1487616, "global_step/max_steps": "5811/6350"}
{"lm loss": 4.8485589, "grad_norm": 0.32532999, "learning_rate": 4.89e-06, "elapsed_time_per_iteration": 4.76469493, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 2s", "remaining_time": "43m 25s", "loss_scale": 1.0, "consumed_samples": 1487872, "global_step/max_steps": "5812/6350"}
{"lm loss": 4.86123133, "grad_norm": 0.34566376, "learning_rate": 4.88e-06, "elapsed_time_per_iteration": 4.84506154, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 7s", "remaining_time": "43m 20s", "loss_scale": 1.0, "consumed_samples": 1488128, "global_step/max_steps": "5813/6350"}
{"lm loss": 4.86407089, "grad_norm": 0.32116887, "learning_rate": 4.88e-06, "elapsed_time_per_iteration": 4.72392225, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 12s", "remaining_time": "43m 15s", "loss_scale": 1.0, "consumed_samples": 1488384, "global_step/max_steps": "5814/6350"}
{"lm loss": 4.86619091, "grad_norm": 0.3377406, "learning_rate": 4.87e-06, "elapsed_time_per_iteration": 4.78271866, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 17s", "remaining_time": "43m 10s", "loss_scale": 1.0, "consumed_samples": 1488640, "global_step/max_steps": "5815/6350"}
{"lm loss": 4.89220047, "grad_norm": 0.34533966, "learning_rate": 4.86e-06, "elapsed_time_per_iteration": 4.80636001, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 22s", "remaining_time": "43m 5s", "loss_scale": 1.0, "consumed_samples": 1488896, "global_step/max_steps": "5816/6350"}
{"lm loss": 4.83723307, "grad_norm": 0.32275972, "learning_rate": 4.86e-06, "elapsed_time_per_iteration": 4.75094748, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 26s", "remaining_time": "43m 0s", "loss_scale": 1.0, "consumed_samples": 1489152, "global_step/max_steps": "5817/6350"}
{"lm loss": 4.83289051, "grad_norm": 0.32506394, "learning_rate": 4.85e-06, "elapsed_time_per_iteration": 5.64781356, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 32s", "remaining_time": "42m 56s", "loss_scale": 1.0, "consumed_samples": 1489408, "global_step/max_steps": "5818/6350"}
{"lm loss": 4.85917234, "grad_norm": 0.32425404, "learning_rate": 4.84e-06, "elapsed_time_per_iteration": 4.75915289, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 37s", "remaining_time": "42m 51s", "loss_scale": 1.0, "consumed_samples": 1489664, "global_step/max_steps": "5819/6350"}
{"lm loss": 4.83669138, "grad_norm": 0.34612256, "learning_rate": 4.84e-06, "elapsed_time_per_iteration": 4.75771737, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 41s", "remaining_time": "42m 46s", "loss_scale": 1.0, "consumed_samples": 1489920, "global_step/max_steps": "5820/6350"}
{"lm loss": 4.85541725, "grad_norm": 0.32981586, "learning_rate": 4.83e-06, "elapsed_time_per_iteration": 4.84604502, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 46s", "remaining_time": "42m 41s", "loss_scale": 1.0, "consumed_samples": 1490176, "global_step/max_steps": "5821/6350"}
{"lm loss": 4.85261488, "grad_norm": 0.36107945, "learning_rate": 4.82e-06, "elapsed_time_per_iteration": 4.76983118, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 51s", "remaining_time": "42m 36s", "loss_scale": 1.0, "consumed_samples": 1490432, "global_step/max_steps": "5822/6350"}
{"lm loss": 4.84685993, "grad_norm": 0.47851351, "learning_rate": 4.82e-06, "elapsed_time_per_iteration": 4.7334013, "memory(GiB)": 28.03, "elapsed_time": "7h 49m 56s", "remaining_time": "42m 31s", "loss_scale": 1.0, "consumed_samples": 1490688, "global_step/max_steps": "5823/6350"}
{"lm loss": 4.86901665, "grad_norm": 0.32455891, "learning_rate": 4.81e-06, "elapsed_time_per_iteration": 4.74425602, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 1s", "remaining_time": "42m 27s", "loss_scale": 1.0, "consumed_samples": 1490944, "global_step/max_steps": "5824/6350"}
{"lm loss": 4.88195038, "grad_norm": 0.34393623, "learning_rate": 4.8e-06, "elapsed_time_per_iteration": 4.69966245, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 5s", "remaining_time": "42m 22s", "loss_scale": 1.0, "consumed_samples": 1491200, "global_step/max_steps": "5825/6350"}
{"lm loss": 4.89159727, "grad_norm": 0.34176126, "learning_rate": 4.79e-06, "elapsed_time_per_iteration": 4.76773238, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 10s", "remaining_time": "42m 17s", "loss_scale": 1.0, "consumed_samples": 1491456, "global_step/max_steps": "5826/6350"}
{"lm loss": 4.84480858, "grad_norm": 0.45017824, "learning_rate": 4.79e-06, "elapsed_time_per_iteration": 4.83999562, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 15s", "remaining_time": "42m 12s", "loss_scale": 1.0, "consumed_samples": 1491712, "global_step/max_steps": "5827/6350"}
{"lm loss": 4.8429122, "grad_norm": 0.33455029, "learning_rate": 4.78e-06, "elapsed_time_per_iteration": 4.78734899, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 20s", "remaining_time": "42m 7s", "loss_scale": 1.0, "consumed_samples": 1491968, "global_step/max_steps": "5828/6350"}
{"lm loss": 4.84329081, "grad_norm": 0.35312521, "learning_rate": 4.77e-06, "elapsed_time_per_iteration": 5.58229303, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 25s", "remaining_time": "42m 2s", "loss_scale": 1.0, "consumed_samples": 1492224, "global_step/max_steps": "5829/6350"}
{"lm loss": 4.86316204, "grad_norm": 0.341203, "learning_rate": 4.77e-06, "elapsed_time_per_iteration": 4.72473383, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 30s", "remaining_time": "41m 57s", "loss_scale": 1.0, "consumed_samples": 1492480, "global_step/max_steps": "5830/6350"}
{"lm loss": 4.86500549, "grad_norm": 0.34503898, "learning_rate": 4.76e-06, "elapsed_time_per_iteration": 4.77616858, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 35s", "remaining_time": "41m 53s", "loss_scale": 1.0, "consumed_samples": 1492736, "global_step/max_steps": "5831/6350"}
{"lm loss": 4.86167526, "grad_norm": 0.33716294, "learning_rate": 4.75e-06, "elapsed_time_per_iteration": 4.78270221, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 40s", "remaining_time": "41m 48s", "loss_scale": 1.0, "consumed_samples": 1492992, "global_step/max_steps": "5832/6350"}
{"lm loss": 4.85882378, "grad_norm": 0.33601806, "learning_rate": 4.75e-06, "elapsed_time_per_iteration": 4.85309672, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 44s", "remaining_time": "41m 43s", "loss_scale": 1.0, "consumed_samples": 1493248, "global_step/max_steps": "5833/6350"}
{"lm loss": 4.86666632, "grad_norm": 0.35423294, "learning_rate": 4.74e-06, "elapsed_time_per_iteration": 4.80324531, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 49s", "remaining_time": "41m 38s", "loss_scale": 1.0, "consumed_samples": 1493504, "global_step/max_steps": "5834/6350"}
{"lm loss": 4.86663055, "grad_norm": 0.35852712, "learning_rate": 4.73e-06, "elapsed_time_per_iteration": 4.70935702, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 54s", "remaining_time": "41m 33s", "loss_scale": 1.0, "consumed_samples": 1493760, "global_step/max_steps": "5835/6350"}
{"lm loss": 4.86672688, "grad_norm": 0.32870534, "learning_rate": 4.73e-06, "elapsed_time_per_iteration": 4.75621772, "memory(GiB)": 28.03, "elapsed_time": "7h 50m 59s", "remaining_time": "41m 28s", "loss_scale": 1.0, "consumed_samples": 1494016, "global_step/max_steps": "5836/6350"}
{"lm loss": 4.8411727, "grad_norm": 0.3695263, "learning_rate": 4.72e-06, "elapsed_time_per_iteration": 4.66743088, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 3s", "remaining_time": "41m 24s", "loss_scale": 1.0, "consumed_samples": 1494272, "global_step/max_steps": "5837/6350"}
{"lm loss": 4.86168909, "grad_norm": 0.33762565, "learning_rate": 4.71e-06, "elapsed_time_per_iteration": 4.75522566, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 8s", "remaining_time": "41m 19s", "loss_scale": 1.0, "consumed_samples": 1494528, "global_step/max_steps": "5838/6350"}
{"lm loss": 4.86453104, "grad_norm": 0.34051377, "learning_rate": 4.71e-06, "elapsed_time_per_iteration": 4.82122636, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 13s", "remaining_time": "41m 14s", "loss_scale": 1.0, "consumed_samples": 1494784, "global_step/max_steps": "5839/6350"}
{"lm loss": 4.88078833, "grad_norm": 0.3628422, "learning_rate": 4.7e-06, "elapsed_time_per_iteration": 6.03521228, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 19s", "remaining_time": "41m 9s", "loss_scale": 1.0, "consumed_samples": 1495040, "global_step/max_steps": "5840/6350"}
{"lm loss": 4.85383511, "grad_norm": 0.32929212, "learning_rate": 4.69e-06, "elapsed_time_per_iteration": 4.77553487, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 24s", "remaining_time": "41m 4s", "loss_scale": 1.0, "consumed_samples": 1495296, "global_step/max_steps": "5841/6350"}
{"lm loss": 4.84167671, "grad_norm": 0.42407992, "learning_rate": 4.69e-06, "elapsed_time_per_iteration": 4.74791908, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 28s", "remaining_time": "40m 59s", "loss_scale": 1.0, "consumed_samples": 1495552, "global_step/max_steps": "5842/6350"}
{"lm loss": 4.84885311, "grad_norm": 0.33732018, "learning_rate": 4.68e-06, "elapsed_time_per_iteration": 4.81437922, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 33s", "remaining_time": "40m 55s", "loss_scale": 1.0, "consumed_samples": 1495808, "global_step/max_steps": "5843/6350"}
{"lm loss": 4.84068394, "grad_norm": 0.32418063, "learning_rate": 4.67e-06, "elapsed_time_per_iteration": 4.76486778, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 38s", "remaining_time": "40m 50s", "loss_scale": 1.0, "consumed_samples": 1496064, "global_step/max_steps": "5844/6350"}
{"lm loss": 4.88238811, "grad_norm": 0.34872639, "learning_rate": 4.67e-06, "elapsed_time_per_iteration": 4.74681401, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 43s", "remaining_time": "40m 45s", "loss_scale": 1.0, "consumed_samples": 1496320, "global_step/max_steps": "5845/6350"}
{"lm loss": 4.8857398, "grad_norm": 0.34409797, "learning_rate": 4.66e-06, "elapsed_time_per_iteration": 4.69205594, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 47s", "remaining_time": "40m 40s", "loss_scale": 1.0, "consumed_samples": 1496576, "global_step/max_steps": "5846/6350"}
{"lm loss": 4.85255671, "grad_norm": 0.32531032, "learning_rate": 4.65e-06, "elapsed_time_per_iteration": 4.83723164, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 52s", "remaining_time": "40m 35s", "loss_scale": 1.0, "consumed_samples": 1496832, "global_step/max_steps": "5847/6350"}
{"lm loss": 4.86603355, "grad_norm": 0.32785964, "learning_rate": 4.65e-06, "elapsed_time_per_iteration": 4.7589016, "memory(GiB)": 28.03, "elapsed_time": "7h 51m 57s", "remaining_time": "40m 30s", "loss_scale": 1.0, "consumed_samples": 1497088, "global_step/max_steps": "5848/6350"}
{"lm loss": 4.83630323, "grad_norm": 0.35980022, "learning_rate": 4.64e-06, "elapsed_time_per_iteration": 4.80686355, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 2s", "remaining_time": "40m 25s", "loss_scale": 1.0, "consumed_samples": 1497344, "global_step/max_steps": "5849/6350"}
{"lm loss": 4.86394787, "grad_norm": 0.33837476, "learning_rate": 4.63e-06, "elapsed_time_per_iteration": 4.73569894, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 7s", "remaining_time": "40m 21s", "loss_scale": 1.0, "consumed_samples": 1497600, "global_step/max_steps": "5850/6350"}
{"lm loss": 4.85547352, "grad_norm": 0.32736355, "learning_rate": 4.63e-06, "elapsed_time_per_iteration": 4.68332839, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 11s", "remaining_time": "40m 16s", "loss_scale": 1.0, "consumed_samples": 1497856, "global_step/max_steps": "5851/6350"}
{"lm loss": 4.85892773, "grad_norm": 0.34972, "learning_rate": 4.62e-06, "elapsed_time_per_iteration": 5.67212534, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 17s", "remaining_time": "40m 11s", "loss_scale": 1.0, "consumed_samples": 1498112, "global_step/max_steps": "5852/6350"}
{"lm loss": 4.87348461, "grad_norm": 0.32603195, "learning_rate": 4.62e-06, "elapsed_time_per_iteration": 4.87378287, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 22s", "remaining_time": "40m 6s", "loss_scale": 1.0, "consumed_samples": 1498368, "global_step/max_steps": "5853/6350"}
{"lm loss": 4.84714127, "grad_norm": 0.35445023, "learning_rate": 4.61e-06, "elapsed_time_per_iteration": 4.7520082, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 27s", "remaining_time": "40m 1s", "loss_scale": 1.0, "consumed_samples": 1498624, "global_step/max_steps": "5854/6350"}
{"lm loss": 4.87550354, "grad_norm": 0.33168814, "learning_rate": 4.6e-06, "elapsed_time_per_iteration": 4.78843904, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 31s", "remaining_time": "39m 56s", "loss_scale": 1.0, "consumed_samples": 1498880, "global_step/max_steps": "5855/6350"}
{"lm loss": 4.87408543, "grad_norm": 0.36850247, "learning_rate": 4.6e-06, "elapsed_time_per_iteration": 5.61261821, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 37s", "remaining_time": "39m 52s", "loss_scale": 1.0, "consumed_samples": 1499136, "global_step/max_steps": "5856/6350"}
{"lm loss": 4.85592842, "grad_norm": 0.33083692, "learning_rate": 4.59e-06, "elapsed_time_per_iteration": 4.74637246, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 42s", "remaining_time": "39m 47s", "loss_scale": 1.0, "consumed_samples": 1499392, "global_step/max_steps": "5857/6350"}
{"lm loss": 4.86312008, "grad_norm": 0.33020565, "learning_rate": 4.58e-06, "elapsed_time_per_iteration": 4.76851797, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 47s", "remaining_time": "39m 42s", "loss_scale": 1.0, "consumed_samples": 1499648, "global_step/max_steps": "5858/6350"}
{"lm loss": 4.84497643, "grad_norm": 0.35051531, "learning_rate": 4.58e-06, "elapsed_time_per_iteration": 4.83821273, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 51s", "remaining_time": "39m 37s", "loss_scale": 1.0, "consumed_samples": 1499904, "global_step/max_steps": "5859/6350"}
{"lm loss": 4.85080767, "grad_norm": 0.33090341, "learning_rate": 4.57e-06, "elapsed_time_per_iteration": 4.78327799, "memory(GiB)": 28.03, "elapsed_time": "7h 52m 56s", "remaining_time": "39m 32s", "loss_scale": 1.0, "consumed_samples": 1500160, "global_step/max_steps": "5860/6350"}
{"lm loss": 4.86905527, "grad_norm": 0.33389449, "learning_rate": 4.56e-06, "elapsed_time_per_iteration": 4.7696414, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 1s", "remaining_time": "39m 27s", "loss_scale": 1.0, "consumed_samples": 1500416, "global_step/max_steps": "5861/6350"}
{"lm loss": 4.86871576, "grad_norm": 0.3330887, "learning_rate": 4.56e-06, "elapsed_time_per_iteration": 4.73130226, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 6s", "remaining_time": "39m 23s", "loss_scale": 1.0, "consumed_samples": 1500672, "global_step/max_steps": "5862/6350"}
{"lm loss": 4.85951948, "grad_norm": 0.33625063, "learning_rate": 4.55e-06, "elapsed_time_per_iteration": 4.76114845, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 10s", "remaining_time": "39m 18s", "loss_scale": 1.0, "consumed_samples": 1500928, "global_step/max_steps": "5863/6350"}
{"lm loss": 4.86147261, "grad_norm": 0.35272545, "learning_rate": 4.55e-06, "elapsed_time_per_iteration": 4.7605195, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 15s", "remaining_time": "39m 13s", "loss_scale": 1.0, "consumed_samples": 1501184, "global_step/max_steps": "5864/6350"}
{"lm loss": 4.84762192, "grad_norm": 0.3336553, "learning_rate": 4.54e-06, "elapsed_time_per_iteration": 4.74720025, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 20s", "remaining_time": "39m 8s", "loss_scale": 1.0, "consumed_samples": 1501440, "global_step/max_steps": "5865/6350"}
{"lm loss": 4.86100864, "grad_norm": 0.34953982, "learning_rate": 4.53e-06, "elapsed_time_per_iteration": 4.81899476, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 25s", "remaining_time": "39m 3s", "loss_scale": 1.0, "consumed_samples": 1501696, "global_step/max_steps": "5866/6350"}
{"lm loss": 4.87024021, "grad_norm": 0.33724043, "learning_rate": 4.53e-06, "elapsed_time_per_iteration": 4.79288507, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 30s", "remaining_time": "38m 58s", "loss_scale": 1.0, "consumed_samples": 1501952, "global_step/max_steps": "5867/6350"}
{"lm loss": 4.88227034, "grad_norm": 0.32208309, "learning_rate": 4.52e-06, "elapsed_time_per_iteration": 4.73686886, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 34s", "remaining_time": "38m 54s", "loss_scale": 1.0, "consumed_samples": 1502208, "global_step/max_steps": "5868/6350"}
{"lm loss": 4.89779758, "grad_norm": 0.3507632, "learning_rate": 4.51e-06, "elapsed_time_per_iteration": 4.94203329, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 39s", "remaining_time": "38m 49s", "loss_scale": 1.0, "consumed_samples": 1502464, "global_step/max_steps": "5869/6350"}
{"lm loss": 4.86590672, "grad_norm": 0.31634349, "learning_rate": 4.51e-06, "elapsed_time_per_iteration": 4.87546897, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 44s", "remaining_time": "38m 44s", "loss_scale": 1.0, "consumed_samples": 1502720, "global_step/max_steps": "5870/6350"}
{"lm loss": 4.87236357, "grad_norm": 0.33804658, "learning_rate": 4.5e-06, "elapsed_time_per_iteration": 4.74531698, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 49s", "remaining_time": "38m 39s", "loss_scale": 1.0, "consumed_samples": 1502976, "global_step/max_steps": "5871/6350"}
{"lm loss": 4.83938026, "grad_norm": 0.31823575, "learning_rate": 4.49e-06, "elapsed_time_per_iteration": 4.69702387, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 54s", "remaining_time": "38m 34s", "loss_scale": 1.0, "consumed_samples": 1503232, "global_step/max_steps": "5872/6350"}
{"lm loss": 4.8633852, "grad_norm": 0.39922693, "learning_rate": 4.49e-06, "elapsed_time_per_iteration": 4.80912113, "memory(GiB)": 28.03, "elapsed_time": "7h 53m 58s", "remaining_time": "38m 29s", "loss_scale": 1.0, "consumed_samples": 1503488, "global_step/max_steps": "5873/6350"}
{"lm loss": 4.85196781, "grad_norm": 0.32429075, "learning_rate": 4.48e-06, "elapsed_time_per_iteration": 5.63595533, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 4s", "remaining_time": "38m 24s", "loss_scale": 1.0, "consumed_samples": 1503744, "global_step/max_steps": "5874/6350"}
{"lm loss": 4.84099054, "grad_norm": 0.33273801, "learning_rate": 4.48e-06, "elapsed_time_per_iteration": 4.81568623, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 9s", "remaining_time": "38m 20s", "loss_scale": 1.0, "consumed_samples": 1504000, "global_step/max_steps": "5875/6350"}
{"lm loss": 4.86733007, "grad_norm": 0.50336099, "learning_rate": 4.47e-06, "elapsed_time_per_iteration": 4.73429275, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 14s", "remaining_time": "38m 15s", "loss_scale": 1.0, "consumed_samples": 1504256, "global_step/max_steps": "5876/6350"}
{"lm loss": 4.85830355, "grad_norm": 0.45764288, "learning_rate": 4.46e-06, "elapsed_time_per_iteration": 4.71023417, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 18s", "remaining_time": "38m 10s", "loss_scale": 1.0, "consumed_samples": 1504512, "global_step/max_steps": "5877/6350"}
{"lm loss": 4.87864494, "grad_norm": 0.32773662, "learning_rate": 4.46e-06, "elapsed_time_per_iteration": 4.81695056, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 23s", "remaining_time": "38m 5s", "loss_scale": 1.0, "consumed_samples": 1504768, "global_step/max_steps": "5878/6350"}
{"lm loss": 4.85913897, "grad_norm": 0.31809625, "learning_rate": 4.45e-06, "elapsed_time_per_iteration": 4.72733617, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 28s", "remaining_time": "38m 0s", "loss_scale": 1.0, "consumed_samples": 1505024, "global_step/max_steps": "5879/6350"}
{"lm loss": 4.84702158, "grad_norm": 0.329153, "learning_rate": 4.45e-06, "elapsed_time_per_iteration": 5.64718747, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 33s", "remaining_time": "37m 55s", "loss_scale": 1.0, "consumed_samples": 1505280, "global_step/max_steps": "5880/6350"}
{"lm loss": 4.809618, "grad_norm": 0.32633901, "learning_rate": 4.44e-06, "elapsed_time_per_iteration": 5.32936311, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 39s", "remaining_time": "37m 51s", "loss_scale": 1.0, "consumed_samples": 1505536, "global_step/max_steps": "5881/6350"}
{"lm loss": 4.86716747, "grad_norm": 0.31797758, "learning_rate": 4.43e-06, "elapsed_time_per_iteration": 4.8018167, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 44s", "remaining_time": "37m 46s", "loss_scale": 1.0, "consumed_samples": 1505792, "global_step/max_steps": "5882/6350"}
{"lm loss": 4.84168339, "grad_norm": 0.33354142, "learning_rate": 4.43e-06, "elapsed_time_per_iteration": 4.82096028, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 48s", "remaining_time": "37m 41s", "loss_scale": 1.0, "consumed_samples": 1506048, "global_step/max_steps": "5883/6350"}
{"lm loss": 4.8646841, "grad_norm": 0.32135272, "learning_rate": 4.42e-06, "elapsed_time_per_iteration": 4.80750513, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 53s", "remaining_time": "37m 36s", "loss_scale": 1.0, "consumed_samples": 1506304, "global_step/max_steps": "5884/6350"}
{"lm loss": 4.85051632, "grad_norm": 0.38159516, "learning_rate": 4.42e-06, "elapsed_time_per_iteration": 5.71563268, "memory(GiB)": 28.03, "elapsed_time": "7h 54m 59s", "remaining_time": "37m 31s", "loss_scale": 1.0, "consumed_samples": 1506560, "global_step/max_steps": "5885/6350"}
{"lm loss": 4.86538744, "grad_norm": 0.31961223, "learning_rate": 4.41e-06, "elapsed_time_per_iteration": 4.70825362, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 4s", "remaining_time": "37m 27s", "loss_scale": 1.0, "consumed_samples": 1506816, "global_step/max_steps": "5886/6350"}
{"lm loss": 4.85769987, "grad_norm": 0.32736564, "learning_rate": 4.4e-06, "elapsed_time_per_iteration": 4.74167275, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 8s", "remaining_time": "37m 22s", "loss_scale": 1.0, "consumed_samples": 1507072, "global_step/max_steps": "5887/6350"}
{"lm loss": 4.84802151, "grad_norm": 0.34275386, "learning_rate": 4.4e-06, "elapsed_time_per_iteration": 4.77180696, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 13s", "remaining_time": "37m 17s", "loss_scale": 1.0, "consumed_samples": 1507328, "global_step/max_steps": "5888/6350"}
{"lm loss": 4.87469244, "grad_norm": 0.35040441, "learning_rate": 4.39e-06, "elapsed_time_per_iteration": 5.18622804, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 18s", "remaining_time": "37m 12s", "loss_scale": 1.0, "consumed_samples": 1507584, "global_step/max_steps": "5889/6350"}
{"lm loss": 4.83222008, "grad_norm": 0.33241275, "learning_rate": 4.39e-06, "elapsed_time_per_iteration": 4.73130417, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 23s", "remaining_time": "37m 7s", "loss_scale": 1.0, "consumed_samples": 1507840, "global_step/max_steps": "5890/6350"}
{"lm loss": 4.85629559, "grad_norm": 0.33756053, "learning_rate": 4.38e-06, "elapsed_time_per_iteration": 4.74498844, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 28s", "remaining_time": "37m 2s", "loss_scale": 1.0, "consumed_samples": 1508096, "global_step/max_steps": "5891/6350"}
{"lm loss": 4.87116861, "grad_norm": 0.336422, "learning_rate": 4.37e-06, "elapsed_time_per_iteration": 4.81128383, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 33s", "remaining_time": "36m 57s", "loss_scale": 1.0, "consumed_samples": 1508352, "global_step/max_steps": "5892/6350"}
{"lm loss": 4.85804081, "grad_norm": 0.3321296, "learning_rate": 4.37e-06, "elapsed_time_per_iteration": 4.83285856, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 37s", "remaining_time": "36m 53s", "loss_scale": 1.0, "consumed_samples": 1508608, "global_step/max_steps": "5893/6350"}
{"lm loss": 4.8400774, "grad_norm": 0.32131147, "learning_rate": 4.36e-06, "elapsed_time_per_iteration": 4.74955606, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 42s", "remaining_time": "36m 48s", "loss_scale": 1.0, "consumed_samples": 1508864, "global_step/max_steps": "5894/6350"}
{"lm loss": 4.8664031, "grad_norm": 0.34292138, "learning_rate": 4.36e-06, "elapsed_time_per_iteration": 4.78797674, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 47s", "remaining_time": "36m 43s", "loss_scale": 1.0, "consumed_samples": 1509120, "global_step/max_steps": "5895/6350"}
{"lm loss": 4.87532234, "grad_norm": 0.32911643, "learning_rate": 4.35e-06, "elapsed_time_per_iteration": 4.77675653, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 52s", "remaining_time": "36m 38s", "loss_scale": 1.0, "consumed_samples": 1509376, "global_step/max_steps": "5896/6350"}
{"lm loss": 4.86639786, "grad_norm": 0.33847931, "learning_rate": 4.34e-06, "elapsed_time_per_iteration": 4.82350278, "memory(GiB)": 28.03, "elapsed_time": "7h 55m 57s", "remaining_time": "36m 33s", "loss_scale": 1.0, "consumed_samples": 1509632, "global_step/max_steps": "5897/6350"}
{"lm loss": 4.84092522, "grad_norm": 0.32205287, "learning_rate": 4.34e-06, "elapsed_time_per_iteration": 4.79015398, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 1s", "remaining_time": "36m 28s", "loss_scale": 1.0, "consumed_samples": 1509888, "global_step/max_steps": "5898/6350"}
{"lm loss": 4.85150242, "grad_norm": 0.37651238, "learning_rate": 4.33e-06, "elapsed_time_per_iteration": 4.78496218, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 6s", "remaining_time": "36m 24s", "loss_scale": 1.0, "consumed_samples": 1510144, "global_step/max_steps": "5899/6350"}
{"lm loss": 4.8584466, "grad_norm": 0.31743115, "learning_rate": 4.33e-06, "elapsed_time_per_iteration": 4.78656363, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 11s", "remaining_time": "36m 19s", "loss_scale": 1.0, "consumed_samples": 1510400, "global_step/max_steps": "5900/6350"}
{"lm loss": 4.85122013, "grad_norm": 0.33676216, "learning_rate": 4.32e-06, "elapsed_time_per_iteration": 4.79006219, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 16s", "remaining_time": "36m 14s", "loss_scale": 1.0, "consumed_samples": 1510656, "global_step/max_steps": "5901/6350"}
{"lm loss": 4.84446716, "grad_norm": 0.33933109, "learning_rate": 4.31e-06, "elapsed_time_per_iteration": 4.86400843, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 21s", "remaining_time": "36m 9s", "loss_scale": 1.0, "consumed_samples": 1510912, "global_step/max_steps": "5902/6350"}
{"lm loss": 4.87920713, "grad_norm": 0.33259684, "learning_rate": 4.31e-06, "elapsed_time_per_iteration": 4.86969233, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 25s", "remaining_time": "36m 4s", "loss_scale": 1.0, "consumed_samples": 1511168, "global_step/max_steps": "5903/6350"}
{"lm loss": 4.83036566, "grad_norm": 0.32264149, "learning_rate": 4.3e-06, "elapsed_time_per_iteration": 4.80890274, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 30s", "remaining_time": "35m 59s", "loss_scale": 1.0, "consumed_samples": 1511424, "global_step/max_steps": "5904/6350"}
{"lm loss": 4.84323978, "grad_norm": 0.32870862, "learning_rate": 4.3e-06, "elapsed_time_per_iteration": 4.86223745, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 35s", "remaining_time": "35m 54s", "loss_scale": 1.0, "consumed_samples": 1511680, "global_step/max_steps": "5905/6350"}
{"lm loss": 4.8328867, "grad_norm": 0.33867934, "learning_rate": 4.29e-06, "elapsed_time_per_iteration": 4.7760818, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 40s", "remaining_time": "35m 50s", "loss_scale": 1.0, "consumed_samples": 1511936, "global_step/max_steps": "5906/6350"}
{"lm loss": 4.87378073, "grad_norm": 0.32418135, "learning_rate": 4.28e-06, "elapsed_time_per_iteration": 4.78067398, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 45s", "remaining_time": "35m 45s", "loss_scale": 1.0, "consumed_samples": 1512192, "global_step/max_steps": "5907/6350"}
{"lm loss": 4.88241673, "grad_norm": 0.36263871, "learning_rate": 4.28e-06, "elapsed_time_per_iteration": 4.830971, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 50s", "remaining_time": "35m 40s", "loss_scale": 1.0, "consumed_samples": 1512448, "global_step/max_steps": "5908/6350"}
{"lm loss": 4.86356783, "grad_norm": 0.35880542, "learning_rate": 4.27e-06, "elapsed_time_per_iteration": 4.86940551, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 54s", "remaining_time": "35m 35s", "loss_scale": 1.0, "consumed_samples": 1512704, "global_step/max_steps": "5909/6350"}
{"lm loss": 4.8801918, "grad_norm": 0.32538721, "learning_rate": 4.27e-06, "elapsed_time_per_iteration": 4.75305557, "memory(GiB)": 28.03, "elapsed_time": "7h 56m 59s", "remaining_time": "35m 30s", "loss_scale": 1.0, "consumed_samples": 1512960, "global_step/max_steps": "5910/6350"}
{"lm loss": 4.83630991, "grad_norm": 0.34473625, "learning_rate": 4.26e-06, "elapsed_time_per_iteration": 4.73955059, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 4s", "remaining_time": "35m 25s", "loss_scale": 1.0, "consumed_samples": 1513216, "global_step/max_steps": "5911/6350"}
{"lm loss": 4.86584282, "grad_norm": 0.37124676, "learning_rate": 4.26e-06, "elapsed_time_per_iteration": 4.72767043, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 9s", "remaining_time": "35m 21s", "loss_scale": 1.0, "consumed_samples": 1513472, "global_step/max_steps": "5912/6350"}
{"lm loss": 4.85184908, "grad_norm": 0.34916839, "learning_rate": 4.25e-06, "elapsed_time_per_iteration": 4.71442652, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 13s", "remaining_time": "35m 16s", "loss_scale": 1.0, "consumed_samples": 1513728, "global_step/max_steps": "5913/6350"}
{"lm loss": 4.86950827, "grad_norm": 0.64768231, "learning_rate": 4.24e-06, "elapsed_time_per_iteration": 4.8427639, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 18s", "remaining_time": "35m 11s", "loss_scale": 1.0, "consumed_samples": 1513984, "global_step/max_steps": "5914/6350"}
{"lm loss": 4.8458724, "grad_norm": 0.32544702, "learning_rate": 4.24e-06, "elapsed_time_per_iteration": 5.60744405, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 24s", "remaining_time": "35m 6s", "loss_scale": 1.0, "consumed_samples": 1514240, "global_step/max_steps": "5915/6350"}
{"lm loss": 4.86878872, "grad_norm": 0.38111252, "learning_rate": 4.23e-06, "elapsed_time_per_iteration": 4.76460338, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 29s", "remaining_time": "35m 1s", "loss_scale": 1.0, "consumed_samples": 1514496, "global_step/max_steps": "5916/6350"}
{"lm loss": 4.8735075, "grad_norm": 0.36594725, "learning_rate": 4.23e-06, "elapsed_time_per_iteration": 4.86591983, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 33s", "remaining_time": "34m 56s", "loss_scale": 1.0, "consumed_samples": 1514752, "global_step/max_steps": "5917/6350"}
{"lm loss": 4.84746599, "grad_norm": 0.33485186, "learning_rate": 4.22e-06, "elapsed_time_per_iteration": 4.816468, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 38s", "remaining_time": "34m 52s", "loss_scale": 1.0, "consumed_samples": 1515008, "global_step/max_steps": "5918/6350"}
{"lm loss": 4.86726236, "grad_norm": 0.36615023, "learning_rate": 4.22e-06, "elapsed_time_per_iteration": 4.76119733, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 43s", "remaining_time": "34m 47s", "loss_scale": 1.0, "consumed_samples": 1515264, "global_step/max_steps": "5919/6350"}
{"lm loss": 4.8639946, "grad_norm": 0.36641073, "learning_rate": 4.21e-06, "elapsed_time_per_iteration": 4.83295918, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 48s", "remaining_time": "34m 42s", "loss_scale": 1.0, "consumed_samples": 1515520, "global_step/max_steps": "5920/6350"}
{"lm loss": 4.86993599, "grad_norm": 0.36619604, "learning_rate": 4.21e-06, "elapsed_time_per_iteration": 4.84636784, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 53s", "remaining_time": "34m 37s", "loss_scale": 1.0, "consumed_samples": 1515776, "global_step/max_steps": "5921/6350"}
{"lm loss": 4.86881351, "grad_norm": 1.16778266, "learning_rate": 4.2e-06, "elapsed_time_per_iteration": 4.78498435, "memory(GiB)": 28.03, "elapsed_time": "7h 57m 57s", "remaining_time": "34m 32s", "loss_scale": 1.0, "consumed_samples": 1516032, "global_step/max_steps": "5922/6350"}
{"lm loss": 4.85918808, "grad_norm": 0.34674338, "learning_rate": 4.19e-06, "elapsed_time_per_iteration": 4.83133125, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 2s", "remaining_time": "34m 27s", "loss_scale": 1.0, "consumed_samples": 1516288, "global_step/max_steps": "5923/6350"}
{"lm loss": 4.86102152, "grad_norm": 0.32737905, "learning_rate": 4.19e-06, "elapsed_time_per_iteration": 4.8410356, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 7s", "remaining_time": "34m 22s", "loss_scale": 1.0, "consumed_samples": 1516544, "global_step/max_steps": "5924/6350"}
{"lm loss": 4.86810112, "grad_norm": 0.34907579, "learning_rate": 4.18e-06, "elapsed_time_per_iteration": 4.82385516, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 12s", "remaining_time": "34m 18s", "loss_scale": 1.0, "consumed_samples": 1516800, "global_step/max_steps": "5925/6350"}
{"lm loss": 4.85243607, "grad_norm": 0.37749958, "learning_rate": 4.18e-06, "elapsed_time_per_iteration": 4.82984948, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 17s", "remaining_time": "34m 13s", "loss_scale": 1.0, "consumed_samples": 1517056, "global_step/max_steps": "5926/6350"}
{"lm loss": 4.86604881, "grad_norm": 0.36541343, "learning_rate": 4.17e-06, "elapsed_time_per_iteration": 4.7977941, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 22s", "remaining_time": "34m 8s", "loss_scale": 1.0, "consumed_samples": 1517312, "global_step/max_steps": "5927/6350"}
{"lm loss": 4.87085295, "grad_norm": 0.33778217, "learning_rate": 4.17e-06, "elapsed_time_per_iteration": 4.75896478, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 26s", "remaining_time": "34m 3s", "loss_scale": 1.0, "consumed_samples": 1517568, "global_step/max_steps": "5928/6350"}
{"lm loss": 4.85400963, "grad_norm": 0.33923212, "learning_rate": 4.16e-06, "elapsed_time_per_iteration": 4.7118187, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 31s", "remaining_time": "33m 58s", "loss_scale": 1.0, "consumed_samples": 1517824, "global_step/max_steps": "5929/6350"}
{"lm loss": 4.86992693, "grad_norm": 0.37281048, "learning_rate": 4.16e-06, "elapsed_time_per_iteration": 4.78294373, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 36s", "remaining_time": "33m 53s", "loss_scale": 1.0, "consumed_samples": 1518080, "global_step/max_steps": "5930/6350"}
{"lm loss": 4.87010622, "grad_norm": 0.34291714, "learning_rate": 4.15e-06, "elapsed_time_per_iteration": 4.76522565, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 41s", "remaining_time": "33m 49s", "loss_scale": 1.0, "consumed_samples": 1518336, "global_step/max_steps": "5931/6350"}
{"lm loss": 4.87456751, "grad_norm": 0.33217549, "learning_rate": 4.14e-06, "elapsed_time_per_iteration": 4.83624458, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 45s", "remaining_time": "33m 44s", "loss_scale": 1.0, "consumed_samples": 1518592, "global_step/max_steps": "5932/6350"}
{"lm loss": 4.85072422, "grad_norm": 0.36104214, "learning_rate": 4.14e-06, "elapsed_time_per_iteration": 5.59069705, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 51s", "remaining_time": "33m 39s", "loss_scale": 1.0, "consumed_samples": 1518848, "global_step/max_steps": "5933/6350"}
{"lm loss": 4.86151981, "grad_norm": 0.32875985, "learning_rate": 4.13e-06, "elapsed_time_per_iteration": 4.75509882, "memory(GiB)": 28.03, "elapsed_time": "7h 58m 56s", "remaining_time": "33m 34s", "loss_scale": 1.0, "consumed_samples": 1519104, "global_step/max_steps": "5934/6350"}
{"lm loss": 4.83946466, "grad_norm": 0.34087834, "learning_rate": 4.13e-06, "elapsed_time_per_iteration": 5.53532529, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 1s", "remaining_time": "33m 29s", "loss_scale": 1.0, "consumed_samples": 1519360, "global_step/max_steps": "5935/6350"}
{"lm loss": 4.83749962, "grad_norm": 0.33909246, "learning_rate": 4.12e-06, "elapsed_time_per_iteration": 4.78640723, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 6s", "remaining_time": "33m 24s", "loss_scale": 1.0, "consumed_samples": 1519616, "global_step/max_steps": "5936/6350"}
{"lm loss": 4.85404396, "grad_norm": 0.33911842, "learning_rate": 4.12e-06, "elapsed_time_per_iteration": 5.02942204, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 11s", "remaining_time": "33m 20s", "loss_scale": 1.0, "consumed_samples": 1519872, "global_step/max_steps": "5937/6350"}
{"lm loss": 4.85257864, "grad_norm": 0.34763479, "learning_rate": 4.11e-06, "elapsed_time_per_iteration": 5.61910343, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 17s", "remaining_time": "33m 15s", "loss_scale": 1.0, "consumed_samples": 1520128, "global_step/max_steps": "5938/6350"}
{"lm loss": 4.83751202, "grad_norm": 0.34091967, "learning_rate": 4.11e-06, "elapsed_time_per_iteration": 4.78708363, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 22s", "remaining_time": "33m 10s", "loss_scale": 1.0, "consumed_samples": 1520384, "global_step/max_steps": "5939/6350"}
{"lm loss": 4.86942387, "grad_norm": 0.33430636, "learning_rate": 4.1e-06, "elapsed_time_per_iteration": 4.84007931, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 26s", "remaining_time": "33m 5s", "loss_scale": 1.0, "consumed_samples": 1520640, "global_step/max_steps": "5940/6350"}
{"lm loss": 4.85008812, "grad_norm": 0.33875841, "learning_rate": 4.1e-06, "elapsed_time_per_iteration": 4.7955687, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 31s", "remaining_time": "33m 0s", "loss_scale": 1.0, "consumed_samples": 1520896, "global_step/max_steps": "5941/6350"}
{"lm loss": 4.84153652, "grad_norm": 0.33424494, "learning_rate": 4.09e-06, "elapsed_time_per_iteration": 4.72217536, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 36s", "remaining_time": "32m 55s", "loss_scale": 1.0, "consumed_samples": 1521152, "global_step/max_steps": "5942/6350"}
{"lm loss": 4.85914183, "grad_norm": 0.37926152, "learning_rate": 4.09e-06, "elapsed_time_per_iteration": 5.55652595, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 41s", "remaining_time": "32m 51s", "loss_scale": 1.0, "consumed_samples": 1521408, "global_step/max_steps": "5943/6350"}
{"lm loss": 4.85222769, "grad_norm": 0.33671662, "learning_rate": 4.08e-06, "elapsed_time_per_iteration": 4.70152831, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 46s", "remaining_time": "32m 46s", "loss_scale": 1.0, "consumed_samples": 1521664, "global_step/max_steps": "5944/6350"}
{"lm loss": 4.85620737, "grad_norm": 0.32060504, "learning_rate": 4.07e-06, "elapsed_time_per_iteration": 4.75485897, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 51s", "remaining_time": "32m 41s", "loss_scale": 1.0, "consumed_samples": 1521920, "global_step/max_steps": "5945/6350"}
{"lm loss": 4.89535284, "grad_norm": 0.31402418, "learning_rate": 4.07e-06, "elapsed_time_per_iteration": 4.82759595, "memory(GiB)": 28.03, "elapsed_time": "7h 59m 56s", "remaining_time": "32m 36s", "loss_scale": 1.0, "consumed_samples": 1522176, "global_step/max_steps": "5946/6350"}
{"lm loss": 4.82859707, "grad_norm": 0.33177856, "learning_rate": 4.06e-06, "elapsed_time_per_iteration": 4.76073503, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 0s", "remaining_time": "32m 31s", "loss_scale": 1.0, "consumed_samples": 1522432, "global_step/max_steps": "5947/6350"}
{"lm loss": 4.88340282, "grad_norm": 0.32790086, "learning_rate": 4.06e-06, "elapsed_time_per_iteration": 4.73718691, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 5s", "remaining_time": "32m 26s", "loss_scale": 1.0, "consumed_samples": 1522688, "global_step/max_steps": "5948/6350"}
{"lm loss": 4.84894562, "grad_norm": 0.33746433, "learning_rate": 4.05e-06, "elapsed_time_per_iteration": 4.81131196, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 10s", "remaining_time": "32m 22s", "loss_scale": 1.0, "consumed_samples": 1522944, "global_step/max_steps": "5949/6350"}
{"lm loss": 4.88271761, "grad_norm": 0.32418352, "learning_rate": 4.05e-06, "elapsed_time_per_iteration": 4.71747637, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 15s", "remaining_time": "32m 17s", "loss_scale": 1.0, "consumed_samples": 1523200, "global_step/max_steps": "5950/6350"}
{"lm loss": 4.84801149, "grad_norm": 0.32198238, "learning_rate": 4.04e-06, "elapsed_time_per_iteration": 4.80139971, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 20s", "remaining_time": "32m 12s", "loss_scale": 1.0, "consumed_samples": 1523456, "global_step/max_steps": "5951/6350"}
{"lm loss": 4.85790634, "grad_norm": 0.32792819, "learning_rate": 4.04e-06, "elapsed_time_per_iteration": 4.81437349, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 24s", "remaining_time": "32m 7s", "loss_scale": 1.0, "consumed_samples": 1523712, "global_step/max_steps": "5952/6350"}
{"lm loss": 4.85827208, "grad_norm": 0.31150213, "learning_rate": 4.03e-06, "elapsed_time_per_iteration": 4.75262427, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 29s", "remaining_time": "32m 2s", "loss_scale": 1.0, "consumed_samples": 1523968, "global_step/max_steps": "5953/6350"}
{"lm loss": 4.89790392, "grad_norm": 0.32031137, "learning_rate": 4.03e-06, "elapsed_time_per_iteration": 4.81068802, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 34s", "remaining_time": "31m 57s", "loss_scale": 1.0, "consumed_samples": 1524224, "global_step/max_steps": "5954/6350"}
{"lm loss": 4.8728981, "grad_norm": 0.32631609, "learning_rate": 4.02e-06, "elapsed_time_per_iteration": 4.76725292, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 39s", "remaining_time": "31m 52s", "loss_scale": 1.0, "consumed_samples": 1524480, "global_step/max_steps": "5955/6350"}
{"lm loss": 4.86074352, "grad_norm": 0.31367135, "learning_rate": 4.02e-06, "elapsed_time_per_iteration": 4.79327607, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 43s", "remaining_time": "31m 48s", "loss_scale": 1.0, "consumed_samples": 1524736, "global_step/max_steps": "5956/6350"}
{"lm loss": 4.83631277, "grad_norm": 0.32748011, "learning_rate": 4.01e-06, "elapsed_time_per_iteration": 4.74585509, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 48s", "remaining_time": "31m 43s", "loss_scale": 1.0, "consumed_samples": 1524992, "global_step/max_steps": "5957/6350"}
{"lm loss": 4.85349846, "grad_norm": 0.31707326, "learning_rate": 4.01e-06, "elapsed_time_per_iteration": 4.80265403, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 53s", "remaining_time": "31m 38s", "loss_scale": 1.0, "consumed_samples": 1525248, "global_step/max_steps": "5958/6350"}
{"lm loss": 4.85766172, "grad_norm": 0.32796606, "learning_rate": 4e-06, "elapsed_time_per_iteration": 4.7367332, "memory(GiB)": 28.03, "elapsed_time": "8h 0m 58s", "remaining_time": "31m 33s", "loss_scale": 1.0, "consumed_samples": 1525504, "global_step/max_steps": "5959/6350"}
{"lm loss": 4.86918354, "grad_norm": 0.33240709, "learning_rate": 4e-06, "elapsed_time_per_iteration": 5.22524071, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 3s", "remaining_time": "31m 28s", "loss_scale": 1.0, "consumed_samples": 1525760, "global_step/max_steps": "5960/6350"}
{"lm loss": 4.84489632, "grad_norm": 0.3322376, "learning_rate": 3.99e-06, "elapsed_time_per_iteration": 4.7831893, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 8s", "remaining_time": "31m 23s", "loss_scale": 1.0, "consumed_samples": 1526016, "global_step/max_steps": "5961/6350"}
{"lm loss": 4.85857582, "grad_norm": 0.31956777, "learning_rate": 3.99e-06, "elapsed_time_per_iteration": 4.74194622, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 13s", "remaining_time": "31m 19s", "loss_scale": 1.0, "consumed_samples": 1526272, "global_step/max_steps": "5962/6350"}
{"lm loss": 4.88801718, "grad_norm": 0.32944131, "learning_rate": 3.98e-06, "elapsed_time_per_iteration": 4.8128469, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 17s", "remaining_time": "31m 14s", "loss_scale": 1.0, "consumed_samples": 1526528, "global_step/max_steps": "5963/6350"}
{"lm loss": 4.89079952, "grad_norm": 0.38102341, "learning_rate": 3.98e-06, "elapsed_time_per_iteration": 5.868505, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 23s", "remaining_time": "31m 9s", "loss_scale": 1.0, "consumed_samples": 1526784, "global_step/max_steps": "5964/6350"}
{"lm loss": 4.85982466, "grad_norm": 0.31020135, "learning_rate": 3.97e-06, "elapsed_time_per_iteration": 4.78667474, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 28s", "remaining_time": "31m 4s", "loss_scale": 1.0, "consumed_samples": 1527040, "global_step/max_steps": "5965/6350"}
{"lm loss": 4.84954643, "grad_norm": 0.3187528, "learning_rate": 3.97e-06, "elapsed_time_per_iteration": 4.78279471, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 33s", "remaining_time": "30m 59s", "loss_scale": 1.0, "consumed_samples": 1527296, "global_step/max_steps": "5966/6350"}
{"lm loss": 4.86528015, "grad_norm": 0.32017308, "learning_rate": 3.96e-06, "elapsed_time_per_iteration": 4.72175145, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 37s", "remaining_time": "30m 54s", "loss_scale": 1.0, "consumed_samples": 1527552, "global_step/max_steps": "5967/6350"}
{"lm loss": 4.83521748, "grad_norm": 0.3335315, "learning_rate": 3.96e-06, "elapsed_time_per_iteration": 4.729913, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 42s", "remaining_time": "30m 50s", "loss_scale": 1.0, "consumed_samples": 1527808, "global_step/max_steps": "5968/6350"}
{"lm loss": 4.8312521, "grad_norm": 0.30578089, "learning_rate": 3.95e-06, "elapsed_time_per_iteration": 5.69700217, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 48s", "remaining_time": "30m 45s", "loss_scale": 1.0, "consumed_samples": 1528064, "global_step/max_steps": "5969/6350"}
{"lm loss": 4.83742476, "grad_norm": 0.33482933, "learning_rate": 3.95e-06, "elapsed_time_per_iteration": 4.83737397, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 53s", "remaining_time": "30m 40s", "loss_scale": 1.0, "consumed_samples": 1528320, "global_step/max_steps": "5970/6350"}
{"lm loss": 4.85621023, "grad_norm": 0.31653026, "learning_rate": 3.94e-06, "elapsed_time_per_iteration": 4.70598578, "memory(GiB)": 28.03, "elapsed_time": "8h 1m 57s", "remaining_time": "30m 35s", "loss_scale": 1.0, "consumed_samples": 1528576, "global_step/max_steps": "5971/6350"}
{"lm loss": 4.82457829, "grad_norm": 0.35612306, "learning_rate": 3.94e-06, "elapsed_time_per_iteration": 4.807863, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 2s", "remaining_time": "30m 30s", "loss_scale": 1.0, "consumed_samples": 1528832, "global_step/max_steps": "5972/6350"}
{"lm loss": 4.86436653, "grad_norm": 0.30812949, "learning_rate": 3.93e-06, "elapsed_time_per_iteration": 4.75833178, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 7s", "remaining_time": "30m 25s", "loss_scale": 1.0, "consumed_samples": 1529088, "global_step/max_steps": "5973/6350"}
{"lm loss": 4.83704376, "grad_norm": 0.35362625, "learning_rate": 3.93e-06, "elapsed_time_per_iteration": 4.79553032, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 12s", "remaining_time": "30m 20s", "loss_scale": 1.0, "consumed_samples": 1529344, "global_step/max_steps": "5974/6350"}
{"lm loss": 4.85162163, "grad_norm": 0.3374024, "learning_rate": 3.92e-06, "elapsed_time_per_iteration": 4.77691388, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 17s", "remaining_time": "30m 16s", "loss_scale": 1.0, "consumed_samples": 1529600, "global_step/max_steps": "5975/6350"}
{"lm loss": 4.83328533, "grad_norm": 0.32085967, "learning_rate": 3.92e-06, "elapsed_time_per_iteration": 4.7800045, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 21s", "remaining_time": "30m 11s", "loss_scale": 1.0, "consumed_samples": 1529856, "global_step/max_steps": "5976/6350"}
{"lm loss": 4.86147022, "grad_norm": 0.32750422, "learning_rate": 3.91e-06, "elapsed_time_per_iteration": 4.74752092, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 26s", "remaining_time": "30m 6s", "loss_scale": 1.0, "consumed_samples": 1530112, "global_step/max_steps": "5977/6350"}
{"lm loss": 4.85835505, "grad_norm": 0.42423815, "learning_rate": 3.91e-06, "elapsed_time_per_iteration": 4.76952171, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 31s", "remaining_time": "30m 1s", "loss_scale": 1.0, "consumed_samples": 1530368, "global_step/max_steps": "5978/6350"}
{"lm loss": 4.8542304, "grad_norm": 0.33464116, "learning_rate": 3.9e-06, "elapsed_time_per_iteration": 5.66786408, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 37s", "remaining_time": "29m 56s", "loss_scale": 1.0, "consumed_samples": 1530624, "global_step/max_steps": "5979/6350"}
{"lm loss": 4.84630251, "grad_norm": 0.32948631, "learning_rate": 3.9e-06, "elapsed_time_per_iteration": 4.88789463, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 41s", "remaining_time": "29m 51s", "loss_scale": 1.0, "consumed_samples": 1530880, "global_step/max_steps": "5980/6350"}
{"lm loss": 4.8619175, "grad_norm": 0.32499281, "learning_rate": 3.89e-06, "elapsed_time_per_iteration": 5.78047442, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 47s", "remaining_time": "29m 47s", "loss_scale": 1.0, "consumed_samples": 1531136, "global_step/max_steps": "5981/6350"}
{"lm loss": 4.8458333, "grad_norm": 0.314641, "learning_rate": 3.89e-06, "elapsed_time_per_iteration": 4.72418642, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 52s", "remaining_time": "29m 42s", "loss_scale": 1.0, "consumed_samples": 1531392, "global_step/max_steps": "5982/6350"}
{"lm loss": 4.86802578, "grad_norm": 0.3242566, "learning_rate": 3.88e-06, "elapsed_time_per_iteration": 4.79306912, "memory(GiB)": 28.03, "elapsed_time": "8h 2m 57s", "remaining_time": "29m 37s", "loss_scale": 1.0, "consumed_samples": 1531648, "global_step/max_steps": "5983/6350"}
{"lm loss": 4.85518932, "grad_norm": 0.32697511, "learning_rate": 3.88e-06, "elapsed_time_per_iteration": 4.8607204, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 2s", "remaining_time": "29m 32s", "loss_scale": 1.0, "consumed_samples": 1531904, "global_step/max_steps": "5984/6350"}
{"lm loss": 4.8528471, "grad_norm": 0.3376945, "learning_rate": 3.87e-06, "elapsed_time_per_iteration": 4.81522226, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 6s", "remaining_time": "29m 27s", "loss_scale": 1.0, "consumed_samples": 1532160, "global_step/max_steps": "5985/6350"}
{"lm loss": 4.86148977, "grad_norm": 0.33557302, "learning_rate": 3.87e-06, "elapsed_time_per_iteration": 4.80408287, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 11s", "remaining_time": "29m 22s", "loss_scale": 1.0, "consumed_samples": 1532416, "global_step/max_steps": "5986/6350"}
{"lm loss": 4.85896587, "grad_norm": 0.34745979, "learning_rate": 3.86e-06, "elapsed_time_per_iteration": 5.5301168, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 17s", "remaining_time": "29m 18s", "loss_scale": 1.0, "consumed_samples": 1532672, "global_step/max_steps": "5987/6350"}
{"lm loss": 4.83983469, "grad_norm": 0.31534109, "learning_rate": 3.86e-06, "elapsed_time_per_iteration": 4.77350307, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 22s", "remaining_time": "29m 13s", "loss_scale": 1.0, "consumed_samples": 1532928, "global_step/max_steps": "5988/6350"}
{"lm loss": 4.85615778, "grad_norm": 0.34472409, "learning_rate": 3.85e-06, "elapsed_time_per_iteration": 4.73028922, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 26s", "remaining_time": "29m 8s", "loss_scale": 1.0, "consumed_samples": 1533184, "global_step/max_steps": "5989/6350"}
{"lm loss": 4.84521484, "grad_norm": 0.51873779, "learning_rate": 3.85e-06, "elapsed_time_per_iteration": 4.72390389, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 31s", "remaining_time": "29m 3s", "loss_scale": 1.0, "consumed_samples": 1533440, "global_step/max_steps": "5990/6350"}
{"lm loss": 4.85564709, "grad_norm": 0.31956717, "learning_rate": 3.85e-06, "elapsed_time_per_iteration": 4.78916788, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 36s", "remaining_time": "28m 58s", "loss_scale": 1.0, "consumed_samples": 1533696, "global_step/max_steps": "5991/6350"}
{"lm loss": 4.83175707, "grad_norm": 0.33248773, "learning_rate": 3.84e-06, "elapsed_time_per_iteration": 4.79624534, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 41s", "remaining_time": "28m 53s", "loss_scale": 1.0, "consumed_samples": 1533952, "global_step/max_steps": "5992/6350"}
{"lm loss": 4.86590862, "grad_norm": 0.3215813, "learning_rate": 3.84e-06, "elapsed_time_per_iteration": 4.72605824, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 45s", "remaining_time": "28m 49s", "loss_scale": 1.0, "consumed_samples": 1534208, "global_step/max_steps": "5993/6350"}
{"lm loss": 4.85730314, "grad_norm": 0.33447531, "learning_rate": 3.83e-06, "elapsed_time_per_iteration": 4.7887888, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 50s", "remaining_time": "28m 44s", "loss_scale": 1.0, "consumed_samples": 1534464, "global_step/max_steps": "5994/6350"}
{"lm loss": 4.88327503, "grad_norm": 0.32552537, "learning_rate": 3.83e-06, "elapsed_time_per_iteration": 4.78346705, "memory(GiB)": 28.03, "elapsed_time": "8h 3m 55s", "remaining_time": "28m 39s", "loss_scale": 1.0, "consumed_samples": 1534720, "global_step/max_steps": "5995/6350"}
{"lm loss": 4.85314894, "grad_norm": 0.32968888, "learning_rate": 3.82e-06, "elapsed_time_per_iteration": 4.7355895, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 0s", "remaining_time": "28m 34s", "loss_scale": 1.0, "consumed_samples": 1534976, "global_step/max_steps": "5996/6350"}
{"lm loss": 4.87864256, "grad_norm": 0.33372736, "learning_rate": 3.82e-06, "elapsed_time_per_iteration": 4.77850246, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 4s", "remaining_time": "28m 29s", "loss_scale": 1.0, "consumed_samples": 1535232, "global_step/max_steps": "5997/6350"}
{"lm loss": 4.82924747, "grad_norm": 0.33255172, "learning_rate": 3.81e-06, "elapsed_time_per_iteration": 4.85931683, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 9s", "remaining_time": "28m 24s", "loss_scale": 1.0, "consumed_samples": 1535488, "global_step/max_steps": "5998/6350"}
{"lm loss": 4.87243462, "grad_norm": 0.3145636, "learning_rate": 3.81e-06, "elapsed_time_per_iteration": 4.78418994, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 14s", "remaining_time": "28m 19s", "loss_scale": 1.0, "consumed_samples": 1535744, "global_step/max_steps": "5999/6350"}
{"lm loss": 4.9022603, "grad_norm": 0.33100429, "learning_rate": 3.8e-06, "elapsed_time_per_iteration": 5.7249496, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 20s", "remaining_time": "28m 15s", "loss_scale": 1.0, "consumed_samples": 1536000, "global_step/max_steps": "6000/6350"}
{"lm loss": 4.84100151, "grad_norm": 0.31669468, "learning_rate": 3.8e-06, "elapsed_time_per_iteration": 4.80852056, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 25s", "remaining_time": "28m 10s", "loss_scale": 1.0, "consumed_samples": 1536256, "global_step/max_steps": "6001/6350"}
{"lm loss": 4.85353661, "grad_norm": 0.3177529, "learning_rate": 3.79e-06, "elapsed_time_per_iteration": 4.86394787, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 29s", "remaining_time": "28m 5s", "loss_scale": 1.0, "consumed_samples": 1536512, "global_step/max_steps": "6002/6350"}
{"lm loss": 4.8360405, "grad_norm": 0.3168782, "learning_rate": 3.79e-06, "elapsed_time_per_iteration": 4.78334665, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 34s", "remaining_time": "28m 0s", "loss_scale": 1.0, "consumed_samples": 1536768, "global_step/max_steps": "6003/6350"}
{"lm loss": 4.84264231, "grad_norm": 0.32435712, "learning_rate": 3.79e-06, "elapsed_time_per_iteration": 4.77835321, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 39s", "remaining_time": "27m 55s", "loss_scale": 1.0, "consumed_samples": 1537024, "global_step/max_steps": "6004/6350"}
{"lm loss": 4.84659767, "grad_norm": 0.31506041, "learning_rate": 3.78e-06, "elapsed_time_per_iteration": 4.82879162, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 44s", "remaining_time": "27m 50s", "loss_scale": 1.0, "consumed_samples": 1537280, "global_step/max_steps": "6005/6350"}
{"lm loss": 4.85967684, "grad_norm": 0.34492105, "learning_rate": 3.78e-06, "elapsed_time_per_iteration": 4.81420898, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 49s", "remaining_time": "27m 46s", "loss_scale": 1.0, "consumed_samples": 1537536, "global_step/max_steps": "6006/6350"}
{"lm loss": 4.86055756, "grad_norm": 0.33484742, "learning_rate": 3.77e-06, "elapsed_time_per_iteration": 4.81762767, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 53s", "remaining_time": "27m 41s", "loss_scale": 1.0, "consumed_samples": 1537792, "global_step/max_steps": "6007/6350"}
{"lm loss": 4.8402071, "grad_norm": 0.31286982, "learning_rate": 3.77e-06, "elapsed_time_per_iteration": 4.72865653, "memory(GiB)": 28.03, "elapsed_time": "8h 4m 58s", "remaining_time": "27m 36s", "loss_scale": 1.0, "consumed_samples": 1538048, "global_step/max_steps": "6008/6350"}
{"lm loss": 4.85990477, "grad_norm": 0.35122794, "learning_rate": 3.76e-06, "elapsed_time_per_iteration": 4.82606077, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 3s", "remaining_time": "27m 31s", "loss_scale": 1.0, "consumed_samples": 1538304, "global_step/max_steps": "6009/6350"}
{"lm loss": 4.87197828, "grad_norm": 0.35031676, "learning_rate": 3.76e-06, "elapsed_time_per_iteration": 5.70605707, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 9s", "remaining_time": "27m 26s", "loss_scale": 1.0, "consumed_samples": 1538560, "global_step/max_steps": "6010/6350"}
{"lm loss": 4.86874866, "grad_norm": 0.51461083, "learning_rate": 3.75e-06, "elapsed_time_per_iteration": 4.77999234, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 13s", "remaining_time": "27m 21s", "loss_scale": 1.0, "consumed_samples": 1538816, "global_step/max_steps": "6011/6350"}
{"lm loss": 4.84554815, "grad_norm": 0.33010384, "learning_rate": 3.75e-06, "elapsed_time_per_iteration": 4.76906991, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 18s", "remaining_time": "27m 17s", "loss_scale": 1.0, "consumed_samples": 1539072, "global_step/max_steps": "6012/6350"}
{"lm loss": 4.8555665, "grad_norm": 0.33227816, "learning_rate": 3.75e-06, "elapsed_time_per_iteration": 4.70755386, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 23s", "remaining_time": "27m 12s", "loss_scale": 1.0, "consumed_samples": 1539328, "global_step/max_steps": "6013/6350"}
{"lm loss": 4.86517096, "grad_norm": 0.33065751, "learning_rate": 3.74e-06, "elapsed_time_per_iteration": 4.73940468, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 28s", "remaining_time": "27m 7s", "loss_scale": 1.0, "consumed_samples": 1539584, "global_step/max_steps": "6014/6350"}
{"lm loss": 4.84190989, "grad_norm": 0.33351499, "learning_rate": 3.74e-06, "elapsed_time_per_iteration": 4.77241921, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 32s", "remaining_time": "27m 2s", "loss_scale": 1.0, "consumed_samples": 1539840, "global_step/max_steps": "6015/6350"}
{"lm loss": 4.86262369, "grad_norm": 0.32800302, "learning_rate": 3.73e-06, "elapsed_time_per_iteration": 4.83097911, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 37s", "remaining_time": "26m 57s", "loss_scale": 1.0, "consumed_samples": 1540096, "global_step/max_steps": "6016/6350"}
{"lm loss": 4.8850975, "grad_norm": 0.32854572, "learning_rate": 3.73e-06, "elapsed_time_per_iteration": 4.72802997, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 42s", "remaining_time": "26m 52s", "loss_scale": 1.0, "consumed_samples": 1540352, "global_step/max_steps": "6017/6350"}
{"lm loss": 4.87650204, "grad_norm": 0.59785372, "learning_rate": 3.72e-06, "elapsed_time_per_iteration": 4.74857116, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 47s", "remaining_time": "26m 47s", "loss_scale": 1.0, "consumed_samples": 1540608, "global_step/max_steps": "6018/6350"}
{"lm loss": 4.85789204, "grad_norm": 0.32478085, "learning_rate": 3.72e-06, "elapsed_time_per_iteration": 4.7857883, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 52s", "remaining_time": "26m 43s", "loss_scale": 1.0, "consumed_samples": 1540864, "global_step/max_steps": "6019/6350"}
{"lm loss": 4.87590504, "grad_norm": 0.32168818, "learning_rate": 3.71e-06, "elapsed_time_per_iteration": 4.80236268, "memory(GiB)": 28.03, "elapsed_time": "8h 5m 56s", "remaining_time": "26m 38s", "loss_scale": 1.0, "consumed_samples": 1541120, "global_step/max_steps": "6020/6350"}
{"lm loss": 4.87778378, "grad_norm": 0.3647179, "learning_rate": 3.71e-06, "elapsed_time_per_iteration": 5.87475276, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 2s", "remaining_time": "26m 33s", "loss_scale": 1.0, "consumed_samples": 1541376, "global_step/max_steps": "6021/6350"}
{"lm loss": 4.87385178, "grad_norm": 0.33048826, "learning_rate": 3.71e-06, "elapsed_time_per_iteration": 4.73237944, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 7s", "remaining_time": "26m 28s", "loss_scale": 1.0, "consumed_samples": 1541632, "global_step/max_steps": "6022/6350"}
{"lm loss": 4.86937141, "grad_norm": 0.31346723, "learning_rate": 3.7e-06, "elapsed_time_per_iteration": 4.74751902, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 12s", "remaining_time": "26m 23s", "loss_scale": 1.0, "consumed_samples": 1541888, "global_step/max_steps": "6023/6350"}
{"lm loss": 4.86791849, "grad_norm": 0.33004096, "learning_rate": 3.7e-06, "elapsed_time_per_iteration": 4.69637704, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 16s", "remaining_time": "26m 18s", "loss_scale": 1.0, "consumed_samples": 1542144, "global_step/max_steps": "6024/6350"}
{"lm loss": 4.86409903, "grad_norm": 0.41023096, "learning_rate": 3.69e-06, "elapsed_time_per_iteration": 5.70621037, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 22s", "remaining_time": "26m 14s", "loss_scale": 1.0, "consumed_samples": 1542400, "global_step/max_steps": "6025/6350"}
{"lm loss": 4.87001657, "grad_norm": 0.31772748, "learning_rate": 3.69e-06, "elapsed_time_per_iteration": 4.78239512, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 27s", "remaining_time": "26m 9s", "loss_scale": 1.0, "consumed_samples": 1542656, "global_step/max_steps": "6026/6350"}
{"lm loss": 4.86344814, "grad_norm": 0.32859543, "learning_rate": 3.68e-06, "elapsed_time_per_iteration": 4.71831584, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 32s", "remaining_time": "26m 4s", "loss_scale": 1.0, "consumed_samples": 1542912, "global_step/max_steps": "6027/6350"}
{"lm loss": 4.85777617, "grad_norm": 0.34277675, "learning_rate": 3.68e-06, "elapsed_time_per_iteration": 5.49294209, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 37s", "remaining_time": "25m 59s", "loss_scale": 1.0, "consumed_samples": 1543168, "global_step/max_steps": "6028/6350"}
{"lm loss": 4.87171221, "grad_norm": 0.59024173, "learning_rate": 3.68e-06, "elapsed_time_per_iteration": 4.94866943, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 42s", "remaining_time": "25m 54s", "loss_scale": 1.0, "consumed_samples": 1543424, "global_step/max_steps": "6029/6350"}
{"lm loss": 4.84872293, "grad_norm": 0.33688477, "learning_rate": 3.67e-06, "elapsed_time_per_iteration": 4.79834723, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 47s", "remaining_time": "25m 49s", "loss_scale": 1.0, "consumed_samples": 1543680, "global_step/max_steps": "6030/6350"}
{"lm loss": 4.84679556, "grad_norm": 0.32560435, "learning_rate": 3.67e-06, "elapsed_time_per_iteration": 4.74727225, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 52s", "remaining_time": "25m 45s", "loss_scale": 1.0, "consumed_samples": 1543936, "global_step/max_steps": "6031/6350"}
{"lm loss": 4.87808943, "grad_norm": 0.3728025, "learning_rate": 3.66e-06, "elapsed_time_per_iteration": 4.78467178, "memory(GiB)": 28.03, "elapsed_time": "8h 6m 56s", "remaining_time": "25m 40s", "loss_scale": 1.0, "consumed_samples": 1544192, "global_step/max_steps": "6032/6350"}
{"lm loss": 4.86811495, "grad_norm": 0.3177301, "learning_rate": 3.66e-06, "elapsed_time_per_iteration": 4.69065976, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 1s", "remaining_time": "25m 35s", "loss_scale": 1.0, "consumed_samples": 1544448, "global_step/max_steps": "6033/6350"}
{"lm loss": 4.84340191, "grad_norm": 0.34062588, "learning_rate": 3.66e-06, "elapsed_time_per_iteration": 5.68214536, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 7s", "remaining_time": "25m 30s", "loss_scale": 1.0, "consumed_samples": 1544704, "global_step/max_steps": "6034/6350"}
{"lm loss": 4.87892675, "grad_norm": 0.32172573, "learning_rate": 3.65e-06, "elapsed_time_per_iteration": 4.85625148, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 12s", "remaining_time": "25m 25s", "loss_scale": 1.0, "consumed_samples": 1544960, "global_step/max_steps": "6035/6350"}
{"lm loss": 4.84455633, "grad_norm": 0.30637059, "learning_rate": 3.65e-06, "elapsed_time_per_iteration": 4.77702475, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 16s", "remaining_time": "25m 20s", "loss_scale": 1.0, "consumed_samples": 1545216, "global_step/max_steps": "6036/6350"}
{"lm loss": 4.8427701, "grad_norm": 0.32065687, "learning_rate": 3.64e-06, "elapsed_time_per_iteration": 4.81777525, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 21s", "remaining_time": "25m 16s", "loss_scale": 1.0, "consumed_samples": 1545472, "global_step/max_steps": "6037/6350"}
{"lm loss": 4.86916494, "grad_norm": 0.31112677, "learning_rate": 3.64e-06, "elapsed_time_per_iteration": 4.74141192, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 26s", "remaining_time": "25m 11s", "loss_scale": 1.0, "consumed_samples": 1545728, "global_step/max_steps": "6038/6350"}
{"lm loss": 4.87030745, "grad_norm": 0.31892541, "learning_rate": 3.63e-06, "elapsed_time_per_iteration": 4.7907939, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 31s", "remaining_time": "25m 6s", "loss_scale": 1.0, "consumed_samples": 1545984, "global_step/max_steps": "6039/6350"}
{"lm loss": 4.8515811, "grad_norm": 0.31532812, "learning_rate": 3.63e-06, "elapsed_time_per_iteration": 4.8853817, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 36s", "remaining_time": "25m 1s", "loss_scale": 1.0, "consumed_samples": 1546240, "global_step/max_steps": "6040/6350"}
{"lm loss": 4.86187553, "grad_norm": 0.32549307, "learning_rate": 3.63e-06, "elapsed_time_per_iteration": 4.77696729, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 40s", "remaining_time": "24m 56s", "loss_scale": 1.0, "consumed_samples": 1546496, "global_step/max_steps": "6041/6350"}
{"lm loss": 4.86350155, "grad_norm": 0.32600087, "learning_rate": 3.62e-06, "elapsed_time_per_iteration": 4.85748005, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 45s", "remaining_time": "24m 51s", "loss_scale": 1.0, "consumed_samples": 1546752, "global_step/max_steps": "6042/6350"}
{"lm loss": 4.85573626, "grad_norm": 0.3267476, "learning_rate": 3.62e-06, "elapsed_time_per_iteration": 5.54552984, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 51s", "remaining_time": "24m 47s", "loss_scale": 1.0, "consumed_samples": 1547008, "global_step/max_steps": "6043/6350"}
{"lm loss": 4.86375523, "grad_norm": 0.31891558, "learning_rate": 3.61e-06, "elapsed_time_per_iteration": 4.89146328, "memory(GiB)": 28.03, "elapsed_time": "8h 7m 56s", "remaining_time": "24m 42s", "loss_scale": 1.0, "consumed_samples": 1547264, "global_step/max_steps": "6044/6350"}
{"lm loss": 4.83486938, "grad_norm": 0.31632173, "learning_rate": 3.61e-06, "elapsed_time_per_iteration": 4.91340542, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 1s", "remaining_time": "24m 37s", "loss_scale": 1.0, "consumed_samples": 1547520, "global_step/max_steps": "6045/6350"}
{"lm loss": 4.86608076, "grad_norm": 0.33993864, "learning_rate": 3.61e-06, "elapsed_time_per_iteration": 4.80778122, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 5s", "remaining_time": "24m 32s", "loss_scale": 1.0, "consumed_samples": 1547776, "global_step/max_steps": "6046/6350"}
{"lm loss": 4.87090683, "grad_norm": 0.31414083, "learning_rate": 3.6e-06, "elapsed_time_per_iteration": 4.77859306, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 10s", "remaining_time": "24m 27s", "loss_scale": 1.0, "consumed_samples": 1548032, "global_step/max_steps": "6047/6350"}
{"lm loss": 4.85511827, "grad_norm": 0.32821068, "learning_rate": 3.6e-06, "elapsed_time_per_iteration": 4.82744527, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 15s", "remaining_time": "24m 22s", "loss_scale": 1.0, "consumed_samples": 1548288, "global_step/max_steps": "6048/6350"}
{"lm loss": 4.85612249, "grad_norm": 0.33544287, "learning_rate": 3.59e-06, "elapsed_time_per_iteration": 5.45322251, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 20s", "remaining_time": "24m 18s", "loss_scale": 1.0, "consumed_samples": 1548544, "global_step/max_steps": "6049/6350"}
{"lm loss": 4.84657764, "grad_norm": 0.31958956, "learning_rate": 3.59e-06, "elapsed_time_per_iteration": 4.77697396, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 25s", "remaining_time": "24m 13s", "loss_scale": 1.0, "consumed_samples": 1548800, "global_step/max_steps": "6050/6350"}
{"lm loss": 4.87077141, "grad_norm": 0.32265949, "learning_rate": 3.59e-06, "elapsed_time_per_iteration": 4.75510335, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 30s", "remaining_time": "24m 8s", "loss_scale": 1.0, "consumed_samples": 1549056, "global_step/max_steps": "6051/6350"}
{"lm loss": 4.87470436, "grad_norm": 0.317213, "learning_rate": 3.58e-06, "elapsed_time_per_iteration": 4.70243025, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 35s", "remaining_time": "24m 3s", "loss_scale": 1.0, "consumed_samples": 1549312, "global_step/max_steps": "6052/6350"}
{"lm loss": 4.85509729, "grad_norm": 0.30982006, "learning_rate": 3.58e-06, "elapsed_time_per_iteration": 4.7452569, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 39s", "remaining_time": "23m 58s", "loss_scale": 1.0, "consumed_samples": 1549568, "global_step/max_steps": "6053/6350"}
{"lm loss": 4.86188936, "grad_norm": 0.32313097, "learning_rate": 3.58e-06, "elapsed_time_per_iteration": 4.90997648, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 44s", "remaining_time": "23m 53s", "loss_scale": 1.0, "consumed_samples": 1549824, "global_step/max_steps": "6054/6350"}
{"lm loss": 4.86267757, "grad_norm": 0.31859249, "learning_rate": 3.57e-06, "elapsed_time_per_iteration": 4.84998202, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 49s", "remaining_time": "23m 48s", "loss_scale": 1.0, "consumed_samples": 1550080, "global_step/max_steps": "6055/6350"}
{"lm loss": 4.87766838, "grad_norm": 0.31987152, "learning_rate": 3.57e-06, "elapsed_time_per_iteration": 4.86115265, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 54s", "remaining_time": "23m 44s", "loss_scale": 1.0, "consumed_samples": 1550336, "global_step/max_steps": "6056/6350"}
{"lm loss": 4.84584236, "grad_norm": 0.31255442, "learning_rate": 3.56e-06, "elapsed_time_per_iteration": 4.77022362, "memory(GiB)": 28.03, "elapsed_time": "8h 8m 59s", "remaining_time": "23m 39s", "loss_scale": 1.0, "consumed_samples": 1550592, "global_step/max_steps": "6057/6350"}
{"lm loss": 4.87384939, "grad_norm": 0.30952343, "learning_rate": 3.56e-06, "elapsed_time_per_iteration": 4.81037498, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 4s", "remaining_time": "23m 34s", "loss_scale": 1.0, "consumed_samples": 1550848, "global_step/max_steps": "6058/6350"}
{"lm loss": 4.86726522, "grad_norm": 0.33050558, "learning_rate": 3.56e-06, "elapsed_time_per_iteration": 4.90115476, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 9s", "remaining_time": "23m 29s", "loss_scale": 1.0, "consumed_samples": 1551104, "global_step/max_steps": "6059/6350"}
{"lm loss": 4.84720421, "grad_norm": 0.30948523, "learning_rate": 3.55e-06, "elapsed_time_per_iteration": 4.76417351, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 13s", "remaining_time": "23m 24s", "loss_scale": 1.0, "consumed_samples": 1551360, "global_step/max_steps": "6060/6350"}
{"lm loss": 4.85078049, "grad_norm": 0.30968958, "learning_rate": 3.55e-06, "elapsed_time_per_iteration": 4.7420845, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 18s", "remaining_time": "23m 19s", "loss_scale": 1.0, "consumed_samples": 1551616, "global_step/max_steps": "6061/6350"}
{"lm loss": 4.85181904, "grad_norm": 0.31093317, "learning_rate": 3.54e-06, "elapsed_time_per_iteration": 4.84647536, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 23s", "remaining_time": "23m 15s", "loss_scale": 1.0, "consumed_samples": 1551872, "global_step/max_steps": "6062/6350"}
{"lm loss": 4.84785128, "grad_norm": 0.31511605, "learning_rate": 3.54e-06, "elapsed_time_per_iteration": 5.60031915, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 29s", "remaining_time": "23m 10s", "loss_scale": 1.0, "consumed_samples": 1552128, "global_step/max_steps": "6063/6350"}
{"lm loss": 4.87017965, "grad_norm": 0.3152152, "learning_rate": 3.54e-06, "elapsed_time_per_iteration": 5.40339184, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 34s", "remaining_time": "23m 5s", "loss_scale": 1.0, "consumed_samples": 1552384, "global_step/max_steps": "6064/6350"}
{"lm loss": 4.86627102, "grad_norm": 0.31860727, "learning_rate": 3.53e-06, "elapsed_time_per_iteration": 4.79192472, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 39s", "remaining_time": "23m 0s", "loss_scale": 1.0, "consumed_samples": 1552640, "global_step/max_steps": "6065/6350"}
{"lm loss": 4.83072805, "grad_norm": 0.32280496, "learning_rate": 3.53e-06, "elapsed_time_per_iteration": 4.86993575, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 44s", "remaining_time": "22m 55s", "loss_scale": 1.0, "consumed_samples": 1552896, "global_step/max_steps": "6066/6350"}
{"lm loss": 4.86336374, "grad_norm": 0.33554876, "learning_rate": 3.53e-06, "elapsed_time_per_iteration": 4.82374239, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 48s", "remaining_time": "22m 50s", "loss_scale": 1.0, "consumed_samples": 1553152, "global_step/max_steps": "6067/6350"}
{"lm loss": 4.83993673, "grad_norm": 0.31697896, "learning_rate": 3.52e-06, "elapsed_time_per_iteration": 4.86346316, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 53s", "remaining_time": "22m 46s", "loss_scale": 1.0, "consumed_samples": 1553408, "global_step/max_steps": "6068/6350"}
{"lm loss": 4.86352539, "grad_norm": 0.33369088, "learning_rate": 3.52e-06, "elapsed_time_per_iteration": 4.78787589, "memory(GiB)": 28.03, "elapsed_time": "8h 9m 58s", "remaining_time": "22m 41s", "loss_scale": 1.0, "consumed_samples": 1553664, "global_step/max_steps": "6069/6350"}
{"lm loss": 4.86587381, "grad_norm": 0.32915956, "learning_rate": 3.51e-06, "elapsed_time_per_iteration": 4.82940984, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 3s", "remaining_time": "22m 36s", "loss_scale": 1.0, "consumed_samples": 1553920, "global_step/max_steps": "6070/6350"}
{"lm loss": 4.86171246, "grad_norm": 0.31491068, "learning_rate": 3.51e-06, "elapsed_time_per_iteration": 4.74304628, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 8s", "remaining_time": "22m 31s", "loss_scale": 1.0, "consumed_samples": 1554176, "global_step/max_steps": "6071/6350"}
{"lm loss": 4.88564634, "grad_norm": 0.31461671, "learning_rate": 3.51e-06, "elapsed_time_per_iteration": 4.74302411, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 12s", "remaining_time": "22m 26s", "loss_scale": 1.0, "consumed_samples": 1554432, "global_step/max_steps": "6072/6350"}
{"lm loss": 4.8679266, "grad_norm": 0.33226073, "learning_rate": 3.5e-06, "elapsed_time_per_iteration": 5.6001246, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 18s", "remaining_time": "22m 21s", "loss_scale": 1.0, "consumed_samples": 1554688, "global_step/max_steps": "6073/6350"}
{"lm loss": 4.86320353, "grad_norm": 0.32472456, "learning_rate": 3.5e-06, "elapsed_time_per_iteration": 4.82485151, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 23s", "remaining_time": "22m 16s", "loss_scale": 1.0, "consumed_samples": 1554944, "global_step/max_steps": "6074/6350"}
{"lm loss": 4.89199734, "grad_norm": 0.32186535, "learning_rate": 3.5e-06, "elapsed_time_per_iteration": 4.80693388, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 28s", "remaining_time": "22m 12s", "loss_scale": 1.0, "consumed_samples": 1555200, "global_step/max_steps": "6075/6350"}
{"lm loss": 4.84458351, "grad_norm": 0.32129559, "learning_rate": 3.49e-06, "elapsed_time_per_iteration": 4.76548696, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 32s", "remaining_time": "22m 7s", "loss_scale": 1.0, "consumed_samples": 1555456, "global_step/max_steps": "6076/6350"}
{"lm loss": 4.86864424, "grad_norm": 0.32326329, "learning_rate": 3.49e-06, "elapsed_time_per_iteration": 4.75151372, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 37s", "remaining_time": "22m 2s", "loss_scale": 1.0, "consumed_samples": 1555712, "global_step/max_steps": "6077/6350"}
{"lm loss": 4.86627674, "grad_norm": 0.33921057, "learning_rate": 3.49e-06, "elapsed_time_per_iteration": 4.88628793, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 42s", "remaining_time": "21m 57s", "loss_scale": 1.0, "consumed_samples": 1555968, "global_step/max_steps": "6078/6350"}
{"lm loss": 4.87270308, "grad_norm": 0.3183367, "learning_rate": 3.48e-06, "elapsed_time_per_iteration": 5.63612247, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 48s", "remaining_time": "21m 52s", "loss_scale": 1.0, "consumed_samples": 1556224, "global_step/max_steps": "6079/6350"}
{"lm loss": 4.84638548, "grad_norm": 0.33284524, "learning_rate": 3.48e-06, "elapsed_time_per_iteration": 4.78852582, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 52s", "remaining_time": "21m 47s", "loss_scale": 1.0, "consumed_samples": 1556480, "global_step/max_steps": "6080/6350"}
{"lm loss": 4.85550213, "grad_norm": 0.35073647, "learning_rate": 3.48e-06, "elapsed_time_per_iteration": 4.83077002, "memory(GiB)": 28.03, "elapsed_time": "8h 10m 57s", "remaining_time": "21m 43s", "loss_scale": 1.0, "consumed_samples": 1556736, "global_step/max_steps": "6081/6350"}
{"lm loss": 4.87187338, "grad_norm": 0.32434243, "learning_rate": 3.47e-06, "elapsed_time_per_iteration": 4.771698, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 2s", "remaining_time": "21m 38s", "loss_scale": 1.0, "consumed_samples": 1556992, "global_step/max_steps": "6082/6350"}
{"lm loss": 4.85208368, "grad_norm": 0.31817991, "learning_rate": 3.47e-06, "elapsed_time_per_iteration": 4.84446216, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 7s", "remaining_time": "21m 33s", "loss_scale": 1.0, "consumed_samples": 1557248, "global_step/max_steps": "6083/6350"}
{"lm loss": 4.83222055, "grad_norm": 0.32322526, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.86492467, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 12s", "remaining_time": "21m 28s", "loss_scale": 1.0, "consumed_samples": 1557504, "global_step/max_steps": "6084/6350"}
{"lm loss": 4.86409998, "grad_norm": 0.33219606, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 5.7742095, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 18s", "remaining_time": "21m 23s", "loss_scale": 1.0, "consumed_samples": 1557760, "global_step/max_steps": "6085/6350"}
{"lm loss": 4.84466791, "grad_norm": 0.33041549, "learning_rate": 3.46e-06, "elapsed_time_per_iteration": 4.82261539, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 22s", "remaining_time": "21m 18s", "loss_scale": 1.0, "consumed_samples": 1558016, "global_step/max_steps": "6086/6350"}
{"lm loss": 4.86546087, "grad_norm": 0.33977246, "learning_rate": 3.45e-06, "elapsed_time_per_iteration": 4.75726056, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 27s", "remaining_time": "21m 14s", "loss_scale": 1.0, "consumed_samples": 1558272, "global_step/max_steps": "6087/6350"}
{"lm loss": 4.86335564, "grad_norm": 0.33785945, "learning_rate": 3.45e-06, "elapsed_time_per_iteration": 5.49467206, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 33s", "remaining_time": "21m 9s", "loss_scale": 1.0, "consumed_samples": 1558528, "global_step/max_steps": "6088/6350"}
{"lm loss": 4.86178207, "grad_norm": 0.3258208, "learning_rate": 3.45e-06, "elapsed_time_per_iteration": 4.74736023, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 37s", "remaining_time": "21m 4s", "loss_scale": 1.0, "consumed_samples": 1558784, "global_step/max_steps": "6089/6350"}
{"lm loss": 4.85020399, "grad_norm": 0.3357287, "learning_rate": 3.44e-06, "elapsed_time_per_iteration": 4.74693155, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 42s", "remaining_time": "20m 59s", "loss_scale": 1.0, "consumed_samples": 1559040, "global_step/max_steps": "6090/6350"}
{"lm loss": 4.8615756, "grad_norm": 0.31745487, "learning_rate": 3.44e-06, "elapsed_time_per_iteration": 4.74360466, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 47s", "remaining_time": "20m 54s", "loss_scale": 1.0, "consumed_samples": 1559296, "global_step/max_steps": "6091/6350"}
{"lm loss": 4.86136484, "grad_norm": 0.34969255, "learning_rate": 3.44e-06, "elapsed_time_per_iteration": 4.76733828, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 52s", "remaining_time": "20m 49s", "loss_scale": 1.0, "consumed_samples": 1559552, "global_step/max_steps": "6092/6350"}
{"lm loss": 4.85444117, "grad_norm": 0.3230983, "learning_rate": 3.43e-06, "elapsed_time_per_iteration": 4.79460621, "memory(GiB)": 28.03, "elapsed_time": "8h 11m 56s", "remaining_time": "20m 45s", "loss_scale": 1.0, "consumed_samples": 1559808, "global_step/max_steps": "6093/6350"}
{"lm loss": 4.85487032, "grad_norm": 0.32766339, "learning_rate": 3.43e-06, "elapsed_time_per_iteration": 4.76121283, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 1s", "remaining_time": "20m 40s", "loss_scale": 1.0, "consumed_samples": 1560064, "global_step/max_steps": "6094/6350"}
{"lm loss": 4.8467927, "grad_norm": 0.32700908, "learning_rate": 3.43e-06, "elapsed_time_per_iteration": 4.81506371, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 6s", "remaining_time": "20m 35s", "loss_scale": 1.0, "consumed_samples": 1560320, "global_step/max_steps": "6095/6350"}
{"lm loss": 4.86064577, "grad_norm": 0.32218966, "learning_rate": 3.42e-06, "elapsed_time_per_iteration": 4.77308702, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 11s", "remaining_time": "20m 30s", "loss_scale": 1.0, "consumed_samples": 1560576, "global_step/max_steps": "6096/6350"}
{"lm loss": 4.85762835, "grad_norm": 0.31415737, "learning_rate": 3.42e-06, "elapsed_time_per_iteration": 4.77057624, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 16s", "remaining_time": "20m 25s", "loss_scale": 1.0, "consumed_samples": 1560832, "global_step/max_steps": "6097/6350"}
{"lm loss": 4.86201763, "grad_norm": 0.32647756, "learning_rate": 3.42e-06, "elapsed_time_per_iteration": 4.89571738, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 20s", "remaining_time": "20m 20s", "loss_scale": 1.0, "consumed_samples": 1561088, "global_step/max_steps": "6098/6350"}
{"lm loss": 4.86792421, "grad_norm": 0.33953762, "learning_rate": 3.41e-06, "elapsed_time_per_iteration": 4.81884909, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 25s", "remaining_time": "20m 15s", "loss_scale": 1.0, "consumed_samples": 1561344, "global_step/max_steps": "6099/6350"}
{"lm loss": 4.8530941, "grad_norm": 0.32463959, "learning_rate": 3.41e-06, "elapsed_time_per_iteration": 4.89076805, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 30s", "remaining_time": "20m 11s", "loss_scale": 1.0, "consumed_samples": 1561600, "global_step/max_steps": "6100/6350"}
{"lm loss": 4.85823727, "grad_norm": 0.33143339, "learning_rate": 3.41e-06, "elapsed_time_per_iteration": 4.74126077, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 35s", "remaining_time": "20m 6s", "loss_scale": 1.0, "consumed_samples": 1561856, "global_step/max_steps": "6101/6350"}
{"lm loss": 4.84083128, "grad_norm": 0.31122458, "learning_rate": 3.4e-06, "elapsed_time_per_iteration": 5.60348868, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 40s", "remaining_time": "20m 1s", "loss_scale": 1.0, "consumed_samples": 1562112, "global_step/max_steps": "6102/6350"}
{"lm loss": 4.84404993, "grad_norm": 0.31993243, "learning_rate": 3.4e-06, "elapsed_time_per_iteration": 4.80874181, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 45s", "remaining_time": "19m 56s", "loss_scale": 1.0, "consumed_samples": 1562368, "global_step/max_steps": "6103/6350"}
{"lm loss": 4.86560583, "grad_norm": 0.32692266, "learning_rate": 3.4e-06, "elapsed_time_per_iteration": 4.72948861, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 50s", "remaining_time": "19m 51s", "loss_scale": 1.0, "consumed_samples": 1562624, "global_step/max_steps": "6104/6350"}
{"lm loss": 4.86778164, "grad_norm": 0.31837901, "learning_rate": 3.39e-06, "elapsed_time_per_iteration": 4.72013164, "memory(GiB)": 28.03, "elapsed_time": "8h 12m 55s", "remaining_time": "19m 46s", "loss_scale": 1.0, "consumed_samples": 1562880, "global_step/max_steps": "6105/6350"}
{"lm loss": 4.84566116, "grad_norm": 0.32170242, "learning_rate": 3.39e-06, "elapsed_time_per_iteration": 4.84599996, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 0s", "remaining_time": "19m 42s", "loss_scale": 1.0, "consumed_samples": 1563136, "global_step/max_steps": "6106/6350"}
{"lm loss": 4.8487401, "grad_norm": 0.33793956, "learning_rate": 3.39e-06, "elapsed_time_per_iteration": 4.73312092, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 4s", "remaining_time": "19m 37s", "loss_scale": 1.0, "consumed_samples": 1563392, "global_step/max_steps": "6107/6350"}
{"lm loss": 4.86616707, "grad_norm": 0.32355839, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.81376791, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 9s", "remaining_time": "19m 32s", "loss_scale": 1.0, "consumed_samples": 1563648, "global_step/max_steps": "6108/6350"}
{"lm loss": 4.85009098, "grad_norm": 0.35384008, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.79236317, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 14s", "remaining_time": "19m 27s", "loss_scale": 1.0, "consumed_samples": 1563904, "global_step/max_steps": "6109/6350"}
{"lm loss": 4.85937452, "grad_norm": 0.31619632, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.8025279, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 19s", "remaining_time": "19m 22s", "loss_scale": 1.0, "consumed_samples": 1564160, "global_step/max_steps": "6110/6350"}
{"lm loss": 4.8728137, "grad_norm": 0.41162121, "learning_rate": 3.38e-06, "elapsed_time_per_iteration": 4.72673249, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 23s", "remaining_time": "19m 17s", "loss_scale": 1.0, "consumed_samples": 1564416, "global_step/max_steps": "6111/6350"}
{"lm loss": 4.82778978, "grad_norm": 0.31734127, "learning_rate": 3.37e-06, "elapsed_time_per_iteration": 4.84769368, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 28s", "remaining_time": "19m 12s", "loss_scale": 1.0, "consumed_samples": 1564672, "global_step/max_steps": "6112/6350"}
{"lm loss": 4.859622, "grad_norm": 0.32029688, "learning_rate": 3.37e-06, "elapsed_time_per_iteration": 4.73998213, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 33s", "remaining_time": "19m 8s", "loss_scale": 1.0, "consumed_samples": 1564928, "global_step/max_steps": "6113/6350"}
{"lm loss": 4.86884403, "grad_norm": 0.32340851, "learning_rate": 3.37e-06, "elapsed_time_per_iteration": 4.72745109, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 38s", "remaining_time": "19m 3s", "loss_scale": 1.0, "consumed_samples": 1565184, "global_step/max_steps": "6114/6350"}
{"lm loss": 4.84221077, "grad_norm": 0.3316341, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 4.74014711, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 43s", "remaining_time": "18m 58s", "loss_scale": 1.0, "consumed_samples": 1565440, "global_step/max_steps": "6115/6350"}
{"lm loss": 4.88128996, "grad_norm": 0.30668417, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 5.36389685, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 48s", "remaining_time": "18m 53s", "loss_scale": 1.0, "consumed_samples": 1565696, "global_step/max_steps": "6116/6350"}
{"lm loss": 4.82925129, "grad_norm": 0.33247218, "learning_rate": 3.36e-06, "elapsed_time_per_iteration": 4.79612803, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 53s", "remaining_time": "18m 48s", "loss_scale": 1.0, "consumed_samples": 1565952, "global_step/max_steps": "6117/6350"}
{"lm loss": 4.83978176, "grad_norm": 0.35168847, "learning_rate": 3.35e-06, "elapsed_time_per_iteration": 5.02348375, "memory(GiB)": 28.03, "elapsed_time": "8h 13m 58s", "remaining_time": "18m 43s", "loss_scale": 1.0, "consumed_samples": 1566208, "global_step/max_steps": "6118/6350"}
{"lm loss": 4.84753704, "grad_norm": 0.31035984, "learning_rate": 3.35e-06, "elapsed_time_per_iteration": 4.86335707, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 3s", "remaining_time": "18m 39s", "loss_scale": 1.0, "consumed_samples": 1566464, "global_step/max_steps": "6119/6350"}
{"lm loss": 4.86660194, "grad_norm": 0.33555865, "learning_rate": 3.35e-06, "elapsed_time_per_iteration": 4.77920413, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 7s", "remaining_time": "18m 34s", "loss_scale": 1.0, "consumed_samples": 1566720, "global_step/max_steps": "6120/6350"}
{"lm loss": 4.84559202, "grad_norm": 0.32348984, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 4.92259264, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 12s", "remaining_time": "18m 29s", "loss_scale": 1.0, "consumed_samples": 1566976, "global_step/max_steps": "6121/6350"}
{"lm loss": 4.83611488, "grad_norm": 0.31680828, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 4.71330142, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 17s", "remaining_time": "18m 24s", "loss_scale": 1.0, "consumed_samples": 1567232, "global_step/max_steps": "6122/6350"}
{"lm loss": 4.88517046, "grad_norm": 0.33283889, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 5.26520491, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 22s", "remaining_time": "18m 19s", "loss_scale": 1.0, "consumed_samples": 1567488, "global_step/max_steps": "6123/6350"}
{"lm loss": 4.85220528, "grad_norm": 0.31591889, "learning_rate": 3.34e-06, "elapsed_time_per_iteration": 4.78587747, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 27s", "remaining_time": "18m 14s", "loss_scale": 1.0, "consumed_samples": 1567744, "global_step/max_steps": "6124/6350"}
{"lm loss": 4.86523151, "grad_norm": 0.31591862, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 5.68022418, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 33s", "remaining_time": "18m 10s", "loss_scale": 1.0, "consumed_samples": 1568000, "global_step/max_steps": "6125/6350"}
{"lm loss": 4.85307789, "grad_norm": 0.40082601, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 4.78604913, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 37s", "remaining_time": "18m 5s", "loss_scale": 1.0, "consumed_samples": 1568256, "global_step/max_steps": "6126/6350"}
{"lm loss": 4.85984659, "grad_norm": 0.3188256, "learning_rate": 3.33e-06, "elapsed_time_per_iteration": 4.79144812, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 42s", "remaining_time": "18m 0s", "loss_scale": 1.0, "consumed_samples": 1568512, "global_step/max_steps": "6127/6350"}
{"lm loss": 4.86913061, "grad_norm": 0.32949477, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.71082425, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 47s", "remaining_time": "17m 55s", "loss_scale": 1.0, "consumed_samples": 1568768, "global_step/max_steps": "6128/6350"}
{"lm loss": 4.86577415, "grad_norm": 0.339093, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.71959805, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 52s", "remaining_time": "17m 50s", "loss_scale": 1.0, "consumed_samples": 1569024, "global_step/max_steps": "6129/6350"}
{"lm loss": 4.84314442, "grad_norm": 0.33123583, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.76754928, "memory(GiB)": 28.03, "elapsed_time": "8h 14m 56s", "remaining_time": "17m 45s", "loss_scale": 1.0, "consumed_samples": 1569280, "global_step/max_steps": "6130/6350"}
{"lm loss": 4.8450985, "grad_norm": 0.31210837, "learning_rate": 3.32e-06, "elapsed_time_per_iteration": 4.80281687, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 1s", "remaining_time": "17m 40s", "loss_scale": 1.0, "consumed_samples": 1569536, "global_step/max_steps": "6131/6350"}
{"lm loss": 4.8830061, "grad_norm": 0.31520972, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.93326044, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 6s", "remaining_time": "17m 36s", "loss_scale": 1.0, "consumed_samples": 1569792, "global_step/max_steps": "6132/6350"}
{"lm loss": 4.85687923, "grad_norm": 0.31819731, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.79540324, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 11s", "remaining_time": "17m 31s", "loss_scale": 1.0, "consumed_samples": 1570048, "global_step/max_steps": "6133/6350"}
{"lm loss": 4.83846617, "grad_norm": 0.31937259, "learning_rate": 3.31e-06, "elapsed_time_per_iteration": 4.82561135, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 16s", "remaining_time": "17m 26s", "loss_scale": 1.0, "consumed_samples": 1570304, "global_step/max_steps": "6134/6350"}
{"lm loss": 4.84952497, "grad_norm": 0.32243186, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 4.84573746, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 21s", "remaining_time": "17m 21s", "loss_scale": 1.0, "consumed_samples": 1570560, "global_step/max_steps": "6135/6350"}
{"lm loss": 4.84443665, "grad_norm": 0.31020489, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 5.48541617, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 26s", "remaining_time": "17m 16s", "loss_scale": 1.0, "consumed_samples": 1570816, "global_step/max_steps": "6136/6350"}
{"lm loss": 4.85274172, "grad_norm": 0.33150914, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 4.79613233, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 31s", "remaining_time": "17m 11s", "loss_scale": 1.0, "consumed_samples": 1571072, "global_step/max_steps": "6137/6350"}
{"lm loss": 4.87226677, "grad_norm": 0.31015348, "learning_rate": 3.3e-06, "elapsed_time_per_iteration": 5.82001758, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 37s", "remaining_time": "17m 7s", "loss_scale": 1.0, "consumed_samples": 1571328, "global_step/max_steps": "6138/6350"}
{"lm loss": 4.82385397, "grad_norm": 0.32150108, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 4.77131438, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 42s", "remaining_time": "17m 2s", "loss_scale": 1.0, "consumed_samples": 1571584, "global_step/max_steps": "6139/6350"}
{"lm loss": 4.83762693, "grad_norm": 0.32552919, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 4.78226042, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 46s", "remaining_time": "16m 57s", "loss_scale": 1.0, "consumed_samples": 1571840, "global_step/max_steps": "6140/6350"}
{"lm loss": 4.85046291, "grad_norm": 0.31279075, "learning_rate": 3.29e-06, "elapsed_time_per_iteration": 4.75676179, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 51s", "remaining_time": "16m 52s", "loss_scale": 1.0, "consumed_samples": 1572096, "global_step/max_steps": "6141/6350"}
{"lm loss": 4.83767748, "grad_norm": 0.43982473, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.77279997, "memory(GiB)": 28.03, "elapsed_time": "8h 15m 56s", "remaining_time": "16m 47s", "loss_scale": 1.0, "consumed_samples": 1572352, "global_step/max_steps": "6142/6350"}
{"lm loss": 4.84608221, "grad_norm": 0.32439032, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.69014001, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 1s", "remaining_time": "16m 42s", "loss_scale": 1.0, "consumed_samples": 1572608, "global_step/max_steps": "6143/6350"}
{"lm loss": 4.87741804, "grad_norm": 0.34039539, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.73630977, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 5s", "remaining_time": "16m 38s", "loss_scale": 1.0, "consumed_samples": 1572864, "global_step/max_steps": "6144/6350"}
{"lm loss": 4.86536789, "grad_norm": 0.33645496, "learning_rate": 3.28e-06, "elapsed_time_per_iteration": 4.85243845, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 10s", "remaining_time": "16m 33s", "loss_scale": 1.0, "consumed_samples": 1573120, "global_step/max_steps": "6145/6350"}
{"lm loss": 4.8508029, "grad_norm": 1.3723402, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.82397509, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 15s", "remaining_time": "16m 28s", "loss_scale": 1.0, "consumed_samples": 1573376, "global_step/max_steps": "6146/6350"}
{"lm loss": 4.87315178, "grad_norm": 0.3164441, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.9170928, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 20s", "remaining_time": "16m 23s", "loss_scale": 1.0, "consumed_samples": 1573632, "global_step/max_steps": "6147/6350"}
{"lm loss": 4.86578941, "grad_norm": 0.33083186, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.92151642, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 25s", "remaining_time": "16m 18s", "loss_scale": 1.0, "consumed_samples": 1573888, "global_step/max_steps": "6148/6350"}
{"lm loss": 4.89012718, "grad_norm": 0.33546934, "learning_rate": 3.27e-06, "elapsed_time_per_iteration": 4.82623053, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 30s", "remaining_time": "16m 13s", "loss_scale": 1.0, "consumed_samples": 1574144, "global_step/max_steps": "6149/6350"}
{"lm loss": 4.87633276, "grad_norm": 0.31830671, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 5.05223322, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 35s", "remaining_time": "16m 8s", "loss_scale": 1.0, "consumed_samples": 1574400, "global_step/max_steps": "6150/6350"}
{"lm loss": 4.8596034, "grad_norm": 0.31933704, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.82054186, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 40s", "remaining_time": "16m 4s", "loss_scale": 1.0, "consumed_samples": 1574656, "global_step/max_steps": "6151/6350"}
{"lm loss": 4.85141039, "grad_norm": 0.32148132, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.78840733, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 44s", "remaining_time": "15m 59s", "loss_scale": 1.0, "consumed_samples": 1574912, "global_step/max_steps": "6152/6350"}
{"lm loss": 4.87471581, "grad_norm": 0.35462233, "learning_rate": 3.26e-06, "elapsed_time_per_iteration": 4.83172035, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 49s", "remaining_time": "15m 54s", "loss_scale": 1.0, "consumed_samples": 1575168, "global_step/max_steps": "6153/6350"}
{"lm loss": 4.85263681, "grad_norm": 0.33350909, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 4.85358405, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 54s", "remaining_time": "15m 49s", "loss_scale": 1.0, "consumed_samples": 1575424, "global_step/max_steps": "6154/6350"}
{"lm loss": 4.86073637, "grad_norm": 0.31530163, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 4.75784039, "memory(GiB)": 28.03, "elapsed_time": "8h 16m 59s", "remaining_time": "15m 44s", "loss_scale": 1.0, "consumed_samples": 1575680, "global_step/max_steps": "6155/6350"}
{"lm loss": 4.8579874, "grad_norm": 0.31759, "learning_rate": 3.25e-06, "elapsed_time_per_iteration": 4.6848588, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 3s", "remaining_time": "15m 39s", "loss_scale": 1.0, "consumed_samples": 1575936, "global_step/max_steps": "6156/6350"}
{"lm loss": 4.87268019, "grad_norm": 0.33225203, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.82969475, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 8s", "remaining_time": "15m 35s", "loss_scale": 1.0, "consumed_samples": 1576192, "global_step/max_steps": "6157/6350"}
{"lm loss": 4.84556818, "grad_norm": 0.33495653, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.85113645, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 13s", "remaining_time": "15m 30s", "loss_scale": 1.0, "consumed_samples": 1576448, "global_step/max_steps": "6158/6350"}
{"lm loss": 4.86869621, "grad_norm": 0.32331416, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.89192867, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 18s", "remaining_time": "15m 25s", "loss_scale": 1.0, "consumed_samples": 1576704, "global_step/max_steps": "6159/6350"}
{"lm loss": 4.85089874, "grad_norm": 0.33550981, "learning_rate": 3.24e-06, "elapsed_time_per_iteration": 4.88817453, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 23s", "remaining_time": "15m 20s", "loss_scale": 1.0, "consumed_samples": 1576960, "global_step/max_steps": "6160/6350"}
{"lm loss": 4.85909653, "grad_norm": 0.31210405, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.82941222, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 28s", "remaining_time": "15m 15s", "loss_scale": 1.0, "consumed_samples": 1577216, "global_step/max_steps": "6161/6350"}
{"lm loss": 4.86550665, "grad_norm": 0.36683035, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 5.46617341, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 33s", "remaining_time": "15m 10s", "loss_scale": 1.0, "consumed_samples": 1577472, "global_step/max_steps": "6162/6350"}
{"lm loss": 4.87312508, "grad_norm": 0.32644802, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.81987286, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 38s", "remaining_time": "15m 5s", "loss_scale": 1.0, "consumed_samples": 1577728, "global_step/max_steps": "6163/6350"}
{"lm loss": 4.84270859, "grad_norm": 0.33332106, "learning_rate": 3.23e-06, "elapsed_time_per_iteration": 4.92943382, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 43s", "remaining_time": "15m 1s", "loss_scale": 1.0, "consumed_samples": 1577984, "global_step/max_steps": "6164/6350"}
{"lm loss": 4.84690762, "grad_norm": 0.35907531, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.81652355, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 48s", "remaining_time": "14m 56s", "loss_scale": 1.0, "consumed_samples": 1578240, "global_step/max_steps": "6165/6350"}
{"lm loss": 4.84200287, "grad_norm": 0.31423503, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.78550076, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 53s", "remaining_time": "14m 51s", "loss_scale": 1.0, "consumed_samples": 1578496, "global_step/max_steps": "6166/6350"}
{"lm loss": 4.85815716, "grad_norm": 0.31246352, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.87307119, "memory(GiB)": 28.03, "elapsed_time": "8h 17m 57s", "remaining_time": "14m 46s", "loss_scale": 1.0, "consumed_samples": 1578752, "global_step/max_steps": "6167/6350"}
{"lm loss": 4.86395645, "grad_norm": 0.33905649, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.84929299, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 2s", "remaining_time": "14m 41s", "loss_scale": 1.0, "consumed_samples": 1579008, "global_step/max_steps": "6168/6350"}
{"lm loss": 4.8680768, "grad_norm": 0.34662071, "learning_rate": 3.22e-06, "elapsed_time_per_iteration": 4.82034063, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 7s", "remaining_time": "14m 36s", "loss_scale": 1.0, "consumed_samples": 1579264, "global_step/max_steps": "6169/6350"}
{"lm loss": 4.89204741, "grad_norm": 0.31628969, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 5.64574933, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 13s", "remaining_time": "14m 32s", "loss_scale": 1.0, "consumed_samples": 1579520, "global_step/max_steps": "6170/6350"}
{"lm loss": 4.81848192, "grad_norm": 0.31694582, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 4.8235836, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 18s", "remaining_time": "14m 27s", "loss_scale": 1.0, "consumed_samples": 1579776, "global_step/max_steps": "6171/6350"}
{"lm loss": 4.85792685, "grad_norm": 0.33747733, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 5.32713461, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 23s", "remaining_time": "14m 22s", "loss_scale": 1.0, "consumed_samples": 1580032, "global_step/max_steps": "6172/6350"}
{"lm loss": 4.87282228, "grad_norm": 0.33356798, "learning_rate": 3.21e-06, "elapsed_time_per_iteration": 5.49551892, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 28s", "remaining_time": "14m 17s", "loss_scale": 1.0, "consumed_samples": 1580288, "global_step/max_steps": "6173/6350"}
{"lm loss": 4.86228228, "grad_norm": 0.30877191, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.77559328, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 33s", "remaining_time": "14m 12s", "loss_scale": 1.0, "consumed_samples": 1580544, "global_step/max_steps": "6174/6350"}
{"lm loss": 4.89870071, "grad_norm": 0.31953657, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 5.53087807, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 39s", "remaining_time": "14m 7s", "loss_scale": 1.0, "consumed_samples": 1580800, "global_step/max_steps": "6175/6350"}
{"lm loss": 4.83317137, "grad_norm": 0.31741703, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.85326219, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 44s", "remaining_time": "14m 3s", "loss_scale": 1.0, "consumed_samples": 1581056, "global_step/max_steps": "6176/6350"}
{"lm loss": 4.86249208, "grad_norm": 0.32102621, "learning_rate": 3.2e-06, "elapsed_time_per_iteration": 4.7843821, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 48s", "remaining_time": "13m 58s", "loss_scale": 1.0, "consumed_samples": 1581312, "global_step/max_steps": "6177/6350"}
{"lm loss": 4.857759, "grad_norm": 0.32954034, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.73524594, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 53s", "remaining_time": "13m 53s", "loss_scale": 1.0, "consumed_samples": 1581568, "global_step/max_steps": "6178/6350"}
{"lm loss": 4.86798477, "grad_norm": 0.31294116, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.78344393, "memory(GiB)": 28.03, "elapsed_time": "8h 18m 58s", "remaining_time": "13m 48s", "loss_scale": 1.0, "consumed_samples": 1581824, "global_step/max_steps": "6179/6350"}
{"lm loss": 4.86879206, "grad_norm": 0.30676249, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.704808, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 3s", "remaining_time": "13m 43s", "loss_scale": 1.0, "consumed_samples": 1582080, "global_step/max_steps": "6180/6350"}
{"lm loss": 4.86968708, "grad_norm": 0.32918206, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 4.84099841, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 7s", "remaining_time": "13m 38s", "loss_scale": 1.0, "consumed_samples": 1582336, "global_step/max_steps": "6181/6350"}
{"lm loss": 4.85640144, "grad_norm": 0.31592783, "learning_rate": 3.19e-06, "elapsed_time_per_iteration": 5.44992232, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 13s", "remaining_time": "13m 34s", "loss_scale": 1.0, "consumed_samples": 1582592, "global_step/max_steps": "6182/6350"}
{"lm loss": 4.85843039, "grad_norm": 0.33948433, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.81635308, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 18s", "remaining_time": "13m 29s", "loss_scale": 1.0, "consumed_samples": 1582848, "global_step/max_steps": "6183/6350"}
{"lm loss": 4.86422396, "grad_norm": 0.31644982, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 5.75784659, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 23s", "remaining_time": "13m 24s", "loss_scale": 1.0, "consumed_samples": 1583104, "global_step/max_steps": "6184/6350"}
{"lm loss": 4.86523008, "grad_norm": 0.37784404, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.90159273, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 28s", "remaining_time": "13m 19s", "loss_scale": 1.0, "consumed_samples": 1583360, "global_step/max_steps": "6185/6350"}
{"lm loss": 4.84999609, "grad_norm": 0.32542673, "learning_rate": 3.18e-06, "elapsed_time_per_iteration": 4.6887517, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 33s", "remaining_time": "13m 14s", "loss_scale": 1.0, "consumed_samples": 1583616, "global_step/max_steps": "6186/6350"}
{"lm loss": 4.88550568, "grad_norm": 0.31664759, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.77450585, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 38s", "remaining_time": "13m 9s", "loss_scale": 1.0, "consumed_samples": 1583872, "global_step/max_steps": "6187/6350"}
{"lm loss": 4.86382532, "grad_norm": 0.32548937, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.83249736, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 43s", "remaining_time": "13m 4s", "loss_scale": 1.0, "consumed_samples": 1584128, "global_step/max_steps": "6188/6350"}
{"lm loss": 4.88301134, "grad_norm": 0.31781492, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.77952242, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 47s", "remaining_time": "13m 0s", "loss_scale": 1.0, "consumed_samples": 1584384, "global_step/max_steps": "6189/6350"}
{"lm loss": 4.83989286, "grad_norm": 0.30121669, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.79572701, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 52s", "remaining_time": "12m 55s", "loss_scale": 1.0, "consumed_samples": 1584640, "global_step/max_steps": "6190/6350"}
{"lm loss": 4.85497046, "grad_norm": 0.31261018, "learning_rate": 3.17e-06, "elapsed_time_per_iteration": 4.94086909, "memory(GiB)": 28.03, "elapsed_time": "8h 19m 57s", "remaining_time": "12m 50s", "loss_scale": 1.0, "consumed_samples": 1584896, "global_step/max_steps": "6191/6350"}
{"lm loss": 4.86791229, "grad_norm": 0.31867331, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.78199792, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 2s", "remaining_time": "12m 45s", "loss_scale": 1.0, "consumed_samples": 1585152, "global_step/max_steps": "6192/6350"}
{"lm loss": 4.8513341, "grad_norm": 0.31753001, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.77596283, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 7s", "remaining_time": "12m 40s", "loss_scale": 1.0, "consumed_samples": 1585408, "global_step/max_steps": "6193/6350"}
{"lm loss": 4.87164545, "grad_norm": 0.31615674, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.82225442, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 11s", "remaining_time": "12m 35s", "loss_scale": 1.0, "consumed_samples": 1585664, "global_step/max_steps": "6194/6350"}
{"lm loss": 4.86918259, "grad_norm": 0.34125456, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.83238983, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 16s", "remaining_time": "12m 31s", "loss_scale": 1.0, "consumed_samples": 1585920, "global_step/max_steps": "6195/6350"}
{"lm loss": 4.85717678, "grad_norm": 0.32253954, "learning_rate": 3.16e-06, "elapsed_time_per_iteration": 4.80073905, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 21s", "remaining_time": "12m 26s", "loss_scale": 1.0, "consumed_samples": 1586176, "global_step/max_steps": "6196/6350"}
{"lm loss": 4.84741688, "grad_norm": 0.32999399, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.75092745, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 26s", "remaining_time": "12m 21s", "loss_scale": 1.0, "consumed_samples": 1586432, "global_step/max_steps": "6197/6350"}
{"lm loss": 4.85327053, "grad_norm": 0.32707882, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.73871231, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 31s", "remaining_time": "12m 16s", "loss_scale": 1.0, "consumed_samples": 1586688, "global_step/max_steps": "6198/6350"}
{"lm loss": 4.85052872, "grad_norm": 0.3314501, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 5.02945709, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 36s", "remaining_time": "12m 11s", "loss_scale": 1.0, "consumed_samples": 1586944, "global_step/max_steps": "6199/6350"}
{"lm loss": 4.85137129, "grad_norm": 0.31246907, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.85232234, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 40s", "remaining_time": "12m 6s", "loss_scale": 1.0, "consumed_samples": 1587200, "global_step/max_steps": "6200/6350"}
{"lm loss": 4.86934185, "grad_norm": 0.31639621, "learning_rate": 3.15e-06, "elapsed_time_per_iteration": 4.87404561, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 45s", "remaining_time": "12m 1s", "loss_scale": 1.0, "consumed_samples": 1587456, "global_step/max_steps": "6201/6350"}
{"lm loss": 4.86637735, "grad_norm": 0.32246557, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.86018276, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 50s", "remaining_time": "11m 57s", "loss_scale": 1.0, "consumed_samples": 1587712, "global_step/max_steps": "6202/6350"}
{"lm loss": 4.87587547, "grad_norm": 0.31843942, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.87877488, "memory(GiB)": 28.03, "elapsed_time": "8h 20m 55s", "remaining_time": "11m 52s", "loss_scale": 1.0, "consumed_samples": 1587968, "global_step/max_steps": "6203/6350"}
{"lm loss": 4.84952831, "grad_norm": 0.3180953, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.80591679, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 0s", "remaining_time": "11m 47s", "loss_scale": 1.0, "consumed_samples": 1588224, "global_step/max_steps": "6204/6350"}
{"lm loss": 4.85041761, "grad_norm": 0.31490803, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.80590081, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 5s", "remaining_time": "11m 42s", "loss_scale": 1.0, "consumed_samples": 1588480, "global_step/max_steps": "6205/6350"}
{"lm loss": 4.84931183, "grad_norm": 0.31672585, "learning_rate": 3.14e-06, "elapsed_time_per_iteration": 4.87102675, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 10s", "remaining_time": "11m 37s", "loss_scale": 1.0, "consumed_samples": 1588736, "global_step/max_steps": "6206/6350"}
{"lm loss": 4.84990263, "grad_norm": 0.31961364, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.78548837, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 14s", "remaining_time": "11m 32s", "loss_scale": 1.0, "consumed_samples": 1588992, "global_step/max_steps": "6207/6350"}
{"lm loss": 4.85531473, "grad_norm": 0.34637129, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.6958518, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 19s", "remaining_time": "11m 28s", "loss_scale": 1.0, "consumed_samples": 1589248, "global_step/max_steps": "6208/6350"}
{"lm loss": 4.85670805, "grad_norm": 0.37031475, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.78481817, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 24s", "remaining_time": "11m 23s", "loss_scale": 1.0, "consumed_samples": 1589504, "global_step/max_steps": "6209/6350"}
{"lm loss": 4.85113144, "grad_norm": 0.36552131, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.78958845, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 29s", "remaining_time": "11m 18s", "loss_scale": 1.0, "consumed_samples": 1589760, "global_step/max_steps": "6210/6350"}
{"lm loss": 4.86307144, "grad_norm": 0.30687246, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.76672649, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 33s", "remaining_time": "11m 13s", "loss_scale": 1.0, "consumed_samples": 1590016, "global_step/max_steps": "6211/6350"}
{"lm loss": 4.89502907, "grad_norm": 0.32194397, "learning_rate": 3.13e-06, "elapsed_time_per_iteration": 4.71428585, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 38s", "remaining_time": "11m 8s", "loss_scale": 1.0, "consumed_samples": 1590272, "global_step/max_steps": "6212/6350"}
{"lm loss": 4.85216904, "grad_norm": 0.31186193, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.85056973, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 43s", "remaining_time": "11m 3s", "loss_scale": 1.0, "consumed_samples": 1590528, "global_step/max_steps": "6213/6350"}
{"lm loss": 4.89343357, "grad_norm": 0.335767, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.78592992, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 48s", "remaining_time": "10m 58s", "loss_scale": 1.0, "consumed_samples": 1590784, "global_step/max_steps": "6214/6350"}
{"lm loss": 4.85678768, "grad_norm": 0.31419894, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.76706481, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 53s", "remaining_time": "10m 54s", "loss_scale": 1.0, "consumed_samples": 1591040, "global_step/max_steps": "6215/6350"}
{"lm loss": 4.86413765, "grad_norm": 0.87650496, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 5.5817976, "memory(GiB)": 28.03, "elapsed_time": "8h 21m 58s", "remaining_time": "10m 49s", "loss_scale": 1.0, "consumed_samples": 1591296, "global_step/max_steps": "6216/6350"}
{"lm loss": 4.84516287, "grad_norm": 0.33389696, "learning_rate": 3.12e-06, "elapsed_time_per_iteration": 4.78043032, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 3s", "remaining_time": "10m 44s", "loss_scale": 1.0, "consumed_samples": 1591552, "global_step/max_steps": "6217/6350"}
{"lm loss": 4.86530447, "grad_norm": 0.30892465, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.71617055, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 8s", "remaining_time": "10m 39s", "loss_scale": 1.0, "consumed_samples": 1591808, "global_step/max_steps": "6218/6350"}
{"lm loss": 4.83907747, "grad_norm": 0.29427031, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.80063987, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 12s", "remaining_time": "10m 34s", "loss_scale": 1.0, "consumed_samples": 1592064, "global_step/max_steps": "6219/6350"}
{"lm loss": 4.84656048, "grad_norm": 0.32854003, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.80558467, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 17s", "remaining_time": "10m 29s", "loss_scale": 1.0, "consumed_samples": 1592320, "global_step/max_steps": "6220/6350"}
{"lm loss": 4.8591547, "grad_norm": 0.36876029, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.77077937, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 22s", "remaining_time": "10m 25s", "loss_scale": 1.0, "consumed_samples": 1592576, "global_step/max_steps": "6221/6350"}
{"lm loss": 4.88414574, "grad_norm": 0.32282439, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 4.80079865, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 27s", "remaining_time": "10m 20s", "loss_scale": 1.0, "consumed_samples": 1592832, "global_step/max_steps": "6222/6350"}
{"lm loss": 4.86654806, "grad_norm": 0.30077416, "learning_rate": 3.11e-06, "elapsed_time_per_iteration": 5.72393155, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 33s", "remaining_time": "10m 15s", "loss_scale": 1.0, "consumed_samples": 1593088, "global_step/max_steps": "6223/6350"}
{"lm loss": 4.86115599, "grad_norm": 0.32114047, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.76118708, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 37s", "remaining_time": "10m 10s", "loss_scale": 1.0, "consumed_samples": 1593344, "global_step/max_steps": "6224/6350"}
{"lm loss": 4.87397671, "grad_norm": 0.29652786, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.76296067, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 42s", "remaining_time": "10m 5s", "loss_scale": 1.0, "consumed_samples": 1593600, "global_step/max_steps": "6225/6350"}
{"lm loss": 4.86299944, "grad_norm": 0.33443037, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.78902483, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 47s", "remaining_time": "10m 0s", "loss_scale": 1.0, "consumed_samples": 1593856, "global_step/max_steps": "6226/6350"}
{"lm loss": 4.87690258, "grad_norm": 0.34539172, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.82101178, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 52s", "remaining_time": "9m 55s", "loss_scale": 1.0, "consumed_samples": 1594112, "global_step/max_steps": "6227/6350"}
{"lm loss": 4.83139658, "grad_norm": 0.32913277, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.79264116, "memory(GiB)": 28.03, "elapsed_time": "8h 22m 56s", "remaining_time": "9m 51s", "loss_scale": 1.0, "consumed_samples": 1594368, "global_step/max_steps": "6228/6350"}
{"lm loss": 4.87612152, "grad_norm": 0.34166801, "learning_rate": 3.1e-06, "elapsed_time_per_iteration": 4.76955581, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 1s", "remaining_time": "9m 46s", "loss_scale": 1.0, "consumed_samples": 1594624, "global_step/max_steps": "6229/6350"}
{"lm loss": 4.85239697, "grad_norm": 0.32249677, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.77440882, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 6s", "remaining_time": "9m 41s", "loss_scale": 1.0, "consumed_samples": 1594880, "global_step/max_steps": "6230/6350"}
{"lm loss": 4.85005331, "grad_norm": 0.33357981, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 5.3170352, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 11s", "remaining_time": "9m 36s", "loss_scale": 1.0, "consumed_samples": 1595136, "global_step/max_steps": "6231/6350"}
{"lm loss": 4.86828613, "grad_norm": 0.33203191, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.77584338, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 16s", "remaining_time": "9m 31s", "loss_scale": 1.0, "consumed_samples": 1595392, "global_step/max_steps": "6232/6350"}
{"lm loss": 4.87207127, "grad_norm": 0.32657078, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.77752876, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 21s", "remaining_time": "9m 26s", "loss_scale": 1.0, "consumed_samples": 1595648, "global_step/max_steps": "6233/6350"}
{"lm loss": 4.86312103, "grad_norm": 0.31452644, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.73315072, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 26s", "remaining_time": "9m 22s", "loss_scale": 1.0, "consumed_samples": 1595904, "global_step/max_steps": "6234/6350"}
{"lm loss": 4.84776878, "grad_norm": 0.33273703, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.74413943, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 30s", "remaining_time": "9m 17s", "loss_scale": 1.0, "consumed_samples": 1596160, "global_step/max_steps": "6235/6350"}
{"lm loss": 4.84893942, "grad_norm": 0.30874231, "learning_rate": 3.09e-06, "elapsed_time_per_iteration": 4.8412509, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 35s", "remaining_time": "9m 12s", "loss_scale": 1.0, "consumed_samples": 1596416, "global_step/max_steps": "6236/6350"}
{"lm loss": 4.8766861, "grad_norm": 0.30731031, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 5.58953834, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 41s", "remaining_time": "9m 7s", "loss_scale": 1.0, "consumed_samples": 1596672, "global_step/max_steps": "6237/6350"}
{"lm loss": 4.86146164, "grad_norm": 0.31474614, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.67885375, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 45s", "remaining_time": "9m 2s", "loss_scale": 1.0, "consumed_samples": 1596928, "global_step/max_steps": "6238/6350"}
{"lm loss": 4.86946297, "grad_norm": 0.31966341, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.92350602, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 50s", "remaining_time": "8m 57s", "loss_scale": 1.0, "consumed_samples": 1597184, "global_step/max_steps": "6239/6350"}
{"lm loss": 4.85423946, "grad_norm": 0.33838353, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.75265336, "memory(GiB)": 28.03, "elapsed_time": "8h 23m 55s", "remaining_time": "8m 52s", "loss_scale": 1.0, "consumed_samples": 1597440, "global_step/max_steps": "6240/6350"}
{"lm loss": 4.84267426, "grad_norm": 0.41142961, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.82768965, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 0s", "remaining_time": "8m 48s", "loss_scale": 1.0, "consumed_samples": 1597696, "global_step/max_steps": "6241/6350"}
{"lm loss": 4.87351704, "grad_norm": 0.31275836, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 5.56833386, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 6s", "remaining_time": "8m 43s", "loss_scale": 1.0, "consumed_samples": 1597952, "global_step/max_steps": "6242/6350"}
{"lm loss": 4.85822773, "grad_norm": 0.31742465, "learning_rate": 3.08e-06, "elapsed_time_per_iteration": 4.87572002, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 10s", "remaining_time": "8m 38s", "loss_scale": 1.0, "consumed_samples": 1598208, "global_step/max_steps": "6243/6350"}
{"lm loss": 4.84437656, "grad_norm": 0.31167665, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.83207321, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 15s", "remaining_time": "8m 33s", "loss_scale": 1.0, "consumed_samples": 1598464, "global_step/max_steps": "6244/6350"}
{"lm loss": 4.87691879, "grad_norm": 0.32045412, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.7773242, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 20s", "remaining_time": "8m 28s", "loss_scale": 1.0, "consumed_samples": 1598720, "global_step/max_steps": "6245/6350"}
{"lm loss": 4.87729597, "grad_norm": 0.33221808, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.75012851, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 25s", "remaining_time": "8m 23s", "loss_scale": 1.0, "consumed_samples": 1598976, "global_step/max_steps": "6246/6350"}
{"lm loss": 4.87375689, "grad_norm": 0.32393053, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 5.78355551, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 31s", "remaining_time": "8m 19s", "loss_scale": 1.0, "consumed_samples": 1599232, "global_step/max_steps": "6247/6350"}
{"lm loss": 4.8826189, "grad_norm": 0.33052945, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.74276733, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 35s", "remaining_time": "8m 14s", "loss_scale": 1.0, "consumed_samples": 1599488, "global_step/max_steps": "6248/6350"}
{"lm loss": 4.86629105, "grad_norm": 0.42318085, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 4.74455738, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 40s", "remaining_time": "8m 9s", "loss_scale": 1.0, "consumed_samples": 1599744, "global_step/max_steps": "6249/6350"}
{"lm loss": 4.85498762, "grad_norm": 0.32266989, "learning_rate": 3.07e-06, "elapsed_time_per_iteration": 5.56056952, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 46s", "remaining_time": "8m 4s", "loss_scale": 1.0, "consumed_samples": 1600000, "global_step/max_steps": "6250/6350"}
{"lm loss": 4.84366989, "grad_norm": 0.32735634, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.75980854, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 50s", "remaining_time": "7m 59s", "loss_scale": 1.0, "consumed_samples": 1600256, "global_step/max_steps": "6251/6350"}
{"lm loss": 4.86826801, "grad_norm": 0.31762105, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.78428006, "memory(GiB)": 28.03, "elapsed_time": "8h 24m 55s", "remaining_time": "7m 54s", "loss_scale": 1.0, "consumed_samples": 1600512, "global_step/max_steps": "6252/6350"}
{"lm loss": 4.84824705, "grad_norm": 0.31458867, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.82607913, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 0s", "remaining_time": "7m 50s", "loss_scale": 1.0, "consumed_samples": 1600768, "global_step/max_steps": "6253/6350"}
{"lm loss": 4.88223028, "grad_norm": 0.34044701, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.81876969, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 5s", "remaining_time": "7m 45s", "loss_scale": 1.0, "consumed_samples": 1601024, "global_step/max_steps": "6254/6350"}
{"lm loss": 4.85491419, "grad_norm": 0.34352282, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.79268885, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 10s", "remaining_time": "7m 40s", "loss_scale": 1.0, "consumed_samples": 1601280, "global_step/max_steps": "6255/6350"}
{"lm loss": 4.86513138, "grad_norm": 0.32180321, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.92185497, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 14s", "remaining_time": "7m 35s", "loss_scale": 1.0, "consumed_samples": 1601536, "global_step/max_steps": "6256/6350"}
{"lm loss": 4.84813118, "grad_norm": 0.30512846, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.83229709, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 19s", "remaining_time": "7m 30s", "loss_scale": 1.0, "consumed_samples": 1601792, "global_step/max_steps": "6257/6350"}
{"lm loss": 4.87221098, "grad_norm": 0.33113348, "learning_rate": 3.06e-06, "elapsed_time_per_iteration": 4.72573829, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 24s", "remaining_time": "7m 25s", "loss_scale": 1.0, "consumed_samples": 1602048, "global_step/max_steps": "6258/6350"}
{"lm loss": 4.84838915, "grad_norm": 0.32227302, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.74521708, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 29s", "remaining_time": "7m 20s", "loss_scale": 1.0, "consumed_samples": 1602304, "global_step/max_steps": "6259/6350"}
{"lm loss": 4.856668, "grad_norm": 0.31014085, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.74148631, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 34s", "remaining_time": "7m 16s", "loss_scale": 1.0, "consumed_samples": 1602560, "global_step/max_steps": "6260/6350"}
{"lm loss": 4.8350234, "grad_norm": 0.31480175, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.71027279, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 38s", "remaining_time": "7m 11s", "loss_scale": 1.0, "consumed_samples": 1602816, "global_step/max_steps": "6261/6350"}
{"lm loss": 4.85767603, "grad_norm": 0.30787629, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.74866247, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 43s", "remaining_time": "7m 6s", "loss_scale": 1.0, "consumed_samples": 1603072, "global_step/max_steps": "6262/6350"}
{"lm loss": 4.85174704, "grad_norm": 0.77094829, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.74482298, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 48s", "remaining_time": "7m 1s", "loss_scale": 1.0, "consumed_samples": 1603328, "global_step/max_steps": "6263/6350"}
{"lm loss": 4.83422565, "grad_norm": 0.31224069, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.84174848, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 53s", "remaining_time": "6m 56s", "loss_scale": 1.0, "consumed_samples": 1603584, "global_step/max_steps": "6264/6350"}
{"lm loss": 4.88304949, "grad_norm": 0.31151098, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.9001832, "memory(GiB)": 28.03, "elapsed_time": "8h 25m 57s", "remaining_time": "6m 51s", "loss_scale": 1.0, "consumed_samples": 1603840, "global_step/max_steps": "6265/6350"}
{"lm loss": 4.87730265, "grad_norm": 0.3324447, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.73665357, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 2s", "remaining_time": "6m 47s", "loss_scale": 1.0, "consumed_samples": 1604096, "global_step/max_steps": "6266/6350"}
{"lm loss": 4.85002375, "grad_norm": 0.37250736, "learning_rate": 3.05e-06, "elapsed_time_per_iteration": 4.80482841, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 7s", "remaining_time": "6m 42s", "loss_scale": 1.0, "consumed_samples": 1604352, "global_step/max_steps": "6267/6350"}
{"lm loss": 4.85711098, "grad_norm": 0.32101035, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.80087686, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 12s", "remaining_time": "6m 37s", "loss_scale": 1.0, "consumed_samples": 1604608, "global_step/max_steps": "6268/6350"}
{"lm loss": 4.86688089, "grad_norm": 0.32381985, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.80995584, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 17s", "remaining_time": "6m 32s", "loss_scale": 1.0, "consumed_samples": 1604864, "global_step/max_steps": "6269/6350"}
{"lm loss": 4.87643242, "grad_norm": 0.48446527, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.78782153, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 21s", "remaining_time": "6m 27s", "loss_scale": 1.0, "consumed_samples": 1605120, "global_step/max_steps": "6270/6350"}
{"lm loss": 4.84232044, "grad_norm": 0.33320934, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.74469376, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 26s", "remaining_time": "6m 22s", "loss_scale": 1.0, "consumed_samples": 1605376, "global_step/max_steps": "6271/6350"}
{"lm loss": 4.85531807, "grad_norm": 0.33627149, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.73847961, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 31s", "remaining_time": "6m 17s", "loss_scale": 1.0, "consumed_samples": 1605632, "global_step/max_steps": "6272/6350"}
{"lm loss": 4.83239555, "grad_norm": 0.33279359, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.76791453, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 36s", "remaining_time": "6m 13s", "loss_scale": 1.0, "consumed_samples": 1605888, "global_step/max_steps": "6273/6350"}
{"lm loss": 4.84906244, "grad_norm": 0.3293483, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.76121688, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 40s", "remaining_time": "6m 8s", "loss_scale": 1.0, "consumed_samples": 1606144, "global_step/max_steps": "6274/6350"}
{"lm loss": 4.85950851, "grad_norm": 0.3386066, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.80189562, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 45s", "remaining_time": "6m 3s", "loss_scale": 1.0, "consumed_samples": 1606400, "global_step/max_steps": "6275/6350"}
{"lm loss": 4.84540224, "grad_norm": 0.31731817, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.86317515, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 50s", "remaining_time": "5m 58s", "loss_scale": 1.0, "consumed_samples": 1606656, "global_step/max_steps": "6276/6350"}
{"lm loss": 4.86378193, "grad_norm": 0.30470395, "learning_rate": 3.04e-06, "elapsed_time_per_iteration": 4.76788211, "memory(GiB)": 28.03, "elapsed_time": "8h 26m 55s", "remaining_time": "5m 53s", "loss_scale": 1.0, "consumed_samples": 1606912, "global_step/max_steps": "6277/6350"}
{"lm loss": 4.84974098, "grad_norm": 0.3441976, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.78648853, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 0s", "remaining_time": "5m 48s", "loss_scale": 1.0, "consumed_samples": 1607168, "global_step/max_steps": "6278/6350"}
{"lm loss": 4.86301851, "grad_norm": 0.32718796, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.87486219, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 5s", "remaining_time": "5m 44s", "loss_scale": 1.0, "consumed_samples": 1607424, "global_step/max_steps": "6279/6350"}
{"lm loss": 4.87819862, "grad_norm": 0.30889782, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.77368712, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 9s", "remaining_time": "5m 39s", "loss_scale": 1.0, "consumed_samples": 1607680, "global_step/max_steps": "6280/6350"}
{"lm loss": 4.83026886, "grad_norm": 0.32540131, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.7504499, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 14s", "remaining_time": "5m 34s", "loss_scale": 1.0, "consumed_samples": 1607936, "global_step/max_steps": "6281/6350"}
{"lm loss": 4.84723377, "grad_norm": 0.36047354, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.74443841, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 19s", "remaining_time": "5m 29s", "loss_scale": 1.0, "consumed_samples": 1608192, "global_step/max_steps": "6282/6350"}
{"lm loss": 4.87739229, "grad_norm": 0.31448787, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.86045289, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 24s", "remaining_time": "5m 24s", "loss_scale": 1.0, "consumed_samples": 1608448, "global_step/max_steps": "6283/6350"}
{"lm loss": 4.85784197, "grad_norm": 0.31498325, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.80703855, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 28s", "remaining_time": "5m 19s", "loss_scale": 1.0, "consumed_samples": 1608704, "global_step/max_steps": "6284/6350"}
{"lm loss": 4.8651948, "grad_norm": 0.31389976, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.84126925, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 33s", "remaining_time": "5m 14s", "loss_scale": 1.0, "consumed_samples": 1608960, "global_step/max_steps": "6285/6350"}
{"lm loss": 4.85002756, "grad_norm": 0.3242653, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 5.48634028, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 39s", "remaining_time": "5m 10s", "loss_scale": 1.0, "consumed_samples": 1609216, "global_step/max_steps": "6286/6350"}
{"lm loss": 4.84879875, "grad_norm": 0.33494249, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 5.53763175, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 44s", "remaining_time": "5m 5s", "loss_scale": 1.0, "consumed_samples": 1609472, "global_step/max_steps": "6287/6350"}
{"lm loss": 4.86976385, "grad_norm": 0.32875997, "learning_rate": 3.03e-06, "elapsed_time_per_iteration": 4.80948496, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 49s", "remaining_time": "5m 0s", "loss_scale": 1.0, "consumed_samples": 1609728, "global_step/max_steps": "6288/6350"}
{"lm loss": 4.85912895, "grad_norm": 0.32130682, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.82540536, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 54s", "remaining_time": "4m 55s", "loss_scale": 1.0, "consumed_samples": 1609984, "global_step/max_steps": "6289/6350"}
{"lm loss": 4.87141085, "grad_norm": 0.31899142, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.83603716, "memory(GiB)": 28.03, "elapsed_time": "8h 27m 59s", "remaining_time": "4m 50s", "loss_scale": 1.0, "consumed_samples": 1610240, "global_step/max_steps": "6290/6350"}
{"lm loss": 4.84350252, "grad_norm": 0.3325305, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.76441741, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 4s", "remaining_time": "4m 45s", "loss_scale": 1.0, "consumed_samples": 1610496, "global_step/max_steps": "6291/6350"}
{"lm loss": 4.8548007, "grad_norm": 0.34382138, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 5.71584082, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 9s", "remaining_time": "4m 41s", "loss_scale": 1.0, "consumed_samples": 1610752, "global_step/max_steps": "6292/6350"}
{"lm loss": 4.82239914, "grad_norm": 0.332636, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 5.59132195, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 15s", "remaining_time": "4m 36s", "loss_scale": 1.0, "consumed_samples": 1611008, "global_step/max_steps": "6293/6350"}
{"lm loss": 4.8535738, "grad_norm": 0.31077525, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 5.3552506, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 20s", "remaining_time": "4m 31s", "loss_scale": 1.0, "consumed_samples": 1611264, "global_step/max_steps": "6294/6350"}
{"lm loss": 4.88700581, "grad_norm": 0.31628317, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.82785797, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 25s", "remaining_time": "4m 26s", "loss_scale": 1.0, "consumed_samples": 1611520, "global_step/max_steps": "6295/6350"}
{"lm loss": 4.86181879, "grad_norm": 0.32008681, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.77719498, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 30s", "remaining_time": "4m 21s", "loss_scale": 1.0, "consumed_samples": 1611776, "global_step/max_steps": "6296/6350"}
{"lm loss": 4.86413431, "grad_norm": 0.33336639, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 5.43677187, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 35s", "remaining_time": "4m 16s", "loss_scale": 1.0, "consumed_samples": 1612032, "global_step/max_steps": "6297/6350"}
{"lm loss": 4.85151958, "grad_norm": 0.33335346, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.8199265, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 40s", "remaining_time": "4m 11s", "loss_scale": 1.0, "consumed_samples": 1612288, "global_step/max_steps": "6298/6350"}
{"lm loss": 4.86018085, "grad_norm": 0.31954423, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.81386304, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 45s", "remaining_time": "4m 7s", "loss_scale": 1.0, "consumed_samples": 1612544, "global_step/max_steps": "6299/6350"}
{"lm loss": 4.86001968, "grad_norm": 0.31135109, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.70268226, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 50s", "remaining_time": "4m 2s", "loss_scale": 1.0, "consumed_samples": 1612800, "global_step/max_steps": "6300/6350"}
{"lm loss": 4.8434391, "grad_norm": 0.32188538, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.79352498, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 54s", "remaining_time": "3m 57s", "loss_scale": 1.0, "consumed_samples": 1613056, "global_step/max_steps": "6301/6350"}
{"lm loss": 4.83705091, "grad_norm": 0.33104801, "learning_rate": 3.02e-06, "elapsed_time_per_iteration": 4.80881143, "memory(GiB)": 28.03, "elapsed_time": "8h 28m 59s", "remaining_time": "3m 52s", "loss_scale": 1.0, "consumed_samples": 1613312, "global_step/max_steps": "6302/6350"}
{"lm loss": 4.85570908, "grad_norm": 0.30417064, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.72416496, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 4s", "remaining_time": "3m 47s", "loss_scale": 1.0, "consumed_samples": 1613568, "global_step/max_steps": "6303/6350"}
{"lm loss": 4.87296915, "grad_norm": 0.3151778, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.73052788, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 9s", "remaining_time": "3m 42s", "loss_scale": 1.0, "consumed_samples": 1613824, "global_step/max_steps": "6304/6350"}
{"lm loss": 4.8629632, "grad_norm": 0.32561019, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.7905376, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 13s", "remaining_time": "3m 38s", "loss_scale": 1.0, "consumed_samples": 1614080, "global_step/max_steps": "6305/6350"}
{"lm loss": 4.83447027, "grad_norm": 0.32536167, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.73470068, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 18s", "remaining_time": "3m 33s", "loss_scale": 1.0, "consumed_samples": 1614336, "global_step/max_steps": "6306/6350"}
{"lm loss": 4.84622812, "grad_norm": 0.32616085, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.81097794, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 23s", "remaining_time": "3m 28s", "loss_scale": 1.0, "consumed_samples": 1614592, "global_step/max_steps": "6307/6350"}
{"lm loss": 4.85313272, "grad_norm": 0.34053746, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.8239882, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 28s", "remaining_time": "3m 23s", "loss_scale": 1.0, "consumed_samples": 1614848, "global_step/max_steps": "6308/6350"}
{"lm loss": 4.86301184, "grad_norm": 0.32216388, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.80926013, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 33s", "remaining_time": "3m 18s", "loss_scale": 1.0, "consumed_samples": 1615104, "global_step/max_steps": "6309/6350"}
{"lm loss": 4.8653245, "grad_norm": 0.34190273, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.85100937, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 37s", "remaining_time": "3m 13s", "loss_scale": 1.0, "consumed_samples": 1615360, "global_step/max_steps": "6310/6350"}
{"lm loss": 4.84981775, "grad_norm": 0.30647776, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.80980635, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 42s", "remaining_time": "3m 8s", "loss_scale": 1.0, "consumed_samples": 1615616, "global_step/max_steps": "6311/6350"}
{"lm loss": 4.87700796, "grad_norm": 0.31645015, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.75286555, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 47s", "remaining_time": "3m 4s", "loss_scale": 1.0, "consumed_samples": 1615872, "global_step/max_steps": "6312/6350"}
{"lm loss": 4.84466171, "grad_norm": 0.31431258, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.74143529, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 52s", "remaining_time": "2m 59s", "loss_scale": 1.0, "consumed_samples": 1616128, "global_step/max_steps": "6313/6350"}
{"lm loss": 4.8826499, "grad_norm": 0.33077854, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.85493875, "memory(GiB)": 28.03, "elapsed_time": "8h 29m 57s", "remaining_time": "2m 54s", "loss_scale": 1.0, "consumed_samples": 1616384, "global_step/max_steps": "6314/6350"}
{"lm loss": 4.88227224, "grad_norm": 0.32502827, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.76519108, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 1s", "remaining_time": "2m 49s", "loss_scale": 1.0, "consumed_samples": 1616640, "global_step/max_steps": "6315/6350"}
{"lm loss": 4.87484789, "grad_norm": 0.33083925, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 5.13745999, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 7s", "remaining_time": "2m 44s", "loss_scale": 1.0, "consumed_samples": 1616896, "global_step/max_steps": "6316/6350"}
{"lm loss": 4.86266661, "grad_norm": 0.31474969, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.7455101, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 11s", "remaining_time": "2m 39s", "loss_scale": 1.0, "consumed_samples": 1617152, "global_step/max_steps": "6317/6350"}
{"lm loss": 4.88100338, "grad_norm": 0.31059465, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.93854809, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 16s", "remaining_time": "2m 35s", "loss_scale": 1.0, "consumed_samples": 1617408, "global_step/max_steps": "6318/6350"}
{"lm loss": 4.87641001, "grad_norm": 0.31316081, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.80391836, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 21s", "remaining_time": "2m 30s", "loss_scale": 1.0, "consumed_samples": 1617664, "global_step/max_steps": "6319/6350"}
{"lm loss": 4.87092113, "grad_norm": 0.3158395, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.82705808, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 26s", "remaining_time": "2m 25s", "loss_scale": 1.0, "consumed_samples": 1617920, "global_step/max_steps": "6320/6350"}
{"lm loss": 4.86002731, "grad_norm": 0.33485132, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.75750399, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 31s", "remaining_time": "2m 20s", "loss_scale": 1.0, "consumed_samples": 1618176, "global_step/max_steps": "6321/6350"}
{"lm loss": 4.8446641, "grad_norm": 0.31828406, "learning_rate": 3.01e-06, "elapsed_time_per_iteration": 4.83412886, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 35s", "remaining_time": "2m 15s", "loss_scale": 1.0, "consumed_samples": 1618432, "global_step/max_steps": "6322/6350"}
{"lm loss": 4.85328388, "grad_norm": 0.31954628, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.74034595, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 40s", "remaining_time": "2m 10s", "loss_scale": 1.0, "consumed_samples": 1618688, "global_step/max_steps": "6323/6350"}
{"lm loss": 4.84758806, "grad_norm": 0.32438093, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.78411555, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 45s", "remaining_time": "2m 5s", "loss_scale": 1.0, "consumed_samples": 1618944, "global_step/max_steps": "6324/6350"}
{"lm loss": 4.8669343, "grad_norm": 0.31821579, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.72497129, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 50s", "remaining_time": "2m 1s", "loss_scale": 1.0, "consumed_samples": 1619200, "global_step/max_steps": "6325/6350"}
{"lm loss": 4.84694195, "grad_norm": 0.31872332, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.68458033, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 54s", "remaining_time": "1m 56s", "loss_scale": 1.0, "consumed_samples": 1619456, "global_step/max_steps": "6326/6350"}
{"lm loss": 4.86370373, "grad_norm": 0.32146856, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.77488089, "memory(GiB)": 28.03, "elapsed_time": "8h 30m 59s", "remaining_time": "1m 51s", "loss_scale": 1.0, "consumed_samples": 1619712, "global_step/max_steps": "6327/6350"}
{"lm loss": 4.84581327, "grad_norm": 0.32462779, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.90038323, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 4s", "remaining_time": "1m 46s", "loss_scale": 1.0, "consumed_samples": 1619968, "global_step/max_steps": "6328/6350"}
{"lm loss": 4.88318205, "grad_norm": 0.80500054, "learning_rate": 3e-06, "elapsed_time_per_iteration": 5.65484214, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 10s", "remaining_time": "1m 41s", "loss_scale": 1.0, "consumed_samples": 1620224, "global_step/max_steps": "6329/6350"}
{"lm loss": 4.86532545, "grad_norm": 0.46283984, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.82562542, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 15s", "remaining_time": "1m 36s", "loss_scale": 1.0, "consumed_samples": 1620480, "global_step/max_steps": "6330/6350"}
{"lm loss": 4.896626, "grad_norm": 0.34584582, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.80282307, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 19s", "remaining_time": "1m 32s", "loss_scale": 1.0, "consumed_samples": 1620736, "global_step/max_steps": "6331/6350"}
{"lm loss": 4.88191366, "grad_norm": 0.33044913, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.80628109, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 24s", "remaining_time": "1m 27s", "loss_scale": 1.0, "consumed_samples": 1620992, "global_step/max_steps": "6332/6350"}
{"lm loss": 4.85387897, "grad_norm": 0.33893177, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.7490437, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 29s", "remaining_time": "1m 22s", "loss_scale": 1.0, "consumed_samples": 1621248, "global_step/max_steps": "6333/6350"}
{"lm loss": 4.86917496, "grad_norm": 0.31416407, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.73607278, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 34s", "remaining_time": "1m 17s", "loss_scale": 1.0, "consumed_samples": 1621504, "global_step/max_steps": "6334/6350"}
{"lm loss": 4.85112381, "grad_norm": 0.31652954, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.71522355, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 38s", "remaining_time": "1m 12s", "loss_scale": 1.0, "consumed_samples": 1621760, "global_step/max_steps": "6335/6350"}
{"lm loss": 4.83672237, "grad_norm": 0.33531433, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.80286407, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 43s", "remaining_time": "1m 7s", "loss_scale": 1.0, "consumed_samples": 1622016, "global_step/max_steps": "6336/6350"}
{"lm loss": 4.88183451, "grad_norm": 0.34950075, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.76375675, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 48s", "remaining_time": "1m 2s", "loss_scale": 1.0, "consumed_samples": 1622272, "global_step/max_steps": "6337/6350"}
{"lm loss": 4.8937335, "grad_norm": 0.31068882, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.74583292, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 53s", "remaining_time": "58s", "loss_scale": 1.0, "consumed_samples": 1622528, "global_step/max_steps": "6338/6350"}
{"lm loss": 4.85511446, "grad_norm": 0.31598216, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.75376773, "memory(GiB)": 28.03, "elapsed_time": "8h 31m 57s", "remaining_time": "53s", "loss_scale": 1.0, "consumed_samples": 1622784, "global_step/max_steps": "6339/6350"}
{"lm loss": 4.86475134, "grad_norm": 0.32518962, "learning_rate": 3e-06, "elapsed_time_per_iteration": 5.51946473, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 3s", "remaining_time": "48s", "loss_scale": 1.0, "consumed_samples": 1623040, "global_step/max_steps": "6340/6350"}
{"lm loss": 4.87058163, "grad_norm": 0.32593364, "learning_rate": 3e-06, "elapsed_time_per_iteration": 5.52222371, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 8s", "remaining_time": "43s", "loss_scale": 1.0, "consumed_samples": 1623296, "global_step/max_steps": "6341/6350"}
{"lm loss": 4.84760094, "grad_norm": 0.31977934, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.7107923, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 13s", "remaining_time": "38s", "loss_scale": 1.0, "consumed_samples": 1623552, "global_step/max_steps": "6342/6350"}
{"lm loss": 4.84734631, "grad_norm": 0.32382417, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.7067256, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 18s", "remaining_time": "33s", "loss_scale": 1.0, "consumed_samples": 1623808, "global_step/max_steps": "6343/6350"}
{"lm loss": 4.87532091, "grad_norm": 0.46472755, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.76453948, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 23s", "remaining_time": "29s", "loss_scale": 1.0, "consumed_samples": 1624064, "global_step/max_steps": "6344/6350"}
{"lm loss": 4.8542614, "grad_norm": 0.33033067, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.69133234, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 27s", "remaining_time": "24s", "loss_scale": 1.0, "consumed_samples": 1624320, "global_step/max_steps": "6345/6350"}
{"lm loss": 4.84982634, "grad_norm": 0.32295594, "learning_rate": 3e-06, "elapsed_time_per_iteration": 5.57150793, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 33s", "remaining_time": "19s", "loss_scale": 1.0, "consumed_samples": 1624576, "global_step/max_steps": "6346/6350"}
{"lm loss": 4.85187721, "grad_norm": 0.32917091, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.70138288, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 38s", "remaining_time": "14s", "loss_scale": 1.0, "consumed_samples": 1624832, "global_step/max_steps": "6347/6350"}
{"lm loss": 4.83307981, "grad_norm": 0.32155678, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.6603756, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 42s", "remaining_time": "9s", "loss_scale": 1.0, "consumed_samples": 1625088, "global_step/max_steps": "6348/6350"}
{"lm loss": 4.85542107, "grad_norm": 0.32195067, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.6900003, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 47s", "remaining_time": "4s", "loss_scale": 1.0, "consumed_samples": 1625344, "global_step/max_steps": "6349/6350"}
{"lm loss": 4.86517811, "grad_norm": 0.34199312, "learning_rate": 3e-06, "elapsed_time_per_iteration": 4.67090726, "memory(GiB)": 28.03, "elapsed_time": "8h 32m 52s", "remaining_time": "0s", "loss_scale": 1.0, "consumed_samples": 1625600, "global_step/max_steps": "6350/6350"}