diff --git "a/debug.log" "b/debug.log" --- "a/debug.log" +++ "b/debug.log" @@ -601,4 +601,2171 @@ 50%|██████████████████████████████████████████████████████▎ | 175/348 [46:10<4:04:17, 84.72s/it] {'loss': 0.0854, 'grad_norm': 0.5546875, 'learning_rate': 5.232282686817392e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.35, 'tokens_per_second_per_gpu': 3813.99, 'epoch': 1.01} 50%|██████████████████████████████████████████████████████▎ | 175/348 [46:10<4:04:17, 84.72s/it] 51%|██████████████████████████████████████████████████████▌ | 176/348 [46:24<3:01:30, 63.32s/it] {'loss': 0.057, 'grad_norm': 0.63671875, 'learning_rate': 5.185850234298943e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3182.1, 'epoch': 1.01} 51%|██████████████████████████████████████████████████████▌ | 176/348 [46:24<3:01:30, 63.32s/it] 51%|██████████████████████████████████████████████████████▉ | 177/348 [46:37<2:17:56, 48.40s/it] {'loss': 0.0188, 'grad_norm': 0.224609375, 'learning_rate': 5.139401726188208e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2576.31, 'epoch': 1.02} - 51%|██████████████████████████████████████████████████████▉ | 177/348 [46:37<2:17:56, 48.40s/it] \ No newline at end of file + 51%|██████████████████████████████████████████████████████▉ | 177/348 [46:37<2:17:56, 48.40s/it] 51%|███████████████████████████████████████████████████████▏ | 178/348 [46:51<1:47:24, 37.91s/it] {'loss': 0.1055, 'grad_norm': 1.6328125, 'learning_rate': 5.09294117516944e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2746.03, 'epoch': 1.02} + 51%|███████████████████████████████████████████████████████▏ | 178/348 [46:51<1:47:24, 37.91s/it] 51%|███████████████████████████████████████████████████████▌ | 179/348 [47:04<1:26:05, 30.56s/it] {'loss': 0.0244, 'grad_norm': 0.2392578125, 'learning_rate': 5.046472594967279e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3003.96, 'epoch': 1.03} + 51%|███████████████████████████████████████████████████████▌ | 179/348 [47:04<1:26:05, 30.56s/it] 52%|███████████████████████████████████████████████████████▊ | 180/348 [47:18<1:11:30, 25.54s/it] {'loss': 0.022, 'grad_norm': 0.224609375, 'learning_rate': 5e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2422.53, 'epoch': 1.03} + 52%|███████████████████████████████████████████████████████▊ | 180/348 [47:18<1:11:30, 25.54s/it] 52%|████████████████████████████████████████████████████████▏ | 181/348 [47:31<1:00:56, 21.90s/it] {'loss': 0.0251, 'grad_norm': 0.255859375, 'learning_rate': 4.953527405032723e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2945.71, 'epoch': 1.04} + 52%|████████████████████████████████████████████████████████▏ | 181/348 [47:31<1:00:56, 21.90s/it] 52%|█████████████████████████████████████████████████████████▌ | 182/348 [47:45<53:41, 19.41s/it] {'loss': 0.0141, 'grad_norm': 0.1953125, 'learning_rate': 4.90705882483056e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2853.32, 'epoch': 1.05} + 52%|█████████████████████████████████████████████████████████▌ | 182/348 [47:45<53:41, 19.41s/it] 53%|█████████████████████████████████████████████████████████▊ | 183/348 [47:58<48:27, 17.62s/it] {'loss': 0.0264, 'grad_norm': 0.232421875, 'learning_rate': 4.860598273811793e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2963.96, 'epoch': 1.05} + 53%|█████████████████████████████████████████████████████████▊ | 183/348 [47:58<48:27, 17.62s/it] 53%|██████████████████████████████████████████████████████████▏ | 184/348 [48:12<44:46, 16.38s/it] {'loss': 0.0546, 'grad_norm': 0.7890625, 'learning_rate': 4.814149765701059e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2697.48, 'epoch': 1.06} + 53%|██████████████████████████████████████████████████████████▏ | 184/348 [48:12<44:46, 16.38s/it] 53%|██████████████████████████████████████████████████████████▍ | 185/348 [48:25<41:52, 15.41s/it] {'loss': 0.0652, 'grad_norm': 0.48046875, 'learning_rate': 4.767717313182611e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2900.77, 'epoch': 1.06} + 53%|██████████████��███████████████████████████████████████████▍ | 185/348 [48:25<41:52, 15.41s/it] 53%|██████████████████████████████████████████████████████████▊ | 186/348 [48:39<40:36, 15.04s/it] {'loss': 0.0462, 'grad_norm': 0.40625, 'learning_rate': 4.721304927553659e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2355.42, 'epoch': 1.07} + 53%|██████████████████████████████████████████████████████████▊ | 186/348 [48:39<40:36, 15.04s/it] 54%|███████████████████████████████████████████████████████████ | 187/348 [48:53<39:03, 14.55s/it] {'loss': 0.0749, 'grad_norm': 0.62109375, 'learning_rate': 4.6749166183778375e-06, 'memory/max_active (GiB)': 90.73, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2675.04, 'epoch': 1.07} + 54%|███████████████████████████████████████████████████████████ | 187/348 [48:53<39:03, 14.55s/it] 54%|███████████████████████████████████████████████████████████▍ | 188/348 [49:07<38:28, 14.43s/it] {'loss': 0.0212, 'grad_norm': 0.197265625, 'learning_rate': 4.628556393138816e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2738.01, 'epoch': 1.08} + 54%|███████████████████████████████████████████████████████████▍ | 188/348 [49:07<38:28, 14.43s/it] 54%|███████████████████████████████████████████████████████████▋ | 189/348 [49:21<37:45, 14.25s/it] {'loss': 0.0585, 'grad_norm': 0.439453125, 'learning_rate': 4.582228256894093e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2383.44, 'epoch': 1.09} + 54%|███████████████████████████████████████████████████████████▋ | 189/348 [49:21<37:45, 14.25s/it] 55%|████████████████████████████████████████████████████████████ | 190/348 [49:35<37:32, 14.26s/it] {'loss': 0.0315, 'grad_norm': 0.283203125, 'learning_rate': 4.535936211929005e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2199.03, 'epoch': 1.09} + 55%|████████████████████████████████████████████████████████████ | 190/348 [49:35<37:32, 14.26s/it] 55%|████████████████████████████████████████████████████████████▎ | 191/348 [49:49<36:58, 14.13s/it] {'loss': 0.016, 'grad_norm': 0.22265625, 'learning_rate': 4.489684257410959e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2496.83, 'epoch': 1.1} + 55%|████████████████████████████████████████████████████████████▎ | 191/348 [49:49<36:58, 14.13s/it] 55%|████████████████████████████████████████████████████████████▋ | 192/348 [50:02<36:18, 13.97s/it] {'loss': 0.0695, 'grad_norm': 0.71484375, 'learning_rate': 4.443476389043955e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2501.77, 'epoch': 1.1} + 55%|████████████████████████████████████████████████████████████▋ | 192/348 [50:02<36:18, 13.97s/it] 55%|█████████████████████████████████████████████████████████████ | 193/348 [50:17<36:14, 14.03s/it] {'loss': 0.0585, 'grad_norm': 0.484375, 'learning_rate': 4.397316598723385e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2558.66, 'epoch': 1.11} + 55%|█████████████████████████████████████████████████████████████ | 193/348 [50:17<36:14, 14.03s/it] 56%|█████████████████████████████████████████████████████████████▎ | 194/348 [50:30<35:58, 14.01s/it] {'loss': 0.085, 'grad_norm': 0.67578125, 'learning_rate': 4.351208874191192e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2466.52, 'epoch': 1.11} + 56%|█████████████████████████████████████████████████████████████▎ | 194/348 [50:31<35:58, 14.01s/it] 56%|█████████████████████████████████████████████████████████████▋ | 195/348 [50:44<35:21, 13.87s/it] {'loss': 0.072, 'grad_norm': 0.625, 'learning_rate': 4.305157198691351e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2468.15, 'epoch': 1.12} + 56%|█████████████████████████████████████████████████████████████▋ | 195/348 [50:44<35:21, 13.87s/it] 56%|█████████████████████████████████████████████████████████████▉ | 196/348 [50:58<35:12, 13.90s/it] {'loss': 0.0215, 'grad_norm': 0.2314453125, 'learning_rate': 4.259165550625765e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2683.97, 'epoch': 1.13} + 56%|█████████████████████████████████████████████████████████████▉ | 196/348 [50:58<35:12, 13.90s/it] 57%|██████████████████████████████████████████████████████████████▎ | 197/348 [51:12<34:42, 13.79s/it] {'loss': 0.0198, 'grad_norm': 0.2255859375, 'learning_rate': 4.2132379032105695e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3125.87, 'epoch': 1.13} + 57%|██████████████████████████████████████████████████████████████▎ | 197/348 [51:12<34:42, 13.79s/it] 57%|██████████████████████████████████████████████████████████████▌ | 198/348 [51:25<34:02, 13.61s/it] {'loss': 0.0176, 'grad_norm': 0.2265625, 'learning_rate': 4.167378224132891e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3378.56, 'epoch': 1.14} + 57%|██████████████████████████████████████████████████████████████▌ | 198/348 [51:25<34:02, 13.61s/it] 57%|██████████████████████████████████████████████████████████████▉ | 199/348 [51:38<33:42, 13.57s/it] {'loss': 0.0313, 'grad_norm': 0.306640625, 'learning_rate': 4.121590475208071e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3219.03, 'epoch': 1.14} + 57%|██████████████████████████████████████████████████████████████▉ | 199/348 [51:38<33:42, 13.57s/it] 57%|███████████████████████████████████████████████████████████████▏ | 200/348 [51:52<33:41, 13.66s/it] {'loss': 0.0173, 'grad_norm': 0.1826171875, 'learning_rate': 4.075878612037408e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2676.58, 'epoch': 1.15} + 57%|███████████████████████████████████████████████████████████████▏ | 200/348 [51:52<33:41, 13.66s/it] 58%|███████████████████████████████████████████████████████████████▌ | 201/348 [52:05<33:14, 13.57s/it] {'loss': 0.0241, 'grad_norm': 0.259765625, 'learning_rate': 4.030246583666437e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3267.56, 'epoch': 1.15} + 58%|███████████████████████████████████████████████████████████████▌ | 201/348 [52:05<33:14, 13.57s/it] 58%|███████████████████████████████████████████████████████████████▊ | 202/348 [52:19<33:20, 13.70s/it] {'loss': 0.0159, 'grad_norm': 0.1875, 'learning_rate': 3.984698332243767e-06, 'memory/max_active (GiB)': 90.73, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2655.01, 'epoch': 1.16} + 58%|███████████████████████████████████████████████████████████████▊ | 202/348 [52:19<33:20, 13.70s/it] 58%|████████████████████████████████████████████████████████████████▏ | 203/348 [52:33<32:53, 13.61s/it] {'loss': 0.0275, 'grad_norm': 0.259765625, 'learning_rate': 3.9392377926805226e-06, 'memory/max_active (GiB)': 90.75, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2698.83, 'epoch': 1.17} + 58%|████████████████████████████████████████████████████████████████▏ | 203/348 [52:33<32:53, 13.61s/it] 59%|████████████████████████████████████████████████████████████████▍ | 204/348 [52:46<32:42, 13.63s/it] {'loss': 0.0565, 'grad_norm': 0.53125, 'learning_rate': 3.8938688923104015e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2555.03, 'epoch': 1.17} + 59%|████████████████████████████████████████████████████████████████▍ | 204/348 [52:47<32:42, 13.63s/it] 59%|████████████████████████████████████████████████████████████████▊ | 205/348 [53:01<32:50, 13.78s/it] {'loss': 0.0431, 'grad_norm': 0.380859375, 'learning_rate': 3.848595550550401e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2488.85, 'epoch': 1.18} + 59%|████████████████████████████████████████████████████████████████▊ | 205/348 [53:01<32:50, 13.78s/it] 59%|█████████████████████████████████████████████████████████████████ | 206/348 [53:15<32:42, 13.82s/it] {'loss': 0.0158, 'grad_norm': 0.21875, 'learning_rate': 3.803421678562213e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2637.72, 'epoch': 1.18} + 59%|█████████████████████████████████████████████████████████████████ | 206/348 [53:15<32:42, 13.82s/it] 59%|█████████████████████████████████████████████████████████████████▍ | 207/348 [53:28<32:25, 13.80s/it] {'loss': 0.0585, 'grad_norm': 0.466796875, 'learning_rate': 3.758351178914336e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2809.21, 'epoch': 1.19} + 59%|█████████████████████████████████████████████████████████████████▍ | 207/348 [53:28<32:25, 13.80s/it] 60%|█████████████████████████████████████████████████████████████████▋ | 208/348 [53:42<32:17, 13.84s/it] {'loss': 0.0462, 'grad_norm': 0.365234375, 'learning_rate': 3.713387945244945e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2882.43, 'epoch': 1.19} + 60%|█████████████████████████████████████████████████████████████████▋ | 208/348 [53:42<32:17, 13.84s/it] 60%|██████████████████████████████████████████████████████████████████ | 209/348 [53:56<32:02, 13.83s/it] {'loss': 0.024, 'grad_norm': 0.234375, 'learning_rate': 3.668535861925509e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2794.92, 'epoch': 1.2} + 60%|██████████████████████████████████████████████████████████████████ | 209/348 [53:56<32:02, 13.83s/it] 60%|██████████████████████████████████████████████████████████████████▍ | 210/348 [54:10<31:44, 13.80s/it] {'loss': 0.0242, 'grad_norm': 0.244140625, 'learning_rate': 3.623798803725223e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2481.22, 'epoch': 1.21} + 60%|██████████████████████████████████████████████████████████████████▍ | 210/348 [54:10<31:44, 13.80s/it] 61%|██████████████████████████████████████████████████████████████████▋ | 211/348 [54:24<31:30, 13.80s/it] {'loss': 0.0413, 'grad_norm': 0.392578125, 'learning_rate': 3.5791806354762702e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2771.5, 'epoch': 1.21} + 61%|██████████████████████████████████████████████████████████████████▋ | 211/348 [54:24<31:30, 13.80s/it] 61%|███████████████████████████████████████████████████████████████████ | 212/348 [54:37<31:04, 13.71s/it] {'loss': 0.0509, 'grad_norm': 0.59375, 'learning_rate': 3.534685211739935e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2543.46, 'epoch': 1.22} + 61%|████████���██████████████████████████████████████████████████████████ | 212/348 [54:37<31:04, 13.71s/it] 61%|███████████████████████████████████████████████████████████████████▎ | 213/348 [54:50<30:36, 13.61s/it] {'loss': 0.0365, 'grad_norm': 0.39453125, 'learning_rate': 3.4903163764736104e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2874.76, 'epoch': 1.22} + 61%|███████████████████████████████████████████████████████████████████▎ | 213/348 [54:50<30:36, 13.61s/it] 61%|███████████████████████████████████████████████████████████████████▋ | 214/348 [55:04<30:23, 13.61s/it] {'loss': 0.0238, 'grad_norm': 0.2421875, 'learning_rate': 3.4460779626987186e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2439.67, 'epoch': 1.23} + 61%|███████████████████████████████████████████████████████████████████▋ | 214/348 [55:04<30:23, 13.61s/it] 62%|███████████████████████████████████████████████████████████████████▉ | 215/348 [55:18<30:06, 13.58s/it] {'loss': 0.0221, 'grad_norm': 0.3203125, 'learning_rate': 3.401973792169574e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3236.53, 'epoch': 1.23} + 62%|███████████████████████████████████████████████████████████████████▉ | 215/348 [55:18<30:06, 13.58s/it] 62%|████████████████████████████████████████████████████████████████████▎ | 216/348 [55:32<30:08, 13.70s/it] {'loss': 0.0157, 'grad_norm': 0.2119140625, 'learning_rate': 3.3580076750432244e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2548.34, 'epoch': 1.24} + 62%|████████████████████████████████████████████████████████████████████▎ | 216/348 [55:32<30:08, 13.70s/it] 62%|████████████████████████████████████████████████████████████████████▌ | 217/348 [55:45<29:56, 13.72s/it] {'loss': 0.0253, 'grad_norm': 0.24609375, 'learning_rate': 3.314183409550293e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2592.69, 'epoch': 1.25} + 62%|████████████████████████████████████████████████████████████████████▌ | 217/348 [55:45<29:56, 13.72s/it] 63%|█��██████████████████████████████████████████████████████████████████▉ | 218/348 [55:59<29:43, 13.72s/it] {'loss': 0.0142, 'grad_norm': 0.265625, 'learning_rate': 3.270504781666845e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2646.25, 'epoch': 1.25} + 63%|████████████████████████████████████████████████████████████████████▉ | 218/348 [55:59<29:43, 13.72s/it] 63%|█████████████████████████████████████████████████████████████████████▏ | 219/348 [56:13<29:50, 13.88s/it] {'loss': 0.0242, 'grad_norm': 0.25, 'learning_rate': 3.226975564787322e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2563.16, 'epoch': 1.26} + 63%|█████████████████████████████████████████████████████████████████████▏ | 219/348 [56:13<29:50, 13.88s/it] 63%|█████████████████████████████████████████████████████████████████████▌ | 220/348 [56:27<29:39, 13.90s/it] {'loss': 0.0385, 'grad_norm': 0.3046875, 'learning_rate': 3.1835995193985548e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2652.55, 'epoch': 1.26} + 63%|█████████████████████████████████████████████████████████████████████▌ | 220/348 [56:27<29:39, 13.90s/it] 64%|█████████████████████████████████████████████████████████████████████▊ | 221/348 [56:41<29:07, 13.76s/it] {'loss': 0.0171, 'grad_norm': 0.2265625, 'learning_rate': 3.140380392754901e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2995.49, 'epoch': 1.27} + 64%|█████████████████████████████████████████████████████████████████████▊ | 221/348 [56:41<29:07, 13.76s/it] 64%|██████████████████████████████████████████████████████████████████████▏ | 222/348 [56:54<28:44, 13.69s/it] {'loss': 0.0121, 'grad_norm': 0.1865234375, 'learning_rate': 3.0973219185545077e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2742.55, 'epoch': 1.27} + 64%|██████████████████████████████████████████████████████████████████████▏ | 222/348 [56:54<28:44, 13.69s/it] 64%|██████████████████████████████████████████████████████████████████████▍ | 223/348 [57:08<28:43, 13.79s/it] {'loss': 0.0118, 'grad_norm': 0.2041015625, 'learning_rate': 3.054427816616773e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2829.54, 'epoch': 1.28} + 64%|██████████████████████████████████████████████████████████████████████▍ | 223/348 [57:08<28:43, 13.79s/it] 64%|██████████████████████████████████████████████████████████████████████▊ | 224/348 [57:22<28:32, 13.81s/it] {'loss': 0.0221, 'grad_norm': 0.2265625, 'learning_rate': 3.0117017925609802e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2400.83, 'epoch': 1.29} + 64%|██████████████████████████████████████████████████████████████████████▊ | 224/348 [57:22<28:32, 13.81s/it] 65%|███████████████████████████████████████████████████████████████████████ | 225/348 [57:36<28:32, 13.92s/it] {'loss': 0.0491, 'grad_norm': 0.388671875, 'learning_rate': 2.969147537486175e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2440.06, 'epoch': 1.29} + 65%|███████████████████████████████████████████████████████████████████████ | 225/348 [57:36<28:32, 13.92s/it] 65%|███████████████████████████████████████████████████████████████████████▍ | 226/348 [57:50<28:14, 13.89s/it] {'loss': 0.0447, 'grad_norm': 0.625, 'learning_rate': 2.9267687276522876e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2592.61, 'epoch': 1.3} + 65%|███████████████████████████████████████████████████████████████████████▍ | 226/348 [57:50<28:14, 13.89s/it] 65%|███████████████████████████████████████████████████████████████████████▊ | 227/348 [58:04<27:47, 13.78s/it] {'loss': 0.0413, 'grad_norm': 0.357421875, 'learning_rate': 2.8845690241625437e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2911.69, 'epoch': 1.3} + 65%|███████████████████████████████████████████████████████████████████████▊ | 227/348 [58:04<27:47, 13.78s/it] 66%|████████████████████████████████████████████████████████████████████████ | 228/348 [58:17<27:29, 13.74s/it] {'loss': 0.0451, 'grad_norm': 0.640625, 'learning_rate': 2.842552072647182e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2555.15, 'epoch': 1.31} + 66%|████████████████████████████████████████████████████████████████████████ | 228/348 [58:17<27:29, 13.74s/it] 66%|████████████████████████████████████████████████████████████████████████▍ | 229/348 [58:31<27:03, 13.64s/it] {'loss': 0.0237, 'grad_norm': 0.236328125, 'learning_rate': 2.800721502948506e-06, 'memory/max_active (GiB)': 90.75, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2626.84, 'epoch': 1.31} + 66%|████████████████████████████████████████████████████████████████████████▍ | 229/348 [58:31<27:03, 13.64s/it] 66%|████████████████████████████████████████████████████████████████████████▋ | 230/348 [58:44<26:43, 13.59s/it] {'loss': 0.0232, 'grad_norm': 0.259765625, 'learning_rate': 2.7590809288073e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2907.9, 'epoch': 1.32} + 66%|████████████████████████████████████████████████████████████████████████▋ | 230/348 [58:44<26:43, 13.59s/it] 66%|█████████████████████████████████████████████████████████████████████████ | 231/348 [58:58<26:35, 13.64s/it] {'loss': 0.0195, 'grad_norm': 0.2177734375, 'learning_rate': 2.7176339475506515e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2619.7, 'epoch': 1.33} + 66%|█████████████████████████████████████████████████████████████████████████ | 231/348 [58:58<26:35, 13.64s/it] 67%|█████████████████████████████████████████████████████████████████████████▎ | 232/348 [59:11<26:15, 13.58s/it] {'loss': 0.0153, 'grad_norm': 0.1796875, 'learning_rate': 2.6763841397811576e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2877.92, 'epoch': 1.33} + 67%|█████████████████████████████████████████████████████████████████████████▎ | 232/348 [59:11<26:15, 13.58s/it] 67%|█████████████████████████████████████████████████████████████████████████▋ | 233/348 [59:25<26:01, 13.58s/it] {'loss': 0.0139, 'grad_norm': 0.2099609375, 'learning_rate': 2.635335069067617e-06, 'memory/max_active (GiB)': 90.75, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2648.02, 'epoch': 1.34} + 67%|█████████████████████████████████████████████████████████████████████████▋ | 233/348 [59:25<26:01, 13.58s/it] 67%|█████████████████████████████████████████████████████████████████████████▉ | 234/348 [59:39<26:08, 13.76s/it] {'loss': 0.0787, 'grad_norm': 0.7109375, 'learning_rate': 2.5944902816371573e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2561.52, 'epoch': 1.34} + 67%|█████████████████████████████████████████████████████████████████████████▉ | 234/348 [59:39<26:08, 13.76s/it] 68%|██████████████████████████████████████████████████████████████████████████▎ | 235/348 [59:53<25:49, 13.71s/it] {'loss': 0.0827, 'grad_norm': 0.6640625, 'learning_rate': 2.553853306068888e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2911.94, 'epoch': 1.35} + 68%|██████████████████████████████████████████████████████████████████████████▎ | 235/348 [59:53<25:49, 13.71s/it] 68%|█████████████████████████████████████████████████████████████████████████▏ | 236/348 [1:00:06<25:24, 13.61s/it] {'loss': 0.0717, 'grad_norm': 0.63671875, 'learning_rate': 2.5134276529890646e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2807.38, 'epoch': 1.35} + 68%|█████████████████████████████████████████████████████████████████████████▏ | 236/348 [1:00:06<25:24, 13.61s/it] 68%|█████████████████████████████████████████████████████████████████████████▌ | 237/348 [1:00:20<25:08, 13.59s/it] {'loss': 0.0883, 'grad_norm': 0.72265625, 'learning_rate': 2.4732168147677927e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2650.86, 'epoch': 1.36} + 68%|█████████████████████████████████████████████████████████████████████████▌ | 237/348 [1:00:20<25:08, 13.59s/it] 68%|█████████████████████████████████████████████████████████████████████████▊ | 238/348 [1:00:33<24:52, 13.57s/it] {'loss': 0.0176, 'grad_norm': 0.197265625, 'learning_rate': 2.433224265217346e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2731.79, 'epoch': 1.37} + 68%|███████████████████████████���█████████████████████████████████████████████▊ | 238/348 [1:00:33<24:52, 13.57s/it] 69%|██████████████████████████████████████████████████████████████████████████▏ | 239/348 [1:00:46<24:33, 13.52s/it] {'loss': 0.0293, 'grad_norm': 0.263671875, 'learning_rate': 2.3934534592920416e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2750.5, 'epoch': 1.37} + 69%|██████████████████████████████████████████████████████████████████████████▏ | 239/348 [1:00:47<24:33, 13.52s/it] 69%|██████████████████████████████████████████████████████████████████████████▍ | 240/348 [1:01:00<24:27, 13.58s/it] {'loss': 0.0198, 'grad_norm': 0.2490234375, 'learning_rate': 2.3539078327897846e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2764.31, 'epoch': 1.38} + 69%|██████████████████████████████████████████████████████████████████████████▍ | 240/348 [1:01:00<24:27, 13.58s/it] 69%|██████████████████████████████████████████████████████████████████████████▊ | 241/348 [1:01:14<24:16, 13.61s/it] {'loss': 0.0264, 'grad_norm': 0.24609375, 'learning_rate': 2.314590802055232e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2621.88, 'epoch': 1.38} + 69%|██████████████████████████████████████████████████████████████████████████▊ | 241/348 [1:01:14<24:16, 13.61s/it] 70%|███████████████████████████████████████████████████████████████████████████ | 242/348 [1:01:28<24:08, 13.66s/it] {'loss': 0.0138, 'grad_norm': 0.2158203125, 'learning_rate': 2.275505763684674e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2509.41, 'epoch': 1.39} + 70%|███████████████████████████████████████████████████████████████████████████ | 242/348 [1:01:28<24:08, 13.66s/it] 70%|███████████████████████████████████████████████████████████████████████████▍ | 243/348 [1:01:42<23:59, 13.71s/it] {'loss': 0.0145, 'grad_norm': 0.1943359375, 'learning_rate': 2.2366560942325833e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3038.27, 'epoch': 1.39} + 70%|█████████████████████████████████████████████████████████████████████���█████▍ | 243/348 [1:01:42<23:59, 13.71s/it] 70%|███████████████████████████████████████████████████████████████████████████▋ | 244/348 [1:01:55<23:51, 13.76s/it] {'loss': 0.0444, 'grad_norm': 0.3671875, 'learning_rate': 2.1980451499199262e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2756.67, 'epoch': 1.4} + 70%|███████████████████████████████████████████████████████████████████████████▋ | 244/348 [1:01:55<23:51, 13.76s/it] 70%|████████████████████████████████████████████████████████████████████████████ | 245/348 [1:02:09<23:38, 13.77s/it] {'loss': 0.0569, 'grad_norm': 0.474609375, 'learning_rate': 2.159676266344222e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2487.73, 'epoch': 1.41} + 70%|████████████████████████████████████████████████████████████████████████████ | 245/348 [1:02:09<23:38, 13.77s/it] 71%|████████████████████████████████████████████████████████████████████████████▎ | 246/348 [1:02:23<23:13, 13.66s/it] {'loss': 0.0125, 'grad_norm': 0.220703125, 'learning_rate': 2.121552758191366e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2861.25, 'epoch': 1.41} + 71%|████████████████████████████████████████████████████████████████████████████▎ | 246/348 [1:02:23<23:13, 13.66s/it] 71%|████████████████████████████████████████████████████████████████████████████▋ | 247/348 [1:02:37<23:22, 13.88s/it] {'loss': 0.0291, 'grad_norm': 0.314453125, 'learning_rate': 2.0836779189492925e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2666.84, 'epoch': 1.42} + 71%|████████████████████████████████████████████████████████████████████████████▋ | 247/348 [1:02:37<23:22, 13.88s/it] 71%|████████████████████████████████████████████████████████████████████████████▉ | 248/348 [1:02:51<23:02, 13.83s/it] {'loss': 0.0673, 'grad_norm': 0.54296875, 'learning_rate': 2.0460550206234324e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2660.68, 'epoch': 1.42} + 71%|████████████████████████████████████████████████████████████████████████████▉ | 248/348 [1:02:51<23:02, 13.83s/it] 72%|█��███████████████████████████████████████████████████████████████████████████▎ | 249/348 [1:03:04<22:45, 13.79s/it] {'loss': 0.018, 'grad_norm': 0.23828125, 'learning_rate': 2.0086873134540626e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2869.73, 'epoch': 1.43} + 72%|█████████████████████████████████████████████████████████████████████████████▎ | 249/348 [1:03:04<22:45, 13.79s/it] 72%|█████████████████████████████████████████████████████████████████████████████▌ | 250/348 [1:03:18<22:25, 13.73s/it] {'loss': 0.022, 'grad_norm': 0.22265625, 'learning_rate': 1.9715780256355014e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2686.63, 'epoch': 1.43} + 72%|█████████████████████████████████████████████████████████████████████████████▌ | 250/348 [1:03:18<22:25, 13.73s/it] 72%|█████████████████████████████████████████████████████████████████████████████▉ | 251/348 [1:03:31<22:05, 13.66s/it] {'loss': 0.1629, 'grad_norm': 1.9453125, 'learning_rate': 1.9347303630372373e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3002.91, 'epoch': 1.44} + 72%|█████████████████████████████████████████████████████████████████████████████▉ | 251/348 [1:03:32<22:05, 13.66s/it] 72%|██████████████████████████████████████████████████████████████████████████████▏ | 252/348 [1:03:45<21:52, 13.68s/it] {'loss': 0.0791, 'grad_norm': 1.296875, 'learning_rate': 1.8981475089269641e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2701.57, 'epoch': 1.45} + 72%|██████████████████████████████████████████████████████████████████████████████▏ | 252/348 [1:03:45<21:52, 13.68s/it] 73%|██████████████████████████████████████████████████████████████████████████████▌ | 253/348 [1:03:59<21:39, 13.68s/it] {'loss': 0.0286, 'grad_norm': 0.30078125, 'learning_rate': 1.8618326236955908e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2251.46, 'epoch': 1.45} + 73%|██████████████████████████████████████████████████████████████████████████████▌ | 253/348 [1:03:59<21:39, 13.68s/it] 73%|██████████████████████████████████████████████████████████████████████████████▊ | 254/348 [1:04:12<21:17, 13.59s/it] {'loss': 0.1294, 'grad_norm': 1.7578125, 'learning_rate': 1.8257888445842026e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2526.56, 'epoch': 1.46} + 73%|██████████████████████████████████████████████████████████████████████████████▊ | 254/348 [1:04:12<21:17, 13.59s/it] 73%|███████████████████████████████████████████████████████████████████████████████▏ | 255/348 [1:04:26<21:16, 13.73s/it] {'loss': 0.0132, 'grad_norm': 0.1689453125, 'learning_rate': 1.7900192854130465e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2636.65, 'epoch': 1.46} + 73%|███████████████████████████████████████████████████████████████████████████████▏ | 255/348 [1:04:26<21:16, 13.73s/it] 74%|███████████████████████████████████████████████████████████████████████████████▍ | 256/348 [1:04:40<21:12, 13.83s/it] {'loss': 0.0358, 'grad_norm': 0.46484375, 'learning_rate': 1.7545270363125155e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2174.36, 'epoch': 1.47} + 74%|███████████████████████████████████████████████████████████████████████████████▍ | 256/348 [1:04:40<21:12, 13.83s/it] 74%|███████████████████████████████████████████████████████████████████████████████▊ | 257/348 [1:04:54<20:56, 13.81s/it] {'loss': 0.011, 'grad_norm': 0.181640625, 'learning_rate': 1.7193151634562071e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2578.4, 'epoch': 1.47} + 74%|███████████████████████████████████████████████████████████████████████████████▊ | 257/348 [1:04:54<20:56, 13.81s/it] 74%|████████████████████████████████████████████████████████████████████████████████ | 258/348 [1:05:08<20:36, 13.74s/it] {'loss': 0.0142, 'grad_norm': 0.2197265625, 'learning_rate': 1.6843867087960252e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2640.0, 'epoch': 1.48} + 74%|████████████████████████████████████████████████████████████████████████████████ | 258/348 [1:05:08<20:36, 13.74s/it] 74%|████████████████████████████████████████████████████████████████████████████████▍ | 259/348 [1:05:21<20:17, 13.68s/it] {'loss': 0.0263, 'grad_norm': 0.2353515625, 'learning_rate': 1.6497446897993885e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2645.37, 'epoch': 1.49} + 74%|████████████████████████████████████████████████████████████████████████████████▍ | 259/348 [1:05:21<20:17, 13.68s/it] 75%|████████████████████████████████████████████████████████████████████████████████▋ | 260/348 [1:05:35<20:00, 13.64s/it] {'loss': 0.0195, 'grad_norm': 0.2099609375, 'learning_rate': 1.6153920991885591e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2810.61, 'epoch': 1.49} + 75%|████████████████████████████████████████████████████████████████████████████████▋ | 260/348 [1:05:35<20:00, 13.64s/it] 75%|█████████████████████████████████████████████████████████████████████████████████ | 261/348 [1:05:48<19:46, 13.64s/it] {'loss': 0.0154, 'grad_norm': 0.20703125, 'learning_rate': 1.581331904682089e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2882.95, 'epoch': 1.5} + 75%|█████████████████████████████████████████████████████████████████████████████████ | 261/348 [1:05:48<19:46, 13.64s/it] 75%|█████████████████████████████████████████████████████████████████████████████████▎ | 262/348 [1:06:03<19:47, 13.80s/it] {'loss': 0.0349, 'grad_norm': 0.294921875, 'learning_rate': 1.547567048738452e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2605.38, 'epoch': 1.5} + 75%|█████████████████████████████████████████████████████████████████████████████████▎ | 262/348 [1:06:03<19:47, 13.80s/it] 76%|█████████████████████████████████████████████████████████████████████████████████▌ | 263/348 [1:06:16<19:18, 13.63s/it] {'loss': 0.045, 'grad_norm': 0.40625, 'learning_rate': 1.5141004483018323e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2748.26, 'epoch': 1.51} + 76%|█████████████████████████████████████████████████████████████████████████████████▌ | 263/348 [1:06:16<19:18, 13.63s/it] 76%|████████████████████████████████████��████████████████████████████████████████████▉ | 264/348 [1:06:30<19:06, 13.65s/it] {'loss': 0.0277, 'grad_norm': 0.2490234375, 'learning_rate': 1.4809349945501422e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2672.19, 'epoch': 1.51} + 76%|█████████████████████████████████████████████████████████████████████████████████▉ | 264/348 [1:06:30<19:06, 13.65s/it] 76%|██████████████████████████████████████████████████████████████████████████████████▏ | 265/348 [1:06:43<18:54, 13.67s/it] {'loss': 0.0452, 'grad_norm': 0.4375, 'learning_rate': 1.4480735526452427e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2391.45, 'epoch': 1.52} + 76%|██████████████████████████████████████████████████████████████████████████████████▏ | 265/348 [1:06:43<18:54, 13.67s/it] 76%|██████████████████████████████████████████████████████████████████████████████████▌ | 266/348 [1:06:57<18:34, 13.59s/it] {'loss': 0.0459, 'grad_norm': 0.490234375, 'learning_rate': 1.4155189614854275e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2847.16, 'epoch': 1.53} + 76%|██████████████████████████████████████████████████████████████████████████████████▌ | 266/348 [1:06:57<18:34, 13.59s/it] 77%|██████████████████████████████████████████████████████████████████████████████████▊ | 267/348 [1:07:10<18:24, 13.63s/it] {'loss': 0.0173, 'grad_norm': 0.1943359375, 'learning_rate': 1.3832740334601692e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2813.13, 'epoch': 1.53} + 77%|██████████████████████████████████████████████████████████████████████████████████▊ | 267/348 [1:07:10<18:24, 13.63s/it] 77%|███████████████████████████████████████████████████████████████████████████████████▏ | 268/348 [1:07:24<18:04, 13.56s/it] {'loss': 0.0412, 'grad_norm': 0.41796875, 'learning_rate': 1.351341554207163e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2568.07, 'epoch': 1.54} + 77%|███████████████████████████████████████████████████████████████████████████████████▏ | 268/348 [1:07:24<18:04, 13.56s/it] 77%|██████████████████████████��████████████████████████████████████████████████████████▍ | 269/348 [1:07:37<17:40, 13.42s/it] {'loss': 0.028, 'grad_norm': 0.40234375, 'learning_rate': 1.319724282371664e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3087.0, 'epoch': 1.54} + 77%|███████████████████████████████████████████████████████████████████████████████████▍ | 269/348 [1:07:37<17:40, 13.42s/it] 78%|███████████████████████████████████████████████████████████████████████████████████▊ | 270/348 [1:07:51<17:32, 13.49s/it] {'loss': 0.0604, 'grad_norm': 0.66796875, 'learning_rate': 1.28842494936818e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2227.42, 'epoch': 1.55} + 78%|███████████████████████████████████████████████████████████████████████████████████▊ | 270/348 [1:07:51<17:32, 13.49s/it] 78%|████████████████████████████████████████████████████████████████████████████████████ | 271/348 [1:08:05<17:32, 13.67s/it] {'loss': 0.0587, 'grad_norm': 0.515625, 'learning_rate': 1.257446259144494e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2371.78, 'epoch': 1.55} + 78%|████████████████████████████████████████████████████████████████████████████████████ | 271/348 [1:08:05<17:32, 13.67s/it] 78%|████████████████████████████████████████████████████████████████████████████████████▍ | 272/348 [1:08:18<17:19, 13.68s/it] {'loss': 0.0211, 'grad_norm': 0.2275390625, 'learning_rate': 1.2267908879480822e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2781.74, 'epoch': 1.56} + 78%|████████████████████████████████████████████████████████████████████████████████████▍ | 272/348 [1:08:18<17:19, 13.68s/it] 78%|████████████████████████████████████████████████████████████████████████████████████▋ | 273/348 [1:08:32<17:00, 13.60s/it] {'loss': 0.0361, 'grad_norm': 0.361328125, 'learning_rate': 1.1964614840949002e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3028.4, 'epoch': 1.57} + 78%|████████████████████████████████████████████████████████████████████████████████████▋ | 273/348 [1:08:32<17:00, 13.60s/it] 79%|█████████���███████████████████████████████████████████████████████████████████████████ | 274/348 [1:08:45<16:47, 13.62s/it] {'loss': 0.015, 'grad_norm': 0.23046875, 'learning_rate': 1.1664606677406025e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2652.96, 'epoch': 1.57} + 79%|█████████████████████████████████████████████████████████████████████████████████████ | 274/348 [1:08:45<16:47, 13.62s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████▎ | 275/348 [1:08:59<16:38, 13.67s/it] {'loss': 0.0673, 'grad_norm': 0.54296875, 'learning_rate': 1.1367910306541918e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2704.26, 'epoch': 1.58} + 79%|█████████████████████████████████████████████████████████████████████████████████████▎ | 275/348 [1:08:59<16:38, 13.67s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████▋ | 276/348 [1:09:13<16:21, 13.64s/it] {'loss': 0.022, 'grad_norm': 0.21875, 'learning_rate': 1.1074551359941022e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2888.74, 'epoch': 1.58} + 79%|█████████████████████████████████████████████████████████████████████████████████████▋ | 276/348 [1:09:13<16:21, 13.64s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████▉ | 277/348 [1:09:26<16:09, 13.66s/it] {'loss': 0.0236, 'grad_norm': 0.2392578125, 'learning_rate': 1.078455518086784e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2710.51, 'epoch': 1.59} + 80%|█████████████████████████████████████████████████████████████████████████████████████▉ | 277/348 [1:09:27<16:09, 13.66s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████▎ | 278/348 [1:09:40<15:53, 13.62s/it] {'loss': 0.0163, 'grad_norm': 0.1796875, 'learning_rate': 1.0497946822077504e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2702.2, 'epoch': 1.59} + 80%|██████████████████████████████████████████████████████████████████████████████████████▎ | 278/348 [1:09:40<15:53, 13.62s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████▌ | 279/348 [1:09:54<15:38, 13.60s/it] {'loss': 0.0131, 'grad_norm': 0.2001953125, 'learning_rate': 1.0214751043651582e-06, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2895.27, 'epoch': 1.6} + 80%|██████████████████████████████████████████████████████████████████████████████████████▌ | 279/348 [1:09:54<15:38, 13.60s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████▉ | 280/348 [1:10:07<15:20, 13.53s/it] {'loss': 0.0299, 'grad_norm': 0.333984375, 'learning_rate': 9.934992310858944e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2738.35, 'epoch': 1.61} + 80%|██████████████████████████████████████████████████████████████████████████████████████▉ | 280/348 [1:10:07<15:20, 13.53s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████▏ | 281/348 [1:10:21<15:13, 13.63s/it] {'loss': 0.0136, 'grad_norm': 0.169921875, 'learning_rate': 9.658694792042284e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2437.71, 'epoch': 1.61} + 81%|███████████████████████████████████████████████████████████████████████████████████████▏ | 281/348 [1:10:21<15:13, 13.63s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████▌ | 282/348 [1:10:34<14:56, 13.59s/it] {'loss': 0.0169, 'grad_norm': 0.2197265625, 'learning_rate': 9.385882356530179e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2754.67, 'epoch': 1.62} + 81%|███████████████████████████████████████████████████████████████████████████████████████▌ | 282/348 [1:10:34<14:56, 13.59s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████▊ | 283/348 [1:10:48<14:48, 13.67s/it] {'loss': 0.0188, 'grad_norm': 0.2236328125, 'learning_rate': 9.116578572575091e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2472.74, 'epoch': 1.62} + 81%|████████████████████████████████████████████████���██████████████████████████████████████▊ | 283/348 [1:10:48<14:48, 13.67s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████▏ | 284/348 [1:11:02<14:35, 13.68s/it] {'loss': 0.0875, 'grad_norm': 0.734375, 'learning_rate': 8.850806705317183e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2449.08, 'epoch': 1.63} + 82%|████████████████████████████████████████████████████████████████████████████████████████▏ | 284/348 [1:11:02<14:35, 13.68s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████▍ | 285/348 [1:11:15<14:16, 13.59s/it] {'loss': 0.0504, 'grad_norm': 0.416015625, 'learning_rate': 8.58858971477457e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2624.56, 'epoch': 1.63} + 82%|████████████████████████████████████████████████████████████████████████████████████████▍ | 285/348 [1:11:15<14:16, 13.59s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████▊ | 286/348 [1:11:29<14:14, 13.78s/it] {'loss': 0.045, 'grad_norm': 0.453125, 'learning_rate': 8.329950253859703e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2573.72, 'epoch': 1.64} + 82%|████████████████████████████████████████████████████████████████████████████████████████▊ | 286/348 [1:11:29<14:14, 13.78s/it] 82%|█████████████████████████████████████████████████████████████████████████████████████████ | 287/348 [1:11:43<14:01, 13.79s/it] {'loss': 0.0108, 'grad_norm': 0.1748046875, 'learning_rate': 8.074910666422475e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2376.3, 'epoch': 1.65} + 82%|█████████████████████████████████████████████████████████████████████████████████████████ | 287/348 [1:11:43<14:01, 13.79s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████▍ | 288/348 [1:11:57<13:48, 13.80s/it] {'loss': 0.0207, 'grad_norm': 0.2470703125, 'learning_rate': 7.823492985319858e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2385.59, 'epoch': 1.65} + 83%|��████████████████████████████████████████████████████████████████████████████████████████▍ | 288/348 [1:11:57<13:48, 13.80s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████▋ | 289/348 [1:12:10<13:27, 13.68s/it] {'loss': 0.0199, 'grad_norm': 0.2314453125, 'learning_rate': 7.575718930512516e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2984.19, 'epoch': 1.66} + 83%|█████████████████████████████████████████████████████████████████████████████████████████▋ | 289/348 [1:12:11<13:27, 13.68s/it] 83%|██████████████████████████████████████████████████████████████████████████████████████████ | 290/348 [1:12:24<13:08, 13.60s/it] {'loss': 0.0344, 'grad_norm': 0.337890625, 'learning_rate': 7.33160990718847e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2838.05, 'epoch': 1.66} + 83%|██████████████████████████████████████████████████████████████████████████████████████████ | 290/348 [1:12:24<13:08, 13.60s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████▎ | 291/348 [1:12:38<13:04, 13.76s/it] {'loss': 0.0445, 'grad_norm': 0.34375, 'learning_rate': 7.091187003913802e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2803.35, 'epoch': 1.67} + 84%|██████████████████████████████████████████████████████████████████████████████████████████▎ | 291/348 [1:12:38<13:04, 13.76s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████▌ | 292/348 [1:12:52<12:50, 13.76s/it] {'loss': 0.0968, 'grad_norm': 0.640625, 'learning_rate': 6.854470990810907e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2621.66, 'epoch': 1.67} + 84%|██████████████████████████████████████████████████████████████████████████████████████████▌ | 292/348 [1:12:52<12:50, 13.76s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████▉ | 293/348 [1:13:05<12:34, 13.73s/it] {'loss': 0.0454, 'grad_norm': 0.455078125, 'learning_rate': 6.621482317764105e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2659.68, 'epoch': 1.68} + 84%|██████████████████████████████████████████████████████████████████████████████████████████▉ | 293/348 [1:13:05<12:34, 13.73s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 294/348 [1:13:19<12:24, 13.78s/it] {'loss': 0.0533, 'grad_norm': 0.4296875, 'learning_rate': 6.392241112653031e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2555.56, 'epoch': 1.69} + 84%|███████████████████████████████████████████████████████████████████████████████████████████▏ | 294/348 [1:13:19<12:24, 13.78s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████▌ | 295/348 [1:13:33<12:09, 13.76s/it] {'loss': 0.0233, 'grad_norm': 0.2255859375, 'learning_rate': 6.166767179613691e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2628.11, 'epoch': 1.69} + 85%|███████████████████████████████████████████████████████████████████████████████████████████▌ | 295/348 [1:13:33<12:09, 13.76s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████▊ | 296/348 [1:13:47<11:53, 13.72s/it] {'loss': 0.0498, 'grad_norm': 0.55859375, 'learning_rate': 5.945079997327713e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2416.14, 'epoch': 1.7} + 85%|███████████████████████████████████████████████████████████████████████████████████████████▊ | 296/348 [1:13:47<11:53, 13.72s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████████▏ | 297/348 [1:14:00<11:37, 13.67s/it] {'loss': 0.0327, 'grad_norm': 0.298828125, 'learning_rate': 5.727198717339511e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2438.16, 'epoch': 1.7} + 85%|████████████████████████████████████████████████████████████████████████████████████████████▏ | 297/348 [1:14:00<11:37, 13.67s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████▍ | 298/348 [1:14:14<11:20, 13.60s/it] {'loss': 0.0205, 'grad_norm': 0.2138671875, 'learning_rate': 5.513142162401746e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3173.03, 'epoch': 1.71} + 86%|████████████████████████████████████████████████████████████████████████████████████████████▍ | 298/348 [1:14:14<11:20, 13.60s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████▊ | 299/348 [1:14:27<11:06, 13.61s/it] {'loss': 0.0205, 'grad_norm': 0.27734375, 'learning_rate': 5.302928824849335e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2666.54, 'epoch': 1.71} + 86%|████████████████████████████████████████████████████████████████████████████████████████████▊ | 299/348 [1:14:27<11:06, 13.61s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████ | 300/348 [1:14:41<10:56, 13.67s/it] {'loss': 0.0253, 'grad_norm': 0.2421875, 'learning_rate': 5.096576865001802e-07, 'memory/max_active (GiB)': 90.73, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2538.25, 'epoch': 1.72} + 86%|█████████████████████████████████████████████████████████████████████████████████████████████ | 300/348 [1:14:41<10:56, 13.67s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████████▍ | 301/348 [1:14:55<10:43, 13.69s/it] {'loss': 0.0092, 'grad_norm': 0.1669921875, 'learning_rate': 4.894104109594466e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2791.66, 'epoch': 1.73} + 86%|█████████████████████████████████████████████████████████████████████████████████████████████▍ | 301/348 [1:14:55<10:43, 13.69s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 302/348 [1:15:09<10:32, 13.75s/it] {'loss': 0.0226, 'grad_norm': 0.271484375, 'learning_rate': 4.695528050238368e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2959.99, 'epoch': 1.73} + 87%|█████████████████████████████████████████████████████████████████████████████████████████████▋ | 302/348 [1:15:09<10:32, 13.75s/it] 87%|██████████████████████████████████████��███████████████████████████████████████████████████████ | 303/348 [1:15:22<10:17, 13.72s/it] {'loss': 0.0161, 'grad_norm': 0.2294921875, 'learning_rate': 4.500865841909169e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2876.65, 'epoch': 1.74} + 87%|██████████████████████████████████████████████████████████████████████████████████████████████ | 303/348 [1:15:22<10:17, 13.72s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████████▎ | 304/348 [1:15:36<10:05, 13.76s/it] {'loss': 0.0625, 'grad_norm': 0.546875, 'learning_rate': 4.3101343014651356e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2758.96, 'epoch': 1.74} + 87%|██████████████████████████████████████████████████████████████████████████████████████████████▎ | 304/348 [1:15:36<10:05, 13.76s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████▋ | 305/348 [1:15:50<09:48, 13.69s/it] {'loss': 0.0387, 'grad_norm': 0.423828125, 'learning_rate': 4.123349906194357e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2928.83, 'epoch': 1.75} + 88%|██████████████████████████████████████████████████████████████████████████████████████████████▋ | 305/348 [1:15:50<09:48, 13.69s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████▉ | 306/348 [1:16:03<09:33, 13.65s/it] {'loss': 0.0523, 'grad_norm': 0.458984375, 'learning_rate': 3.940528792391224e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2752.72, 'epoch': 1.75} + 88%|██████████████████████████████████████████████████████████████████████████████████████████████▉ | 306/348 [1:16:03<09:33, 13.65s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████▎ | 307/348 [1:16:17<09:16, 13.56s/it] {'loss': 0.0892, 'grad_norm': 0.6484375, 'learning_rate': 3.7616867539624733e-07, 'memory/max_active (GiB)': 90.75, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2567.24, 'epoch': 1.76} + 88%|███████████████████████████████████████████████████████████████���███████████████████████████████▎ | 307/348 [1:16:17<09:16, 13.56s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████▌ | 308/348 [1:16:30<09:03, 13.60s/it] {'loss': 0.0704, 'grad_norm': 0.515625, 'learning_rate': 3.586839241062695e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2485.14, 'epoch': 1.77} + 89%|███████████████████████████████████████████████████████████████████████████████████████████████▌ | 308/348 [1:16:30<09:03, 13.60s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████▉ | 309/348 [1:16:44<08:48, 13.55s/it] {'loss': 0.0528, 'grad_norm': 0.435546875, 'learning_rate': 3.416001358759635e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2763.44, 'epoch': 1.77} + 89%|███████████████████████████████████████████████████████████████████████████████████████████████▉ | 309/348 [1:16:44<08:48, 13.55s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████▏ | 310/348 [1:16:57<08:33, 13.51s/it] {'loss': 0.0137, 'grad_norm': 0.26953125, 'learning_rate': 3.2491878657292643e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3187.26, 'epoch': 1.78} + 89%|████████████████████████████████████████████████████████████████████████████████████████████████▏ | 310/348 [1:16:57<08:33, 13.51s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████▌ | 311/348 [1:17:11<08:22, 13.57s/it] {'loss': 0.0117, 'grad_norm': 0.2080078125, 'learning_rate': 3.08641317298074e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2925.22, 'epoch': 1.78} + 89%|████████████████████████████████████████████████████████████████████████████████████████████████▌ | 311/348 [1:17:11<08:22, 13.57s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████▊ | 312/348 [1:17:24<08:07, 13.53s/it] {'loss': 0.0457, 'grad_norm': 0.421875, 'learning_rate': 2.927691342611505e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2879.88, 'epoch': 1.79} + 90%|████████████████████████████████████████████████████████████████████████████████████████████████▊ | 312/348 [1:17:24<08:07, 13.53s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████▏ | 313/348 [1:17:38<07:57, 13.64s/it] {'loss': 0.0382, 'grad_norm': 0.447265625, 'learning_rate': 2.7730360865923954e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2496.08, 'epoch': 1.79} + 90%|█████████████████████████████████████████████████████████████████████████████████████████████████▏ | 313/348 [1:17:38<07:57, 13.64s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████▍ | 314/348 [1:17:52<07:48, 13.77s/it] {'loss': 0.0362, 'grad_norm': 0.314453125, 'learning_rate': 2.6224607655831236e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2465.88, 'epoch': 1.8} + 90%|█████████████████████████████████████████████████████████████████████████████████████████████████▍ | 314/348 [1:17:52<07:48, 13.77s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▊ | 315/348 [1:18:06<07:34, 13.76s/it] {'loss': 0.0225, 'grad_norm': 0.232421875, 'learning_rate': 2.475978387778e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2901.64, 'epoch': 1.81} + 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▊ | 315/348 [1:18:06<07:34, 13.76s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████ | 316/348 [1:18:20<07:21, 13.81s/it] {'loss': 0.0219, 'grad_norm': 0.2490234375, 'learning_rate': 2.3336016077822154e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2306.59, 'epoch': 1.81} + 91%|██████████████████████████████████████████████████████████████████████████████████████████████████ | 316/348 [1:18:20<07:21, 13.81s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/348 [1:18:34<07:05, 13.71s/it] {'loss': 0.0491, 'grad_norm': 0.4140625, 'learning_rate': 2.1953427255185122e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2608.9, 'epoch': 1.82} + 91%|██████████████████████████████████████████████████████████████████████████████████████████████████▍ | 317/348 [1:18:34<07:05, 13.71s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████▋ | 318/348 [1:18:47<06:47, 13.58s/it] {'loss': 0.0204, 'grad_norm': 0.2578125, 'learning_rate': 2.0612136851647258e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2647.21, 'epoch': 1.82} + 91%|██████████████████████████████████████████████████████████████████████████████████████████████████▋ | 318/348 [1:18:47<06:47, 13.58s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████ | 319/348 [1:19:01<06:35, 13.65s/it] {'loss': 0.046, 'grad_norm': 0.390625, 'learning_rate': 1.9312260741218114e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2597.89, 'epoch': 1.83} + 92%|███████████████████████████████████████████████████████████████████████████████████████████████████ | 319/348 [1:19:01<06:35, 13.65s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████▎ | 320/348 [1:19:14<06:20, 13.60s/it] {'loss': 0.0271, 'grad_norm': 0.23828125, 'learning_rate': 1.805391122012884e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2596.1, 'epoch': 1.83} + 92%|███████████████████████████████████████████████████████████████████████████████████████████████████▎ | 320/348 [1:19:14<06:20, 13.60s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████▌ | 321/348 [1:19:28<06:11, 13.74s/it] {'loss': 0.0237, 'grad_norm': 0.255859375, 'learning_rate': 1.6837196997130434e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2516.83, 'epoch': 1.84} + 92%|███████████████████████████████████████████████████████████████████████████████████████████████████▌ | 321/348 [1:19:28<06:11, 13.74s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▉ | 322/348 [1:19:42<05:56, 13.72s/it] {'loss': 0.0179, 'grad_norm': 0.2236328125, 'learning_rate': 1.5662223184102876e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2540.53, 'epoch': 1.85} + 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▉ | 322/348 [1:19:42<05:56, 13.72s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 323/348 [1:19:56<05:43, 13.73s/it] {'loss': 0.0223, 'grad_norm': 0.2119140625, 'learning_rate': 1.4529091286973994e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2636.6, 'epoch': 1.85} + 93%|████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 323/348 [1:19:56<05:43, 13.73s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 324/348 [1:20:10<05:32, 13.86s/it] {'loss': 0.0325, 'grad_norm': 0.314453125, 'learning_rate': 1.3437899196950765e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2506.87, 'epoch': 1.86} + 93%|████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 324/348 [1:20:10<05:32, 13.86s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 325/348 [1:20:24<05:19, 13.88s/it] {'loss': 0.0705, 'grad_norm': 0.5390625, 'learning_rate': 1.2388741182062348e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2390.64, 'epoch': 1.86} + 93%|████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 325/348 [1:20:24<05:19, 13.88s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 326/348 [1:20:37<05:02, 13.77s/it] {'loss': 0.0189, 'grad_norm': 0.267578125, 'learning_rate': 1.1381707879016158e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3125.16, 'epoch': 1.87} + 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 326/348 [1:20:37<05:02, 13.77s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 327/348 [1:20:51<04:49, 13.78s/it] {'loss': 0.04, 'grad_norm': 0.373046875, 'learning_rate': 1.0416886285368188e-07, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2547.03, 'epoch': 1.87} + 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 327/348 [1:20:51<04:49, 13.78s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 328/348 [1:21:04<04:33, 13.68s/it] {'loss': 0.0637, 'grad_norm': 0.671875, 'learning_rate': 9.494359752006687e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2941.31, 'epoch': 1.88} + 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 328/348 [1:21:04<04:33, 13.68s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 329/348 [1:21:18<04:18, 13.61s/it] {'loss': 0.0155, 'grad_norm': 0.21875, 'learning_rate': 8.614207975952083e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3064.75, 'epoch': 1.89} + 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 329/348 [1:21:18<04:18, 13.61s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 330/348 [1:21:31<04:05, 13.61s/it] {'loss': 0.0116, 'grad_norm': 0.189453125, 'learning_rate': 7.776506993471323e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2854.92, 'epoch': 1.89} + 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 330/348 [1:21:32<04:05, 13.61s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 331/348 [1:21:45<03:51, 13.63s/it] {'loss': 0.017, 'grad_norm': 0.23046875, 'learning_rate': 6.981329173509909e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2744.8, 'epoch': 1.9} + 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 331/348 [1:21:45<03:51, 13.63s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 332/348 [1:21:59<03:39, 13.70s/it] {'loss': 0.0347, 'grad_norm': 0.3359375, 'learning_rate': 6.22874321143907e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2566.27, 'epoch': 1.9} + 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████ | 332/348 [1:21:59<03:39, 13.70s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 333/348 [1:22:13<03:24, 13.66s/it] {'loss': 0.0267, 'grad_norm': 0.232421875, 'learning_rate': 5.518814123121885e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2629.21, 'epoch': 1.91} + 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 333/348 [1:22:13<03:24, 13.66s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 334/348 [1:22:26<03:11, 13.69s/it] {'loss': 0.025, 'grad_norm': 0.234375, 'learning_rate': 4.851603239296065e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2616.08, 'epoch': 1.91} + 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 334/348 [1:22:26<03:11, 13.69s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 335/348 [1:22:40<02:57, 13.65s/it] {'loss': 0.0344, 'grad_norm': 0.271484375, 'learning_rate': 4.227168200276077e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2754.3, 'epoch': 1.92} + 96%|█████████████████████████████████████████████████████████████████���█████████████████████████████████████▉ | 335/348 [1:22:40<02:57, 13.65s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 336/348 [1:22:54<02:44, 13.67s/it] {'loss': 0.0182, 'grad_norm': 0.2734375, 'learning_rate': 3.645562950973014e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2942.43, 'epoch': 1.93} + 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 336/348 [1:22:54<02:44, 13.67s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 337/348 [1:23:07<02:29, 13.59s/it] {'loss': 0.1145, 'grad_norm': 0.8828125, 'learning_rate': 3.10683773623488e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2586.12, 'epoch': 1.93} + 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 337/348 [1:23:07<02:29, 13.59s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 338/348 [1:23:21<02:16, 13.60s/it] {'loss': 0.0125, 'grad_norm': 0.19140625, 'learning_rate': 2.6110390965055632e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2797.12, 'epoch': 1.94} + 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 338/348 [1:23:21<02:16, 13.60s/it] 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 339/348 [1:23:34<02:02, 13.63s/it] {'loss': 0.0176, 'grad_norm': 0.3203125, 'learning_rate': 2.158209863804217e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2653.07, 'epoch': 1.94} + 97%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 339/348 [1:23:34<02:02, 13.63s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 340/348 [1:23:48<01:49, 13.73s/it] {'loss': 0.0125, 'grad_norm': 0.2099609375, 'learning_rate': 1.7483891580253877e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2343.01, 'epoch': 1.95} + 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 340/348 [1:23:48<01:49, 13.73s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 341/348 [1:24:02<01:36, 13.72s/it] {'loss': 0.0172, 'grad_norm': 0.2236328125, 'learning_rate': 1.3816123835588835e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2868.71, 'epoch': 1.95} + 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 341/348 [1:24:02<01:36, 13.72s/it] 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 342/348 [1:24:16<01:22, 13.68s/it] {'loss': 0.0125, 'grad_norm': 0.1953125, 'learning_rate': 1.0579112262316116e-08, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2859.66, 'epoch': 1.96} + 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 342/348 [1:24:16<01:22, 13.68s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 343/348 [1:24:29<01:08, 13.66s/it] {'loss': 0.0312, 'grad_norm': 0.271484375, 'learning_rate': 7.773136505700995e-09, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2585.62, 'epoch': 1.97} + 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 343/348 [1:24:29<01:08, 13.66s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 344/348 [1:24:43<00:54, 13.58s/it] {'loss': 0.0467, 'grad_norm': 0.5234375, 'learning_rate': 5.398438973845954e-09, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.15, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 3047.98, 'epoch': 1.97} + 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 344/348 [1:24:43<00:54, 13.58s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████ | 345/348 [1:24:57<00:41, 13.70s/it] {'loss': 0.0341, 'grad_norm': 0.33984375, 'learning_rate': 3.4552248167507576e-09, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2928.57, 'epoch': 1.98} + 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████ | 345/348 [1:24:57<00:41, 13.70s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 346/348 [1:25:10<00:27, 13.67s/it] {'loss': 0.0179, 'grad_norm': 0.2275390625, 'learning_rate': 1.943661908586636e-09, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2693.28, 'epoch': 1.98} + 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 346/348 [1:25:10<00:27, 13.67s/it] 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 347/348 [1:25:24<00:13, 13.58s/it] {'loss': 0.0238, 'grad_norm': 0.21875, 'learning_rate': 8.638808331973281e-10, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2583.71, 'epoch': 1.99} + 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 347/348 [1:25:24<00:13, 13.58s/it] 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 348/348 [1:25:38<00:00, 13.69s/it] {'loss': 0.0296, 'grad_norm': 0.271484375, 'learning_rate': 2.1597487281366236e-10, 'memory/max_active (GiB)': 90.74, 'memory/max_allocated (GiB)': 89.14, 'memory/device_reserved (GiB)': 93.36, 'tokens_per_second_per_gpu': 2041.17, 'epoch': 1.99} + 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 348/348 [1:25:38<00:00, 13.69s/it][2026-01-06 07:58:31,538] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:5347] Running evaluation step... +[2026-01-06 07:58:34,105] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:5347] generate_batches time: 0.7597558498382568 +[2026-01-06 07:58:34,875] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:5347] generate_batches time: 0.7698726654052734 +[2026-01-06 07:58:35,665] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:5347] generate_batches time: 0.789264440536499 +[2026-01-06 07:58:36,418] [DEBUG] [axolotl.utils.samplers.multipack.__len__:458] [PID:5347] generate_batches time: 0.7527258396148682 +[2026-01-06 07:58:36,548] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:434] [PID:5347] gather_len_batches: [78, 78] +[2026-01-06 07:58:36,549] [WARNING] [py.warnings._showwarnmsg:110] [PID:5347] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/torch/distributed/distributed_c10d.py:4631: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. + warnings.warn( # warn only once + + + 0%| | 0/78 [00:00