diff --git "a/debug.log" "b/debug.log"
--- "a/debug.log"
+++ "b/debug.log"
@@ -1,12 +1,12 @@
-[2025-12-28 11:04:35,744] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:42410] baseline 0.000GB ()
-[2025-12-28 11:04:35,746] [INFO] [axolotl.cli.config.load_cfg:256] [PID:42410] config:
+[2025-12-29 02:49:24,896] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:3751] baseline 0.000GB ()
+[2025-12-29 02:49:24,896] [INFO] [axolotl.cli.config.load_cfg:256] [PID:3751] config:
 {
   "activation_offloading": false,
   "adapter": "lora",
   "axolotl_config_path": "tuner.yaml",
   "base_model": "codellama/CodeLlama-7b-hf",
   "base_model_config": "codellama/CodeLlama-7b-hf",
-  "batch_size": 8,
+  "batch_size": 5,
   "bf16": true,
   "capabilities": {
     "bf16": true,
@@ -17,10 +17,9 @@
   },
   "chat_template": "llama3",
   "context_parallel_size": 1,
-  "dataloader_num_workers": 1,
+  "dataloader_num_workers": 2,
   "dataloader_pin_memory": true,
-  "dataloader_prefetch_factor": 256,
-  "dataset_num_proc": 384,
+  "dataset_num_proc": 96,
   "datasets": [
     {
       "chat_template": "tokenizer_default",
@@ -36,42 +35,13 @@
     }
   ],
   "ddp": false,
-  "deepspeed": {
-    "bf16": {
-      "enabled": true
-    },
-    "fp16": {
-      "enabled": false
-    },
-    "gradient_accumulation_steps": "auto",
-    "gradient_clipping": 1.0,
-    "steps_per_print": 2000,
-    "train_micro_batch_size_per_gpu": "auto",
-    "zero_optimization": {
-      "contiguous_gradients": true,
-      "gather_16bit_weights_on_model_save": true,
-      "offload_optimizer": {
-        "device": "cpu",
-        "pin_memory": true
-      },
-      "offload_param": {
-        "device": "cpu",
-        "pin_memory": true
-      },
-      "overlap_comm": true,
-      "reduce_bucket_size": "auto",
-      "stage": 3,
-      "stage3_param_persistence_threshold": "auto",
-      "stage3_prefetch_bucket_size": "auto"
-    }
-  },
   "device": "cuda:0",
   "dion_rank_fraction": 1.0,
   "dion_rank_multiple_of": 1,
   "env_capabilities": {
     "torch_version": "2.8.0"
   },
-  "eval_batch_size": 4,
+  "eval_batch_size": 5,
   "eval_causal_lm_metrics": [
     "sacrebleu",
     "comet",
@@ -80,18 +50,16 @@
   ],
   "eval_max_new_tokens": 128,
   "eval_sample_packing": true,
-  "eval_steps": 100,
+  "eval_steps": 1000,
   "eval_table_size": 0,
   "experimental_skip_move_to_device": true,
   "fp16": false,
-  "gradient_accumulation_steps": 2,
+  "gradient_accumulation_steps": 1,
   "gradient_checkpointing": true,
   "gradient_checkpointing_kwargs": {
     "use_reentrant": true
   },
   "group_by_length": true,
-  "hub_model_id": "darwinkernelpanic/luau-codellama-7b-reasoning",
-  "hub_strategy": "every_save",
   "include_tkps": true,
   "is_falcon_derived_model": false,
   "is_llama_derived_model": true,
@@ -102,26 +70,26 @@
   "load_in_4bit": false,
   "load_in_8bit": false,
   "local_rank": 0,
-  "logging_steps": 1,
+  "logging_steps": 25,
   "lora_alpha": 32,
   "lora_dropout": 0.05,
   "lora_r": 16,
   "lora_target_modules": [
     "q_proj",
-    "v_proj",
     "k_proj",
+    "v_proj",
     "o_proj"
   ],
   "loraplus_lr_embedding": 1e-06,
   "lr_scheduler": "cosine",
   "mean_resizing_embeddings": false,
-  "micro_batch_size": 4,
+  "micro_batch_size": 5,
   "model_config_type": "llama",
   "num_epochs": 3.0,
   "optimizer": "adamw_torch",
   "otel_metrics_host": "localhost",
   "otel_metrics_port": 8000,
-  "output_dir": "./outputs/luau-codellama-h200",
+  "output_dir": "./outputs/luau-codellama-h200-fast",
   "pad_to_sequence_len": true,
   "pretrain_multipack_attn": true,
   "profiler_steps_start": 0,
@@ -135,7 +103,7 @@
   "sample_packing_group_size": 100000,
   "save_only_model": false,
   "save_safetensors": true,
-  "save_steps": 200,
+  "save_steps": 1000,
   "save_strategy": "steps",
   "save_total_limit": 3,
   "seed": 42,
@@ -175,19 +143,19 @@
     "host": "0.0.0.0",
     "port": 8000
   },
-  "warmup_steps": 10,
+  "warmup_steps": 100,
   "weight_decay": 0.0,
   "world_size": 1
 }
-[2025-12-28 11:04:36,377] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:42410] EOS: 2 / </s>
-[2025-12-28 11:04:36,378] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:42410] BOS: 1 / <s>
-[2025-12-28 11:04:36,378] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:282] [PID:42410] PAD: 2 / </s>
-[2025-12-28 11:04:36,378] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:283] [PID:42410] UNK: 0 / <unk>
-[2025-12-28 11:04:36,378] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:481] [PID:42410] Unable to find prepared dataset in last_run_prepared/b7c17715ff7f64badeb455c51ab5d648
-[2025-12-28 11:04:36,378] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:42410] Loading raw datasets...
-[2025-12-28 11:04:36,378] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:42410] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
-[2025-12-28 11:04:38,127] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:42410] Loading dataset: darwinkernelpanic/luau-reasoning-normalized with base_type: chat_template and prompt_style: None
-[2025-12-28 11:04:38,130] [INFO] [axolotl.prompt_strategies.chat_template.__call__:996] [PID:42410] Using chat template:
+[2025-12-29 02:49:25,389] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:3751] EOS: 2 / </s>
+[2025-12-29 02:49:25,389] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:3751] BOS: 1 / <s>
+[2025-12-29 02:49:25,389] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:282] [PID:3751] PAD: 2 / </s>
+[2025-12-29 02:49:25,389] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:283] [PID:3751] UNK: 0 / <unk>
+[2025-12-29 02:49:25,390] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:481] [PID:3751] Unable to find prepared dataset in last_run_prepared/b7c17715ff7f64badeb455c51ab5d648
+[2025-12-29 02:49:25,390] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:3751] Loading raw datasets...
+[2025-12-29 02:49:25,390] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:3751] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
+[2025-12-29 02:49:26,885] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:3751] Loading dataset: darwinkernelpanic/luau-reasoning-normalized with base_type: chat_template and prompt_style: None
+[2025-12-29 02:49:26,887] [INFO] [axolotl.prompt_strategies.chat_template.__call__:996] [PID:3751] Using chat template:
 ---
 {% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>
 
@@ -196,1771 +164,561 @@
 ' }}{% endif %}
 
 ---
-[2025-12-28 11:04:38,137] [WARNING] [axolotl.prompt_strategies.chat_template._validate_eot_and_eos_tokens:337] [PID:42410] EOS token '</s>' not found in chat_template. Please check if your template/EOS token is correct.
-[2025-12-28 11:04:38,508] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:218] [PID:42410] min_input_len: 636
-[2025-12-28 11:04:38,508] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:220] [PID:42410] max_input_len: 12839
-[2025-12-28 11:04:41,234] [WARNING] [axolotl.utils.data.utils.handle_long_seq_in_dataset:260] [PID:42410] Dropped 755 samples from dataset
-Saving the dataset (0/56 shards):   0%|                                                                                   | 0/14586 [00:00<?, ? examples/s]Saving the dataset (0/56 shards):   2%|█▎                                                                      | 261/14586 [00:01<00:55, 257.60 examples/s]Saving the dataset (1/56 shards):   2%|█▎                                                                      | 261/14586 [00:01<00:55, 257.60 examples/s]Saving the dataset (2/56 shards):   9%|██████▎                                                                | 1305/14586 [00:01<00:51, 257.60 examples/s]Saving the dataset (3/56 shards):   9%|██████▎                                                                | 1305/14586 [00:01<00:51, 257.60 examples/s]Saving the dataset (4/56 shards):   9%|██████▎                                                                | 1305/14586 [00:01<00:51, 257.60 examples/s]Saving the dataset (5/56 shards):   9%|██████▎                                                                | 1305/14586 [00:01<00:51, 257.60 examples/s]Saving the dataset (6/56 shards):  11%|███████▌                                                               | 1566/14586 [00:01<00:50, 257.60 examples/s]Saving the dataset (7/56 shards):  14%|██████████▏                                                            | 2088/14586 [00:01<00:48, 257.60 examples/s]Saving the dataset (8/56 shards):  18%|████████████▋                                                          | 2610/14586 [00:01<00:46, 257.60 examples/s]Saving the dataset (9/56 shards):  18%|████████████▋                                                          | 2610/14586 [00:01<00:46, 257.60 examples/s]Saving the dataset (10/56 shards):  18%|████████████▌                                                         | 2610/14586 [00:01<00:46, 257.60 examples/s]Saving the dataset (11/56 shards):  21%|███████████████                                                       | 3132/14586 [00:01<00:44, 257.60 examples/s]Saving the dataset (12/56 shards):  21%|███████████████                                                       | 3132/14586 [00:01<00:44, 257.60 examples/s]Saving the dataset (13/56 shards):  27%|██████████████████▊                                                   | 3915/14586 [00:01<00:41, 257.60 examples/s]Saving the dataset (14/56 shards):  27%|██████████████████▊                                                   | 3915/14586 [00:01<00:41, 257.60 examples/s]Saving the dataset (15/56 shards):  29%|████████████████████                                                  | 4176/14586 [00:01<00:40, 257.60 examples/s]Saving the dataset (16/56 shards):  29%|████████████████████                                                  | 4176/14586 [00:01<00:40, 257.60 examples/s]Saving the dataset (17/56 shards):  30%|█████████████████████▎                                                | 4437/14586 [00:01<00:39, 257.60 examples/s]Saving the dataset (18/56 shards):  36%|█████████████████████████                                             | 5220/14586 [00:01<00:36, 257.60 examples/s]Saving the dataset (19/56 shards):  36%|█████████████████████████                                             | 5220/14586 [00:01<00:36, 257.60 examples/s]Saving the dataset (20/56 shards):  36%|█████████████████████████                                             | 5220/14586 [00:01<00:36, 257.60 examples/s]Saving the dataset (21/56 shards):  39%|███████████████████████████▌                                          | 5742/14586 [00:01<00:34, 257.60 examples/s]Saving the dataset (22/56 shards):  39%|███████████████████████████▌                                          | 5742/14586 [00:01<00:34, 257.60 examples/s]Saving the dataset (23/56 shards):  45%|███████████████████████████████▎                                      | 6525/14586 [00:01<00:31, 257.60 examples/s]Saving the dataset (24/56 shards):  45%|███████████████████████████████▎                                      | 6525/14586 [00:01<00:31, 257.60 examples/s]Saving the dataset (25/56 shards):  45%|███████████████████████████████▎                                      | 6525/14586 [00:01<00:31, 257.60 examples/s]Saving the dataset (26/56 shards):  50%|███████████████████████████████████                                   | 7306/14586 [00:01<00:28, 257.60 examples/s]Saving the dataset (27/56 shards):  50%|███████████████████████████████████                                   | 7306/14586 [00:01<00:28, 257.60 examples/s]Saving the dataset (28/56 shards):  50%|███████████████████████████████████                                   | 7306/14586 [00:01<00:28, 257.60 examples/s]Saving the dataset (29/56 shards):  52%|████████████████████████████████████▎                                 | 7566/14586 [00:01<00:27, 257.60 examples/s]Saving the dataset (30/56 shards):  55%|██████████████████████████████████████▊                               | 8086/14586 [00:01<00:25, 257.60 examples/s]Saving the dataset (31/56 shards):  57%|████████████████████████████████████████                              | 8346/14586 [00:01<00:24, 257.60 examples/s]Saving the dataset (32/56 shards):  57%|████████████████████████████████████████                              | 8346/14586 [00:01<00:24, 257.60 examples/s]Saving the dataset (33/56 shards):  64%|█████████████████████████████████████████████                         | 9386/14586 [00:01<00:20, 257.60 examples/s]Saving the dataset (34/56 shards):  64%|█████████████████████████████████████████████                         | 9386/14586 [00:01<00:20, 257.60 examples/s]Saving the dataset (35/56 shards):  64%|█████████████████████████████████████████████                         | 9386/14586 [00:01<00:20, 257.60 examples/s]Saving the dataset (36/56 shards):  66%|██████████████████████████████████████████████▎                       | 9646/14586 [00:01<00:19, 257.60 examples/s]Saving the dataset (37/56 shards):  66%|██████████████████████████████████████████████▎                       | 9646/14586 [00:01<00:19, 257.60 examples/s]Saving the dataset (38/56 shards):  68%|███████████████████████████████████████████████▌                      | 9906/14586 [00:01<00:18, 257.60 examples/s]Saving the dataset (39/56 shards):  71%|█████████████████████████████████████████████████▎                   | 10426/14586 [00:01<00:16, 257.60 examples/s]Saving the dataset (40/56 shards):  71%|█████████████████████████████████████████████████▎                   | 10426/14586 [00:01<00:16, 257.60 examples/s]Saving the dataset (41/56 shards):  73%|██████████████████████████████████████████████████▌                  | 10686/14586 [00:01<00:15, 257.60 examples/s]Saving the dataset (42/56 shards):  75%|███████████████████████████████████████████████████▊                 | 10946/14586 [00:01<00:14, 257.60 examples/s]Saving the dataset (43/56 shards):  77%|█████████████████████████████████████████████████████                | 11206/14586 [00:01<00:13, 257.60 examples/s]Saving the dataset (44/56 shards):  80%|███████████████████████████████████████████████████████▍             | 11726/14586 [00:01<00:11, 257.60 examples/s]Saving the dataset (45/56 shards):  80%|███████████████████████████████████████████████████████▍             | 11726/14586 [00:01<00:11, 257.60 examples/s]Saving the dataset (46/56 shards):  86%|███████████████████████████████████████████████████████████▏         | 12506/14586 [00:01<00:08, 257.60 examples/s]Saving the dataset (47/56 shards):  89%|█████████████████████████████████████████████████████████████▌       | 13026/14586 [00:01<00:06, 257.60 examples/s]Saving the dataset (48/56 shards):  91%|██████████████████████████████████████████████████████████████▊      | 13286/14586 [00:01<00:05, 257.60 examples/s]Saving the dataset (49/56 shards):  91%|██████████████████████████████████████████████████████████████▊      | 13286/14586 [00:01<00:05, 257.60 examples/s]Saving the dataset (50/56 shards):  91%|██████████████████████████████████████████████████████████████▊      | 13286/14586 [00:01<00:05, 257.60 examples/s]Saving the dataset (51/56 shards):  91%|██████████████████████████████████████████████████████████████▊      | 13286/14586 [00:01<00:05, 257.60 examples/s]Saving the dataset (52/56 shards):  95%|█████████████████████████████████████████████████████████████████▎   | 13806/14586 [00:01<00:03, 257.60 examples/s]Saving the dataset (53/56 shards):  95%|█████████████████████████████████████████████████████████████████▎   | 13806/14586 [00:01<00:03, 257.60 examples/s]Saving the dataset (54/56 shards):  96%|██████████████████████████████████████████████████████████████████▌  | 14066/14586 [00:01<00:02, 257.60 examples/s]Saving the dataset (55/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:01<00:00, 257.60 examples/s]Saving the dataset (56/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:01<00:00, 257.60 examples/s]Saving the dataset (56/56 shards): 100%|███████████████████████████████████████████████████████████████████| 14586/14586 [00:01<00:00, 13067.01 examples/s]
-[2025-12-28 11:04:48,679] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:42410] total_num_tokens: 1_357_721
-[2025-12-28 11:04:48,684] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:42410] `total_supervised_tokens: 1_271_453`
-[2025-12-28 11:04:48,692] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:49,247] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:49,552] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.3049201965332031
-[2025-12-28 11:04:49,552] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:49,839] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.2874150276184082
-[2025-12-28 11:04:49,840] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:50,133] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.2929878234863281
-[2025-12-28 11:04:50,133] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:50,413] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.27963781356811523
-[2025-12-28 11:04:50,413] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
-[2025-12-28 11:04:50,413] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:483] [PID:42410] data_loader_len: 45
-[2025-12-28 11:04:50,413] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:499] [PID:42410] sample_packing_eff_est across ranks: [0.9131538664342287]
-[2025-12-28 11:04:50,413] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:511] [PID:42410] sample_packing_eff_est: None
-[2025-12-28 11:04:50,413] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:42410] total_num_steps: 135
-[2025-12-28 11:04:50,489] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:42410] total_num_tokens: 25_392_481
-[2025-12-28 11:04:50,608] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:42410] `total_supervised_tokens: 23_772_065`
-[2025-12-28 11:04:50,703] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:51,045] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:51,353] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.30963134765625
-[2025-12-28 11:04:51,355] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:51,664] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.31055235862731934
-[2025-12-28 11:04:51,666] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:51,976] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.3107116222381592
-[2025-12-28 11:04:51,977] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:42410] Using single process for pack_parallel, running sequentially.
-[2025-12-28 11:04:52,284] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.3080286979675293
-[2025-12-28 11:04:52,284] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [1667]
-[2025-12-28 11:04:52,284] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:483] [PID:42410] data_loader_len: 833
-[2025-12-28 11:04:52,284] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:499] [PID:42410] sample_packing_eff_est across ranks: [0.9284613122121649]
-[2025-12-28 11:04:52,284] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:511] [PID:42410] sample_packing_eff_est: 0.93
-[2025-12-28 11:04:52,285] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:42410] total_num_steps: 2499
-[2025-12-28 11:04:52,287] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:42410] Maximum number of steps set at 2499
-[2025-12-28 11:04:52,291] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:42410] loading tokenizer... codellama/CodeLlama-7b-hf
-[2025-12-28 11:04:52,784] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:42410] EOS: 2 / </s>
-[2025-12-28 11:04:52,785] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:42410] BOS: 1 / <s>
-[2025-12-28 11:04:52,785] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:282] [PID:42410] PAD: 2 / </s>
-[2025-12-28 11:04:52,785] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:283] [PID:42410] UNK: 0 / <unk>
-[2025-12-28 11:04:52,785] [DEBUG] [axolotl.train.setup_model_and_tokenizer:82] [PID:42410] Loading model
-[2025-12-28 11:04:52,926] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:42410] Patched Trainer.evaluation_loop with nanmean loss calculation
-[2025-12-28 11:04:52,927] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:42410] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
-[2025-12-28 11:04:52,927] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:301] [PID:42410] Applying multipack dataloader patch for sample packing...
-[2025-12-28 11:04:52,927] [INFO] [axolotl.loaders.patch_manager._patch_llama_sample_packing:430] [PID:42410] Patching llama _prepare_4d_causal_attention_mask*...
-Loading checkpoint shards:   0%|                                                                                                     | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|██████████████████████████████████████████████▌                                              | 1/2 [00:01<00:01,  1.42s/it]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.14it/s]Loading checkpoint shards: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.04it/s]
-generation_config.json:   0%|                                                                                                    | 0.00/116 [00:00<?, ?B/s]generation_config.json: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 116/116 [00:00<00:00, 1.91MB/s]
-[2025-12-28 11:05:00,338] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:347] [PID:42410] Converting modules to torch.bfloat16
-[2025-12-28 11:05:00,339] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:42410] Memory usage after model load 0.500GB (+0.500GB allocated, +0.510GB reserved)
+[2025-12-29 02:49:26,891] [WARNING] [axolotl.prompt_strategies.chat_template._validate_eot_and_eos_tokens:337] [PID:3751] EOS token '</s>' not found in chat_template. Please check if your template/EOS token is correct.
+[2025-12-29 02:49:27,110] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:218] [PID:3751] min_input_len: 636
+[2025-12-29 02:49:27,110] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:220] [PID:3751] max_input_len: 12839
+[2025-12-29 02:49:27,405] [WARNING] [axolotl.utils.data.utils.handle_long_seq_in_dataset:260] [PID:3751] Dropped 755 samples from dataset
+Saving the dataset (0/56 shards):   0%|                                                                                   | 0/14586 [00:00<?, ? examples/s]Saving the dataset (0/56 shards):   2%|█▎                                                                      | 261/14586 [00:00<00:31, 459.80 examples/s]Saving the dataset (1/56 shards):   9%|██████▎                                                                | 1305/14586 [00:00<00:28, 459.80 examples/s]Saving the dataset (2/56 shards):  11%|███████▌                                                               | 1566/14586 [00:00<00:28, 459.80 examples/s]Saving the dataset (3/56 shards):  18%|████████████▋                                                          | 2610/14586 [00:00<00:26, 459.80 examples/s]Saving the dataset (4/56 shards):  21%|███████████████▏                                                       | 3132/14586 [00:00<00:24, 459.80 examples/s]Saving the dataset (5/56 shards):  21%|███████████████▏                                                       | 3132/14586 [00:00<00:24, 459.80 examples/s]Saving the dataset (6/56 shards):  34%|████████████████████████▏                                              | 4959/14586 [00:00<00:20, 459.80 examples/s]Saving the dataset (7/56 shards):  34%|████████████████████████▏                                              | 4959/14586 [00:00<00:20, 459.80 examples/s]Saving the dataset (8/56 shards):  38%|██████████████████████████▋                                            | 5481/14586 [00:00<00:19, 459.80 examples/s]Saving the dataset (9/56 shards):  38%|██████████████████████████▋                                            | 5481/14586 [00:00<00:19, 459.80 examples/s]Saving the dataset (10/56 shards):  43%|██████████████████████████████                                        | 6264/14586 [00:00<00:18, 459.80 examples/s]Saving the dataset (11/56 shards):  79%|██████████████████████████████████████████████████████▏              | 11466/14586 [00:00<00:06, 459.80 examples/s]Saving the dataset (12/56 shards):  79%|██████████████████████████████████████████████████████▏              | 11466/14586 [00:00<00:06, 459.80 examples/s]Saving the dataset (13/56 shards):  95%|█████████████████████████████████████████████████████████████████▎   | 13806/14586 [00:00<00:01, 459.80 examples/s]Saving the dataset (14/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (15/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (16/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (17/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (18/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (19/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (20/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (21/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (22/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (23/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (24/56 shards): 100%|████████████████████████████████████████████████████████████████��████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (25/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (26/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (27/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (28/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (29/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (30/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (31/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (32/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (33/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (34/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (35/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (36/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (37/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (38/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (39/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (40/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (41/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (42/56 shards): 100%|███████���█████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (43/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (44/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (45/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (46/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (47/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (48/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (49/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (50/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (51/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (52/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (53/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (54/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (55/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (56/56 shards): 100%|█████████████████████████████████████████████████████████████████████| 14586/14586 [00:00<00:00, 459.80 examples/s]Saving the dataset (56/56 shards): 100%|███████████████████████████████████████████████████████████████████| 14586/14586 [00:01<00:00, 14250.17 examples/s]
+[2025-12-29 02:49:29,500] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:3751] total_num_tokens: 1_357_721
+[2025-12-29 02:49:29,511] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:3751] `total_supervised_tokens: 1_271_453`
+[2025-12-29 02:49:29,521] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:30,150] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:30,334] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.18436932563781738
+[2025-12-29 02:49:30,334] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:30,489] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.15522313117980957
+[2025-12-29 02:49:30,490] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:30,609] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.11953878402709961
+[2025-12-29 02:49:30,609] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:30,784] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.17447447776794434
+[2025-12-29 02:49:30,820] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:3751] gather_len_batches: [72]
+[2025-12-29 02:49:30,820] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:483] [PID:3751] data_loader_len: 72
+[2025-12-29 02:49:30,820] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:499] [PID:3751] sample_packing_eff_est across ranks: [0.9207634819878472]
+[2025-12-29 02:49:30,821] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:511] [PID:3751] sample_packing_eff_est: None
+[2025-12-29 02:49:30,821] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:3751] total_num_steps: 216
+[2025-12-29 02:49:30,904] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:3751] total_num_tokens: 25_392_481
+[2025-12-29 02:49:31,120] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:3751] `total_supervised_tokens: 23_772_065`
+[2025-12-29 02:49:31,256] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:31,508] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:31,654] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.14696550369262695
+[2025-12-29 02:49:31,656] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:31,804] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.15028667449951172
+[2025-12-29 02:49:31,806] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:31,945] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.14032292366027832
+[2025-12-29 02:49:31,947] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:3751] Using single process for pack_parallel, running sequentially.
+[2025-12-29 02:49:32,123] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.17771100997924805
+[2025-12-29 02:49:32,123] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:3751] gather_len_batches: [1332]
+[2025-12-29 02:49:32,123] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:483] [PID:3751] data_loader_len: 1332
+[2025-12-29 02:49:32,123] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:499] [PID:3751] sample_packing_eff_est across ranks: [0.9298539345493663]
+[2025-12-29 02:49:32,123] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:511] [PID:3751] sample_packing_eff_est: 0.93
+[2025-12-29 02:49:32,123] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:3751] total_num_steps: 3996
+[2025-12-29 02:49:32,124] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:3751] Maximum number of steps set at 3996
+[2025-12-29 02:49:32,129] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:3751] loading tokenizer... codellama/CodeLlama-7b-hf
+[2025-12-29 02:49:32,522] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:3751] EOS: 2 / </s>
+[2025-12-29 02:49:32,522] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:3751] BOS: 1 / <s>
+[2025-12-29 02:49:32,522] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:282] [PID:3751] PAD: 2 / </s>
+[2025-12-29 02:49:32,522] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:283] [PID:3751] UNK: 0 / <unk>
+[2025-12-29 02:49:32,522] [DEBUG] [axolotl.train.setup_model_and_tokenizer:82] [PID:3751] Loading model
+[2025-12-29 02:49:32,640] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:3751] Patched Trainer.evaluation_loop with nanmean loss calculation
+[2025-12-29 02:49:32,642] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:3751] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
+[2025-12-29 02:49:32,642] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:301] [PID:3751] Applying multipack dataloader patch for sample packing...
+[2025-12-29 02:49:32,643] [INFO] [axolotl.loaders.patch_manager._patch_llama_sample_packing:430] [PID:3751] Patching llama _prepare_4d_causal_attention_mask*...
+Loading checkpoint shards:   0%|                                                                                                     | 0/2 [00:00<?, ?it/s]Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 105.69it/s]
+[2025-12-29 02:49:33,346] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:347] [PID:3751] Converting modules to torch.bfloat16
+[2025-12-29 02:49:33,680] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:3751] Memory usage after model load 0.000GB ()
 trainable params: 16,777,216 || all params: 6,755,323,904 || trainable%: 0.2484
-[2025-12-28 11:05:00,457] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:42410] after adapters 0.063GB (+0.063GB allocated, +0.572GB reserved)
-[2025-12-28 11:05:05,368] [INFO] [axolotl.train.save_initial_configs:413] [PID:42410] Pre-saving adapter config to ./outputs/luau-codellama-h200...
-[2025-12-28 11:05:05,368] [INFO] [axolotl.train.save_initial_configs:417] [PID:42410] Pre-saving tokenizer to ./outputs/luau-codellama-h200...
-[2025-12-28 11:05:05,369] [INFO] [axolotl.train.save_initial_configs:422] [PID:42410] Pre-saving model config to ./outputs/luau-codellama-h200...
-[2025-12-28 11:05:05,370] [INFO] [axolotl.train.execute_training:212] [PID:42410] Starting trainer...
-[2025-12-28 11:05:07,213] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.6575620174407959
-[2025-12-28 11:05:07,824] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.6103956699371338
-[2025-12-28 11:05:08,456] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.6313827037811279
-[2025-12-28 11:05:09,110] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.653618574142456
-[2025-12-28 11:05:09,110] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [1666]
-Parameter Offload - Persistent parameters statistics: param_count = 65, numel = 266240
-  0%|                                                                                                                             | 0/2499 [00:00<?, ?it/s][2025-12-28 11:05:36,131] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:42410] Running evaluation step...
-[2025-12-28 11:05:37,595] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.7198138236999512
-[2025-12-28 11:05:38,326] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.7297320365905762
-[2025-12-28 11:05:39,063] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.7372677326202393
-[2025-12-28 11:05:39,815] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.7512753009796143
-[2025-12-28 11:05:39,815] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
-
-  0%|                                                                                                                               | 0/90 [00:00<?, ?it/s][A
-  2%|██▋                                                                                                                    | 2/90 [00:00<00:25,  3.46it/s][A
-  3%|███▉                                                                                                                   | 3/90 [00:01<00:42,  2.04it/s][A
-  4%|█████▎                                                                                                                 | 4/90 [00:02<00:52,  1.65it/s][A
-  6%|██████▌                                                                                                                | 5/90 [00:03<01:06,  1.29it/s][A
-  7%|███████▉                                                                                                               | 6/90 [00:04<01:04,  1.29it/s][A
-  8%|█████████▎                                                                                                             | 7/90 [00:04<01:07,  1.23it/s][A
-  9%|██████████▌                                                                                                            | 8/90 [00:05<01:06,  1.23it/s][A
- 10%|███████████▉                                                                                                           | 9/90 [00:06<01:07,  1.20it/s][A
- 11%|█████████████                                                                                                         | 10/90 [00:07<01:06,  1.21it/s][A
- 12%|██████████████▍                                                                                                       | 11/90 [00:08<01:07,  1.17it/s][A
- 13%|███████████████▋                                                                                                      | 12/90 [00:09<01:05,  1.19it/s][A
- 14%|█████████████████                                                                                                     | 13/90 [00:10<01:06,  1.16it/s][A
- 16%|██████████████████▎                                                                                                   | 14/90 [00:10<01:04,  1.18it/s][A
- 17%|███████████████████▋                                                                                                  | 15/90 [00:11<01:05,  1.15it/s][A
- 18%|████████████████████▉                                                                                                 | 16/90 [00:12<01:02,  1.18it/s][A
- 19%|██████████████████████▎                                                                                               | 17/90 [00:13<01:03,  1.16it/s][A
- 20%|███████████████████████▌                                                                                              | 18/90 [00:14<01:01,  1.18it/s][A
- 21%|████████████████████████▉                                                                                             | 19/90 [00:15<01:01,  1.16it/s][A
- 22%|██████████████████████████▏                                                                                           | 20/90 [00:16<00:59,  1.18it/s][A
- 23%|███████████████████████████▌                                                                                          | 21/90 [00:16<00:59,  1.15it/s][A
- 24%|████████████████████████████▊                                                                                         | 22/90 [00:17<00:57,  1.18it/s][A
- 26%|██████████████████████████████▏                                                                                       | 23/90 [00:18<00:59,  1.13it/s][A
- 27%|███████████████████████████████▍                                                                                      | 24/90 [00:19<00:56,  1.16it/s][A
- 28%|████████████████████████████████▊                                                                                     | 25/90 [00:20<00:57,  1.14it/s][A
- 29%|██████████████████████████████████                                                                                    | 26/90 [00:21<00:54,  1.16it/s][A
- 30%|███████████████████████████████████▍                                                                                  | 27/90 [00:22<00:55,  1.14it/s][A
- 31%|████████████████████████████████████▋                                                                                 | 28/90 [00:22<00:53,  1.17it/s][A
- 32%|██████████████████████████████████████                                                                                | 29/90 [00:23<00:53,  1.14it/s][A
- 33%|███████████████████████████████████████▎                                                                              | 30/90 [00:24<00:51,  1.16it/s][A
- 34%|████████████████████████████████████████▋                                                                             | 31/90 [00:25<00:52,  1.13it/s][A
- 36%|█████████████████████████████████████████▉                                                                            | 32/90 [00:26<00:50,  1.16it/s][A
- 37%|███████████████████████████████████████████▎                                                                          | 33/90 [00:27<00:50,  1.13it/s][A
- 38%|████████████████████████████████████████████▌                                                                         | 34/90 [00:28<00:48,  1.16it/s][A
- 39%|█████████████████████████████████████████████▉                                                                        | 35/90 [00:29<00:48,  1.14it/s][A
- 40%|███████████████████████████████████████████████▏                                                                      | 36/90 [00:29<00:46,  1.17it/s][A
- 41%|████████████████████████████████████████████████▌                                                                     | 37/90 [00:30<00:46,  1.14it/s][A
- 42%|█████████████████████████████████████████████████▊                                                                    | 38/90 [00:31<00:44,  1.17it/s][A
- 43%|███████████████████████████████████████████████████▏                                                                  | 39/90 [00:32<00:44,  1.14it/s][A
- 44%|████████████████████████████████████████████████████▍                                                                 | 40/90 [00:33<00:42,  1.17it/s][A
- 46%|█████████████████████████████████████████████████████▊                                                                | 41/90 [00:34<00:42,  1.15it/s][A
- 47%|███████████████████████████████████████████████████████                                                               | 42/90 [00:35<00:40,  1.17it/s][A
- 48%|████████████████████████████████████████████████████████▍                                                             | 43/90 [00:36<00:40,  1.15it/s][A
- 49%|█████████████████████████████████████████████████████████▋                                                            | 44/90 [00:36<00:39,  1.17it/s][A
- 50%|███████████████████████████████████████████████████████████                                                           | 45/90 [00:37<00:39,  1.15it/s][A
- 51%|████████████████████████████████████████████████████████████▎                                                         | 46/90 [00:38<00:37,  1.17it/s][A
- 52%|█████████████████████████████████████████████████████████████▌                                                        | 47/90 [00:39<00:37,  1.14it/s][A
- 53%|██████████████████████████████████████████████████████████████▉                                                       | 48/90 [00:40<00:36,  1.17it/s][A
- 54%|████████████████████████████████████████████████████████████████▏                                                     | 49/90 [00:41<00:35,  1.15it/s][A
- 56%|█████████████████████████████████████████████████████████████████▌                                                    | 50/90 [00:42<00:34,  1.17it/s][A
- 57%|██████████████████████████████████████████████████████████████████▊                                                   | 51/90 [00:42<00:33,  1.15it/s][A
- 58%|████████████████████████████████████████████████████████████████████▏                                                 | 52/90 [00:43<00:32,  1.17it/s][A
- 59%|█████████████████████████████████████████████████████████████████████▍                                                | 53/90 [00:44<00:32,  1.15it/s][A
- 60%|██████████████████████████████████████████████████████████████████████▊                                               | 54/90 [00:45<00:30,  1.17it/s][A
- 61%|████████████████████████████████████████████████████████████████████████                                              | 55/90 [00:46<00:30,  1.14it/s][A
- 62%|█████████████████████████████████████████████████████████████████████████▍                                            | 56/90 [00:47<00:29,  1.16it/s][A
- 63%|██████████████████████████████████████████████████████████████████████████▋                                           | 57/90 [00:48<00:28,  1.14it/s][A
- 64%|████████████████████████████████████████████████████████████████████████████                                          | 58/90 [00:48<00:27,  1.16it/s][A
- 66%|█████████████████████████████████████████████████████████████████████████████▎                                        | 59/90 [00:49<00:27,  1.14it/s][A
- 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 60/90 [00:50<00:25,  1.16it/s][A
- 68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 61/90 [00:51<00:25,  1.14it/s][A
- 69%|█████████████████████████████████████████████████████████████████████████████████▎                                    | 62/90 [00:52<00:24,  1.16it/s][A
- 70%|██████████████████████████████████████████████████████████████████████████████████▌                                   | 63/90 [00:53<00:23,  1.13it/s][A
- 71%|███████████████████████████████████████████████████████████████████████████████████▉                                  | 64/90 [00:54<00:22,  1.15it/s][A
- 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 65/90 [00:55<00:21,  1.14it/s][A
- 73%|██████████████████████████████████████████████████████████████████████████████████████▌                               | 66/90 [00:55<00:20,  1.16it/s][A
- 74%|███████████████████████████████████████████████████████████████████████████████████████▊                              | 67/90 [00:56<00:20,  1.14it/s][A
- 76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 68/90 [00:57<00:18,  1.17it/s][A
- 77%|██████████████████████████████████████████████████████████████████████████████████████████▍                           | 69/90 [00:58<00:19,  1.06it/s][A
- 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 70/90 [00:59<00:18,  1.11it/s][A
- 79%|█████████████████████████████████████████████████████████████████████████████████████████████                         | 71/90 [01:00<00:17,  1.11it/s][A
- 80%|██████████████████████████████████████████████████████████████████████████████████████████████▍                       | 72/90 [01:01<00:15,  1.14it/s][A
- 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 73/90 [01:02<00:14,  1.13it/s][A
- 82%|█████████████████████████████████████████████████████████████████████████████████████████████████                     | 74/90 [01:03<00:13,  1.16it/s][A
- 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 75/90 [01:03<00:13,  1.13it/s][A
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 76/90 [01:04<00:12,  1.16it/s][A
- 86%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 77/90 [01:05<00:11,  1.13it/s][A
- 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 78/90 [01:06<00:10,  1.16it/s][A
- 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 79/90 [01:07<00:09,  1.13it/s][A
- 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 80/90 [01:08<00:08,  1.16it/s][A
- 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 81/90 [01:09<00:07,  1.14it/s][A
- 91%|█████████████████████████��█████████████████████████████████████████████████████████████████████████████████▌          | 82/90 [01:09<00:06,  1.16it/s][A
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 83/90 [01:10<00:06,  1.14it/s][A
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 84/90 [01:11<00:05,  1.16it/s][A
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 85/90 [01:12<00:04,  1.13it/s][A
- 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 86/90 [01:13<00:03,  1.16it/s][A
- 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 87/90 [01:14<00:02,  1.15it/s][A
- 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 88/90 [01:15<00:01,  1.17it/s][A
- 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 89/90 [01:16<00:00,  1.15it/s][A
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:16<00:00,  1.16it/s][A                                                                                                                                                           
-                                                                                                                                                           [A{'eval_loss': 1.6886017322540283, 'eval_runtime': 79.9199, 'eval_samples_per_second': 9.134, 'eval_steps_per_second': 2.29, 'eval_ppl': 5.4119, 'memory/max_active (GiB)': 11.16, 'memory/max_allocated (GiB)': 5.19, 'memory/device_reserved (GiB)': 13.81, 'epoch': 0}
-  0%|                                                                                                                             | 0/2499 [01:23<?, ?it/s]
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.16it/s][A
-                                                                                                                                                           [A  0%|                                                                                                                  | 1/2499 [01:32<64:06:25, 92.39s/it]                                                                                                                                                           {'loss': 2.0336, 'grad_norm': 1.6855894327163696, 'learning_rate': 0.0, 'ppl': 7.6415, 'memory/max_active (GiB)': 16.07, 'memory/max_allocated (GiB)': 10.54, 'memory/device_reserved (GiB)': 18.02, 'tokens_per_second_per_gpu': 197269.0, 'total_tokens': 1298183, 'epoch': 0.0}
-  0%|                                                                                                                  | 1/2499 [01:32<64:06:25, 92.39s/it]  0%|                                                                                                                  | 2/2499 [01:38<28:57:02, 41.74s/it]                                                                                                                                                           {'loss': 1.7737, 'grad_norm': 1.1572575569152832, 'learning_rate': 2e-05, 'ppl': 5.8926, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 19.97, 'tokens_per_second_per_gpu': 4746.09, 'total_tokens': 1327999, 'epoch': 0.0}
-  0%|                                                                                                                  | 2/2499 [01:38<28:57:02, 41.74s/it]  0%|▏                                                                                                                 | 3/2499 [01:44<17:42:14, 25.53s/it]                                                                                                                                                           {'loss': 1.85, 'grad_norm': 1.594330072402954, 'learning_rate': 4e-05, 'ppl': 6.3598, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 19.99, 'tokens_per_second_per_gpu': 4622.21, 'total_tokens': 1356883, 'epoch': 0.0}
-  0%|▏                                                                                                                 | 3/2499 [01:44<17:42:14, 25.53s/it]  0%|▏                                                                                                                 | 4/2499 [01:51<12:25:28, 17.93s/it]                                                                                                                                                           {'loss': 1.6567, 'grad_norm': 1.557888150215149, 'learning_rate': 6e-05, 'ppl': 5.242, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 19.99, 'tokens_per_second_per_gpu': 4690.94, 'total_tokens': 1386261, 'epoch': 0.0}
-  0%|▏                                                                                                                 | 4/2499 [01:51<12:25:28, 17.93s/it]  0%|▏                                                                                                                  | 5/2499 [01:57<9:30:55, 13.74s/it]                                                                                                                                                           {'loss': 1.9046, 'grad_norm': 1.6567342281341553, 'learning_rate': 8e-05, 'ppl': 6.7167, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4507.97, 'total_tokens': 1414659, 'epoch': 0.01}
-  0%|▏                                                                                                                  | 5/2499 [01:57<9:30:55, 13.74s/it]  0%|▎                                                                                                                  | 6/2499 [02:03<7:45:45, 11.21s/it]                                                                                                                                                           {'loss': 1.8432, 'grad_norm': 1.6043676137924194, 'learning_rate': 0.0001, 'ppl': 6.3167, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4597.87, 'total_tokens': 1443641, 'epoch': 0.01}
-  0%|▎                                                                                                                  | 6/2499 [02:03<7:45:45, 11.21s/it]  0%|▎                                                                                                                  | 7/2499 [02:10<6:38:32,  9.60s/it]                                                                                                                                                           {'loss': 1.492, 'grad_norm': 1.2741687297821045, 'learning_rate': 0.00012, 'ppl': 4.446, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4542.53, 'total_tokens': 1472125, 'epoch': 0.01}
-  0%|▎                                                                                                                  | 7/2499 [02:10<6:38:32,  9.60s/it]  0%|▎                                                                                                                  | 8/2499 [02:16<5:54:25,  8.54s/it]                                                                                                                                                           {'loss': 1.4809, 'grad_norm': 1.3272074460983276, 'learning_rate': 0.00014, 'ppl': 4.3969, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4670.47, 'total_tokens': 1501396, 'epoch': 0.01}
-  0%|▎                                                                                                                  | 8/2499 [02:16<5:54:25,  8.54s/it]  0%|▍                                                                                                                  | 9/2499 [02:22<5:24:48,  7.83s/it]                                                                                                                                                           {'loss': 1.238, 'grad_norm': 1.0670270919799805, 'learning_rate': 0.00016, 'ppl': 3.4487, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4547.02, 'total_tokens': 1529874, 'epoch': 0.01}
-  0%|▍                                                                                                                  | 9/2499 [02:22<5:24:48,  7.83s/it]  0%|▍                                                                                                                 | 10/2499 [02:28<5:04:46,  7.35s/it]                                                                                                                                                           {'loss': 1.2017, 'grad_norm': 0.9426001906394958, 'learning_rate': 0.00018, 'ppl': 3.3258, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4686.7, 'total_tokens': 1559258, 'epoch': 0.01}
-  0%|▍                                                                                                                 | 10/2499 [02:28<5:04:46,  7.35s/it]  0%|▌                                                                                                                 | 11/2499 [02:35<4:51:01,  7.02s/it]                                                                                                                                                           {'loss': 1.1605, 'grad_norm': 0.8342238664627075, 'learning_rate': 0.0002, 'ppl': 3.1915, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4637.04, 'total_tokens': 1588337, 'epoch': 0.01}
-  0%|▌                                                                                                                 | 11/2499 [02:35<4:51:01,  7.02s/it]  0%|▌                                                                                                                 | 12/2499 [02:41<4:42:06,  6.81s/it]                                                                                                                                                           {'loss': 1.2037, 'grad_norm': 0.9213444590568542, 'learning_rate': 0.00019999992034374237, 'ppl': 3.3324, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4643.51, 'total_tokens': 1617675, 'epoch': 0.01}
-  0%|▌                                                                                                                 | 12/2499 [02:41<4:42:06,  6.81s/it]  1%|▌                                                                                                                 | 13/2499 [02:47<4:35:33,  6.65s/it]                                                                                                                                                           {'loss': 1.0463, 'grad_norm': 0.5648354887962341, 'learning_rate': 0.0001999996813750963, 'ppl': 2.8471, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4691.68, 'total_tokens': 1647182, 'epoch': 0.02}
-  1%|▌                                                                                                                 | 13/2499 [02:47<4:35:33,  6.65s/it]  1%|▋                                                                                                                 | 14/2499 [02:54<4:30:45,  6.54s/it]                                                                                                                                                           {'loss': 1.0009, 'grad_norm': 0.4093482494354248, 'learning_rate': 0.0001999992830944426, 'ppl': 2.7207, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4583.72, 'total_tokens': 1675932, 'epoch': 0.02}
-  1%|▋                                                                                                                 | 14/2499 [02:54<4:30:45,  6.54s/it]  1%|▋                                                                                                                 | 15/2499 [03:00<4:27:25,  6.46s/it]                                                                                                                                                           {'loss': 1.0439, 'grad_norm': 0.6911133527755737, 'learning_rate': 0.0001999987255024157, 'ppl': 2.8403, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4700.02, 'total_tokens': 1705435, 'epoch': 0.02}
-  1%|▋                                                                                                                 | 15/2499 [03:00<4:27:25,  6.46s/it]  1%|▋                                                                                                                 | 16/2499 [03:06<4:24:59,  6.40s/it]                                                                                                                                                           {'loss': 1.0052, 'grad_norm': 0.647537112236023, 'learning_rate': 0.0001999980085999039, 'ppl': 2.7325, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4640.77, 'total_tokens': 1734534, 'epoch': 0.02}
-  1%|▋                                                                                                                 | 16/2499 [03:06<4:24:59,  6.40s/it]  1%|▊                                                                                                                 | 17/2499 [03:12<4:23:03,  6.36s/it]                                                                                                                                                           {'loss': 0.8606, 'grad_norm': 0.24260607361793518, 'learning_rate': 0.0001999971323880494, 'ppl': 2.3646, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4574.84, 'total_tokens': 1763148, 'epoch': 0.02}
-  1%|▊                                                                                                                 | 17/2499 [03:12<4:23:03,  6.36s/it]  1%|▊                                                                                                                 | 18/2499 [03:19<4:21:50,  6.33s/it]                                                                                                                                                           {'loss': 0.9237, 'grad_norm': 0.34218189120292664, 'learning_rate': 0.00019999609686824802, 'ppl': 2.5186, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4659.05, 'total_tokens': 1792345, 'epoch': 0.02}
-  1%|▊                                                                                                                 | 18/2499 [03:19<4:21:50,  6.33s/it]  1%|▊                                                                                                                 | 19/2499 [03:25<4:21:38,  6.33s/it]                                                                                                                                                           {'loss': 0.8695, 'grad_norm': 0.6931776404380798, 'learning_rate': 0.00019999490204214958, 'ppl': 2.3857, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4737.23, 'total_tokens': 1822296, 'epoch': 0.02}
-  1%|▊                                                                                                                 | 19/2499 [03:25<4:21:38,  6.33s/it]  1%|▉                                                                                                                 | 20/2499 [03:31<4:21:01,  6.32s/it]                                                                                                                                                           {'loss': 0.8121, 'grad_norm': 0.29975464940071106, 'learning_rate': 0.00019999354791165749, 'ppl': 2.2526, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4681.06, 'total_tokens': 1851717, 'epoch': 0.02}
-  1%|▉                                                                                                                 | 20/2499 [03:31<4:21:01,  6.32s/it]  1%|▉                                                                                                                 | 21/2499 [03:38<4:20:42,  6.31s/it]                                                                                                                                                           {'loss': 0.8624, 'grad_norm': 0.25352585315704346, 'learning_rate': 0.0001999920344789291, 'ppl': 2.3688, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4727.48, 'total_tokens': 1881491, 'epoch': 0.03}
-  1%|▉                                                                                                                 | 21/2499 [03:38<4:20:42,  6.31s/it]  1%|█                                                                                                                 | 22/2499 [03:44<4:20:30,  6.31s/it]                                                                                                                                                           {'loss': 0.8812, 'grad_norm': 0.3950115144252777, 'learning_rate': 0.00019999036174637546, 'ppl': 2.4138, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4758.76, 'total_tokens': 1911483, 'epoch': 0.03}
-  1%|█                                                                                                                 | 22/2499 [03:44<4:20:30,  6.31s/it]  1%|█                                                                                                                 | 23/2499 [03:50<4:19:54,  6.30s/it]                                                                                                                                                           {'loss': 0.819, 'grad_norm': 0.24307860434055328, 'learning_rate': 0.0001999885297166615, 'ppl': 2.2682, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4582.96, 'total_tokens': 1940207, 'epoch': 0.03}
-  1%|█                                                                                                                 | 23/2499 [03:50<4:19:54,  6.30s/it]  1%|█                                                                                                                 | 24/2499 [03:56<4:19:14,  6.28s/it]                                                                                                                                                           {'loss': 0.7642, 'grad_norm': 0.17830020189285278, 'learning_rate': 0.00019998653839270583, 'ppl': 2.1473, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4526.68, 'total_tokens': 1968501, 'epoch': 0.03}
-  1%|█                                                                                                                 | 24/2499 [03:56<4:19:14,  6.28s/it]  1%|█▏                                                                                                                | 25/2499 [04:03<4:19:12,  6.29s/it]                                                                                                                                                           {'loss': 0.7952, 'grad_norm': 0.1788649559020996, 'learning_rate': 0.0001999843877776809, 'ppl': 2.2149, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4562.49, 'total_tokens': 1997194, 'epoch': 0.03}
-  1%|█▏                                                                                                                | 25/2499 [04:03<4:19:12,  6.29s/it]  1%|█▏                                                                                                                | 26/2499 [04:09<4:19:12,  6.29s/it]                                                                                                                                                           {'loss': 0.8073, 'grad_norm': 0.24912691116333008, 'learning_rate': 0.00019998207787501286, 'ppl': 2.2418, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4474.8, 'total_tokens': 2025344, 'epoch': 0.03}
-  1%|█▏                                                                                                                | 26/2499 [04:09<4:19:12,  6.29s/it]  1%|█▏                                                                                                                | 27/2499 [04:15<4:18:55,  6.28s/it]                                                                                                                                                           {'loss': 0.7831, 'grad_norm': 0.21209484338760376, 'learning_rate': 0.00019997960868838174, 'ppl': 2.1882, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4661.31, 'total_tokens': 2054571, 'epoch': 0.03}
-  1%|█▏                                                                                                                | 27/2499 [04:15<4:18:55,  6.28s/it]  1%|█▎                                                                                                                | 28/2499 [04:21<4:18:38,  6.28s/it]                                                                                                                                                           {'loss': 0.7746, 'grad_norm': 0.216914564371109, 'learning_rate': 0.0001999769802217212, 'ppl': 2.1697, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4733.21, 'total_tokens': 2084241, 'epoch': 0.03}
-  1%|█▎                                                                                                                | 28/2499 [04:21<4:18:38,  6.28s/it]  1%|█▎                                                                                                                | 29/2499 [04:28<4:18:15,  6.27s/it]                                                                                                                                                           {'loss': 0.8475, 'grad_norm': 0.207558274269104, 'learning_rate': 0.0001999741924792188, 'ppl': 2.3338, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4546.06, 'total_tokens': 2112679, 'epoch': 0.03}
-  1%|█▎                                                                                                                | 29/2499 [04:28<4:18:15,  6.27s/it]  1%|█▎                                                                                                                | 30/2499 [04:34<4:17:50,  6.27s/it]                                                                                                                                                           {'loss': 0.7692, 'grad_norm': 0.21438081562519073, 'learning_rate': 0.0001999712454653157, 'ppl': 2.158, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4561.33, 'total_tokens': 2141169, 'epoch': 0.04}
-  1%|█▎                                                                                                                | 30/2499 [04:34<4:17:50,  6.27s/it]  1%|█▍                                                                                                                | 31/2499 [04:40<4:17:31,  6.26s/it]                                                                                                                                                           {'loss': 0.7869, 'grad_norm': 0.16961662471294403, 'learning_rate': 0.00019996813918470686, 'ppl': 2.1966, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4358.55, 'total_tokens': 2168390, 'epoch': 0.04}
-  1%|█▍                                                                                                                | 31/2499 [04:40<4:17:31,  6.26s/it]  1%|█▍                                                                                                                | 32/2499 [04:47<4:17:50,  6.27s/it]                                                                                                                                                           {'loss': 0.8634, 'grad_norm': 0.18904076516628265, 'learning_rate': 0.000199964873642341, 'ppl': 2.3712, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4506.81, 'total_tokens': 2196748, 'epoch': 0.04}
-  1%|█▍                                                                                                                | 32/2499 [04:47<4:17:50,  6.27s/it]  1%|█▌                                                                                                                | 33/2499 [04:53<4:18:20,  6.29s/it]                                                                                                                                                           {'loss': 0.7711, 'grad_norm': 0.16406087577342987, 'learning_rate': 0.0001999614488434205, 'ppl': 2.1621, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4605.35, 'total_tokens': 2225839, 'epoch': 0.04}
-  1%|█▌                                                                                                                | 33/2499 [04:53<4:18:20,  6.29s/it]  1%|█▌                                                                                                                | 34/2499 [04:59<4:18:37,  6.30s/it]                                                                                                                                                           {'loss': 0.7774, 'grad_norm': 0.15022194385528564, 'learning_rate': 0.00019995786479340156, 'ppl': 2.1758, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4747.45, 'total_tokens': 2255812, 'epoch': 0.04}
-  1%|█▌                                                                                                                | 34/2499 [04:59<4:18:37,  6.30s/it]  1%|█▌                                                                                                                | 35/2499 [05:05<4:18:16,  6.29s/it]                                                                                                                                                           {'loss': 0.6847, 'grad_norm': 0.11543940007686615, 'learning_rate': 0.00019995412149799395, 'ppl': 1.9832, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4510.07, 'total_tokens': 2284100, 'epoch': 0.04}
-  1%|█▌                                                                                                                | 35/2499 [05:05<4:18:16,  6.29s/it]  1%|█▋                                                                                                                | 36/2499 [05:12<4:17:51,  6.28s/it]                                                                                                                                                           {'loss': 0.7787, 'grad_norm': 0.1670907884836197, 'learning_rate': 0.00019995021896316128, 'ppl': 2.1786, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4492.67, 'total_tokens': 2312230, 'epoch': 0.04}
-  1%|█▋                                                                                                                | 36/2499 [05:12<4:17:51,  6.28s/it]  1%|█▋                                                                                                                | 37/2499 [05:18<4:17:29,  6.28s/it]                                                                                                                                                           {'loss': 0.7615, 'grad_norm': 0.19045475125312805, 'learning_rate': 0.00019994615719512072, 'ppl': 2.1415, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4537.58, 'total_tokens': 2340625, 'epoch': 0.04}
-  1%|█▋                                                                                                                | 37/2499 [05:18<4:17:29,  6.28s/it]  2%|█▋                                                                                                                | 38/2499 [05:24<4:17:12,  6.27s/it]                                                                                                                                                           {'loss': 0.841, 'grad_norm': 0.13640637695789337, 'learning_rate': 0.00019994193620034314, 'ppl': 2.3187, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4534.95, 'total_tokens': 2369006, 'epoch': 0.05}
-  2%|█▋                                                                                                                | 38/2499 [05:24<4:17:12,  6.27s/it]  2%|█▊                                                                                                                | 39/2499 [05:31<4:17:41,  6.28s/it]                                                                                                                                                           {'loss': 0.8279, 'grad_norm': 0.15840484201908112, 'learning_rate': 0.00019993755598555322, 'ppl': 2.2885, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4723.1, 'total_tokens': 2398832, 'epoch': 0.05}
-  2%|█▊                                                                                                                | 39/2499 [05:31<4:17:41,  6.28s/it]  2%|█▊                                                                                                                | 40/2499 [05:37<4:17:47,  6.29s/it]                                                                                                                                                           {'loss': 0.6928, 'grad_norm': 0.13987034559249878, 'learning_rate': 0.0001999330165577291, 'ppl': 1.9993, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4510.37, 'total_tokens': 2427243, 'epoch': 0.05}
-  2%|█▊                                                                                                                | 40/2499 [05:37<4:17:47,  6.29s/it]  2%|█▊                                                                                                                | 41/2499 [05:43<4:17:35,  6.29s/it]                                                                                                                                                           {'loss': 0.7248, 'grad_norm': 0.13921092450618744, 'learning_rate': 0.00019992831792410272, 'ppl': 2.0643, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4685.94, 'total_tokens': 2456661, 'epoch': 0.05}
-  2%|█▊                                                                                                                | 41/2499 [05:43<4:17:35,  6.29s/it]  2%|█▉                                                                                                                | 42/2499 [05:49<4:17:18,  6.28s/it]                                                                                                                                                           {'loss': 0.7406, 'grad_norm': 0.12492494285106659, 'learning_rate': 0.0001999234600921595, 'ppl': 2.0972, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4612.0, 'total_tokens': 2485581, 'epoch': 0.05}
-  2%|█▉                                                                                                                | 42/2499 [05:49<4:17:18,  6.28s/it]  2%|█▉                                                                                                                | 43/2499 [05:56<4:17:02,  6.28s/it]                                                                                                                                                           {'loss': 0.7535, 'grad_norm': 0.12467890232801437, 'learning_rate': 0.00019991844306963872, 'ppl': 2.1244, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4568.82, 'total_tokens': 2514221, 'epoch': 0.05}
-  2%|█▉                                                                                                                | 43/2499 [05:56<4:17:02,  6.28s/it]  2%|██                                                                                                                | 44/2499 [06:02<4:16:41,  6.27s/it]                                                                                                                                                           {'loss': 0.7356, 'grad_norm': 0.1306881159543991, 'learning_rate': 0.000199913266864533, 'ppl': 2.0867, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4386.29, 'total_tokens': 2541665, 'epoch': 0.05}
-  2%|██                                                                                                                | 44/2499 [06:02<4:16:41,  6.27s/it]  2%|██                                                                                                                | 45/2499 [06:08<4:16:23,  6.27s/it]                                                                                                                                                           {'loss': 0.7163, 'grad_norm': 0.1349906027317047, 'learning_rate': 0.0001999079314850887, 'ppl': 2.0468, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4404.7, 'total_tokens': 2569218, 'epoch': 0.05}
-  2%|██                                                                                                                | 45/2499 [06:08<4:16:23,  6.27s/it]  2%|██                                                                                                                | 46/2499 [06:15<4:16:55,  6.28s/it]                                                                                                                                                           {'loss': 0.6931, 'grad_norm': 0.14203360676765442, 'learning_rate': 0.0001999024369398058, 'ppl': 1.9999, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4625.96, 'total_tokens': 2598443, 'epoch': 0.06}
-  2%|██                                                                                                                | 46/2499 [06:15<4:16:55,  6.28s/it]  2%|██▏                                                                                                               | 47/2499 [06:21<4:17:25,  6.30s/it]                                                                                                                                                           {'loss': 0.7034, 'grad_norm': 0.1235819086432457, 'learning_rate': 0.00019989678323743774, 'ppl': 2.0206, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4575.29, 'total_tokens': 2627402, 'epoch': 0.06}
-  2%|██▏                                                                                                               | 47/2499 [06:21<4:17:25,  6.30s/it]  2%|██▏                                                                                                               | 48/2499 [06:27<4:17:16,  6.30s/it]                                                                                                                                                           {'loss': 0.7176, 'grad_norm': 0.14084498584270477, 'learning_rate': 0.00019989097038699164, 'ppl': 2.0495, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4732.23, 'total_tokens': 2657177, 'epoch': 0.06}
-  2%|██▏                                                                                                               | 48/2499 [06:27<4:17:16,  6.30s/it]  2%|██▏                                                                                                               | 49/2499 [06:33<4:17:13,  6.30s/it]                                                                                                                                                           {'loss': 0.7038, 'grad_norm': 0.12469019740819931, 'learning_rate': 0.00019988499839772804, 'ppl': 2.0214, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4607.81, 'total_tokens': 2686207, 'epoch': 0.06}
-  2%|██▏                                                                                                               | 49/2499 [06:33<4:17:13,  6.30s/it]  2%|██▎                                                                                                               | 50/2499 [06:40<4:16:45,  6.29s/it]                                                                                                                                                           {'loss': 0.6652, 'grad_norm': 0.12172164767980576, 'learning_rate': 0.0001998788672791611, 'ppl': 1.9449, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4587.16, 'total_tokens': 2714952, 'epoch': 0.06}
-  2%|██▎                                                                                                               | 50/2499 [06:40<4:16:45,  6.29s/it]  2%|██▎                                                                                                               | 51/2499 [06:46<4:16:32,  6.29s/it]                                                                                                                                                           {'loss': 0.7439, 'grad_norm': 0.12937241792678833, 'learning_rate': 0.00019987257704105844, 'ppl': 2.1041, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4660.7, 'total_tokens': 2744218, 'epoch': 0.06}
-  2%|██▎                                                                                                               | 51/2499 [06:46<4:16:32,  6.29s/it]  2%|██▎                                                                                                               | 52/2499 [06:52<4:16:41,  6.29s/it]                                                                                                                                                           {'loss': 0.7108, 'grad_norm': 0.1375284045934677, 'learning_rate': 0.0001998661276934412, 'ppl': 2.0356, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4450.95, 'total_tokens': 2772286, 'epoch': 0.06}
-  2%|██▎                                                                                                               | 52/2499 [06:52<4:16:41,  6.29s/it]  2%|██▍                                                                                                               | 53/2499 [06:59<4:16:42,  6.30s/it]                                                                                                                                                           {'loss': 0.7404, 'grad_norm': 0.12681901454925537, 'learning_rate': 0.000199859519246584, 'ppl': 2.0968, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4493.7, 'total_tokens': 2800601, 'epoch': 0.06}
-  2%|██▍                                                                                                               | 53/2499 [06:59<4:16:42,  6.30s/it]  2%|██▍                                                                                                               | 54/2499 [07:05<4:16:46,  6.30s/it]                                                                                                                                                           {'loss': 0.7666, 'grad_norm': 0.1492014229297638, 'learning_rate': 0.00019985275171101495, 'ppl': 2.1524, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4497.77, 'total_tokens': 2828969, 'epoch': 0.06}
-  2%|██▍                                                                                                               | 54/2499 [07:05<4:16:46,  6.30s/it]  2%|██▌                                                                                                               | 55/2499 [07:11<4:16:50,  6.31s/it]                                                                                                                                                           {'loss': 0.723, 'grad_norm': 0.12260715663433075, 'learning_rate': 0.00019984582509751552, 'ppl': 2.0606, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4470.31, 'total_tokens': 2857188, 'epoch': 0.07}
-  2%|██▌                                                                                                               | 55/2499 [07:11<4:16:50,  6.31s/it]  2%|██▌                                                                                                               | 56/2499 [07:18<4:16:52,  6.31s/it]                                                                                                                                                           {'loss': 0.7153, 'grad_norm': 0.1511772871017456, 'learning_rate': 0.00019983873941712072, 'ppl': 2.0448, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4408.94, 'total_tokens': 2885021, 'epoch': 0.07}
-  2%|██▌                                                                                                               | 56/2499 [07:18<4:16:52,  6.31s/it]  2%|██▌                                                                                                               | 57/2499 [07:24<4:16:36,  6.31s/it]                                                                                                                                                           {'loss': 0.6686, 'grad_norm': 0.12503519654273987, 'learning_rate': 0.00019983149468111894, 'ppl': 1.9515, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4573.97, 'total_tokens': 2913799, 'epoch': 0.07}
-  2%|██▌                                                                                                               | 57/2499 [07:24<4:16:36,  6.31s/it]  2%|██▋                                                                                                               | 58/2499 [07:30<4:16:27,  6.30s/it]                                                                                                                                                           {'loss': 0.7522, 'grad_norm': 0.12792782485485077, 'learning_rate': 0.0001998240909010519, 'ppl': 2.1217, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4703.97, 'total_tokens': 2943426, 'epoch': 0.07}
-  2%|██▋                                                                                                               | 58/2499 [07:30<4:16:27,  6.30s/it]  2%|██▋                                                                                                               | 59/2499 [07:36<4:16:22,  6.30s/it]                                                                                                                                                           {'loss': 0.6882, 'grad_norm': 0.12937703728675842, 'learning_rate': 0.00019981652808871475, 'ppl': 1.9901, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4699.04, 'total_tokens': 2973043, 'epoch': 0.07}
-  2%|██▋                                                                                                               | 59/2499 [07:36<4:16:22,  6.30s/it]  2%|██▋                                                                                                               | 60/2499 [07:43<4:16:07,  6.30s/it]                                                                                                                                                           {'loss': 0.6602, 'grad_norm': 0.12878933548927307, 'learning_rate': 0.00019980880625615604, 'ppl': 1.9352, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4500.91, 'total_tokens': 3001352, 'epoch': 0.07}
-  2%|██▋                                                                                                               | 60/2499 [07:43<4:16:07,  6.30s/it]  2%|██▊                                                                                                               | 61/2499 [07:49<4:15:36,  6.29s/it]                                                                                                                                                           {'loss': 0.6685, 'grad_norm': 0.13316965103149414, 'learning_rate': 0.00019980092541567763, 'ppl': 1.9513, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4517.16, 'total_tokens': 3029652, 'epoch': 0.07}
-  2%|██▊                                                                                                               | 61/2499 [07:49<4:15:36,  6.29s/it]  2%|██▊                                                                                                               | 62/2499 [07:55<4:15:45,  6.30s/it]                                                                                                                                                           {'loss': 0.7736, 'grad_norm': 0.12971599400043488, 'learning_rate': 0.0001997928855798346, 'ppl': 2.1676, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4444.53, 'total_tokens': 3057692, 'epoch': 0.07}
-  2%|██▊                                                                                                               | 62/2499 [07:55<4:15:45,  6.30s/it]  3%|██▊                                                                                                               | 63/2499 [08:02<4:15:43,  6.30s/it]                                                                                                                                                           {'loss': 0.6215, 'grad_norm': 0.11753156036138535, 'learning_rate': 0.0001997846867614355, 'ppl': 1.8617, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4651.6, 'total_tokens': 3086990, 'epoch': 0.08}
-  3%|██▊                                                                                                               | 63/2499 [08:02<4:15:43,  6.30s/it]  3%|██▉                                                                                                               | 64/2499 [08:08<4:15:42,  6.30s/it]                                                                                                                                                           {'loss': 0.6703, 'grad_norm': 0.14658862352371216, 'learning_rate': 0.00019977632897354202, 'ppl': 1.9548, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4746.31, 'total_tokens': 3116909, 'epoch': 0.08}
-  3%|██▉                                                                                                               | 64/2499 [08:08<4:15:42,  6.30s/it]  3%|██▉                                                                                                               | 65/2499 [08:14<4:15:28,  6.30s/it]                                                                                                                                                           {'loss': 0.6798, 'grad_norm': 0.12969624996185303, 'learning_rate': 0.00019976781222946918, 'ppl': 1.9735, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4652.71, 'total_tokens': 3146161, 'epoch': 0.08}
-  3%|██▉                                                                                                               | 65/2499 [08:14<4:15:28,  6.30s/it]  3%|███                                                                                                               | 66/2499 [08:21<4:15:23,  6.30s/it]                                                                                                                                                           {'loss': 0.6765, 'grad_norm': 0.20642466843128204, 'learning_rate': 0.00019975913654278525, 'ppl': 1.967, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4720.42, 'total_tokens': 3175889, 'epoch': 0.08}
-  3%|███                                                                                                               | 66/2499 [08:21<4:15:23,  6.30s/it]  3%|███                                                                                                               | 67/2499 [08:27<4:14:54,  6.29s/it]                                                                                                                                                           {'loss': 0.6657, 'grad_norm': 0.12067057937383652, 'learning_rate': 0.0001997503019273116, 'ppl': 1.9459, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4506.21, 'total_tokens': 3204118, 'epoch': 0.08}
-  3%|███                                                                                                               | 67/2499 [08:27<4:14:54,  6.29s/it]  3%|███                                                                                                               | 68/2499 [08:33<4:14:44,  6.29s/it]                                                                                                                                                           {'loss': 0.6175, 'grad_norm': 0.12278411537408829, 'learning_rate': 0.000199741308397123, 'ppl': 1.8543, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4567.1, 'total_tokens': 3232803, 'epoch': 0.08}
-  3%|███                                                                                                               | 68/2499 [08:33<4:14:44,  6.29s/it]  3%|███▏                                                                                                              | 69/2499 [08:39<4:15:04,  6.30s/it]                                                                                                                                                           {'loss': 0.6619, 'grad_norm': 0.13150422275066376, 'learning_rate': 0.00019973215596654715, 'ppl': 1.9385, 'memory/max_active (GiB)': 17.82, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4495.32, 'total_tokens': 3261216, 'epoch': 0.08}
-  3%|███▏                                                                                                              | 69/2499 [08:39<4:15:04,  6.30s/it]  3%|███▏                                                                                                              | 70/2499 [08:46<4:14:55,  6.30s/it]                                                                                                                                                           {'loss': 0.7218, 'grad_norm': 0.1392705738544464, 'learning_rate': 0.0001997228446501651, 'ppl': 2.0581, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4586.02, 'total_tokens': 3290070, 'epoch': 0.08}
-  3%|███▏                                                                                                              | 70/2499 [08:46<4:14:55,  6.30s/it]  3%|███▏                                                                                                              | 71/2499 [08:52<4:14:32,  6.29s/it]                                                                                                                                                           {'loss': 0.7086, 'grad_norm': 0.15434479713439941, 'learning_rate': 0.00019971337446281087, 'ppl': 2.0311, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4580.13, 'total_tokens': 3318793, 'epoch': 0.09}
-  3%|███▏                                                                                                              | 71/2499 [08:52<4:14:32,  6.29s/it]  3%|███▎                                                                                                              | 72/2499 [08:58<4:14:10,  6.28s/it]                                                                                                                                                           {'loss': 0.7222, 'grad_norm': 0.1450231820344925, 'learning_rate': 0.00019970374541957174, 'ppl': 2.059, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4561.96, 'total_tokens': 3347382, 'epoch': 0.09}
-  3%|███▎                                                                                                              | 72/2499 [08:58<4:14:10,  6.28s/it]  3%|███▎                                                                                                              | 73/2499 [09:05<4:14:10,  6.29s/it]                                                                                                                                                           {'loss': 0.6646, 'grad_norm': 0.14817385375499725, 'learning_rate': 0.00019969395753578794, 'ppl': 1.9437, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4675.51, 'total_tokens': 3376788, 'epoch': 0.09}
-  3%|███▎                                                                                                              | 73/2499 [09:05<4:14:10,  6.29s/it]  3%|███▍                                                                                                              | 74/2499 [09:11<4:13:54,  6.28s/it]                                                                                                                                                           {'loss': 0.6898, 'grad_norm': 0.131875678896904, 'learning_rate': 0.00019968401082705276, 'ppl': 1.9933, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4524.14, 'total_tokens': 3405160, 'epoch': 0.09}
-  3%|███▍                                                                                                              | 74/2499 [09:11<4:13:54,  6.28s/it]  3%|███▍                                                                                                              | 75/2499 [09:17<4:14:00,  6.29s/it]                                                                                                                                                           {'loss': 0.6869, 'grad_norm': 0.1403125524520874, 'learning_rate': 0.0001996739053092126, 'ppl': 1.9875, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4577.87, 'total_tokens': 3433985, 'epoch': 0.09}
-  3%|███▍                                                                                                              | 75/2499 [09:17<4:14:00,  6.29s/it]  3%|███▍                                                                                                              | 76/2499 [09:23<4:14:26,  6.30s/it]                                                                                                                                                           {'loss': 0.6758, 'grad_norm': 0.137966588139534, 'learning_rate': 0.00019966364099836681, 'ppl': 1.9656, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4609.11, 'total_tokens': 3463148, 'epoch': 0.09}
-  3%|███▍                                                                                                              | 76/2499 [09:23<4:14:26,  6.30s/it]  3%|███▌                                                                                                              | 77/2499 [09:30<4:14:24,  6.30s/it]                                                                                                                                                           {'loss': 0.6669, 'grad_norm': 0.13154162466526031, 'learning_rate': 0.00019965321791086768, 'ppl': 1.9482, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4764.08, 'total_tokens': 3493170, 'epoch': 0.09}
-  3%|███▌                                                                                                              | 77/2499 [09:30<4:14:24,  6.30s/it]  3%|███▌                                                                                                              | 78/2499 [09:36<4:13:47,  6.29s/it]                                                                                                                                                           {'loss': 0.6681, 'grad_norm': 0.1396287977695465, 'learning_rate': 0.00019964263606332051, 'ppl': 1.9505, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4335.49, 'total_tokens': 3520301, 'epoch': 0.09}
-  3%|███▌                                                                                                              | 78/2499 [09:36<4:13:47,  6.29s/it]  3%|███▌                                                                                                              | 79/2499 [09:42<4:13:27,  6.28s/it]                                                                                                                                                           {'loss': 0.6799, 'grad_norm': 0.1356486976146698, 'learning_rate': 0.00019963189547258356, 'ppl': 1.9737, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4451.59, 'total_tokens': 3548202, 'epoch': 0.09}
-  3%|███▌                                                                                                              | 79/2499 [09:42<4:13:27,  6.28s/it]  3%|███▋                                                                                                              | 80/2499 [09:49<4:13:19,  6.28s/it]                                                                                                                                                           {'loss': 0.6697, 'grad_norm': 0.14252781867980957, 'learning_rate': 0.0001996209961557679, 'ppl': 1.9537, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4500.44, 'total_tokens': 3576462, 'epoch': 0.1}
-  3%|███▋                                                                                                              | 80/2499 [09:49<4:13:19,  6.28s/it]  3%|███▋                                                                                                              | 81/2499 [09:55<4:13:09,  6.28s/it]                                                                                                                                                           {'loss': 0.7155, 'grad_norm': 0.14615966379642487, 'learning_rate': 0.00019960993813023745, 'ppl': 2.0452, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4544.14, 'total_tokens': 3604983, 'epoch': 0.1}
-  3%|███▋                                                                                                              | 81/2499 [09:55<4:13:09,  6.28s/it]  3%|███▋                                                                                                              | 82/2499 [10:01<4:13:23,  6.29s/it]                                                                                                                                                           {'loss': 0.6172, 'grad_norm': 0.13786305487155914, 'learning_rate': 0.0001995987214136091, 'ppl': 1.8537, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4671.06, 'total_tokens': 3634442, 'epoch': 0.1}
-  3%|███▋                                                                                                              | 82/2499 [10:01<4:13:23,  6.29s/it]  3%|███▊                                                                                                              | 83/2499 [10:07<4:13:31,  6.30s/it]                                                                                                                                                           {'loss': 0.6399, 'grad_norm': 0.14883151650428772, 'learning_rate': 0.00019958734602375247, 'ppl': 1.8963, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4347.61, 'total_tokens': 3661862, 'epoch': 0.1}
-  3%|███▊                                                                                                              | 83/2499 [10:07<4:13:31,  6.30s/it]  3%|███▊                                                                                                              | 84/2499 [10:14<4:13:26,  6.30s/it]                                                                                                                                                           {'loss': 0.6619, 'grad_norm': 0.1344694346189499, 'learning_rate': 0.00019957581197878996, 'ppl': 1.9385, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4744.18, 'total_tokens': 3691718, 'epoch': 0.1}
-  3%|███▊                                                                                                              | 84/2499 [10:14<4:13:26,  6.30s/it]  3%|███▉                                                                                                              | 85/2499 [10:20<4:13:08,  6.29s/it]                                                                                                                                                           {'loss': 0.7284, 'grad_norm': 0.12591156363487244, 'learning_rate': 0.00019956411929709678, 'ppl': 2.0718, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4638.44, 'total_tokens': 3720842, 'epoch': 0.1}
-  3%|███▉                                                                                                              | 85/2499 [10:20<4:13:08,  6.29s/it]  3%|███▉                                                                                                              | 86/2499 [10:26<4:12:45,  6.29s/it]                                                                                                                                                           {'loss': 0.6502, 'grad_norm': 0.1308436542749405, 'learning_rate': 0.00019955226799730081, 'ppl': 1.9159, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4529.63, 'total_tokens': 3749228, 'epoch': 0.1}
-  3%|███▉                                                                                                              | 86/2499 [10:26<4:12:45,  6.29s/it]  3%|███▉                                                                                                              | 87/2499 [10:33<4:12:38,  6.28s/it]                                                                                                                                                           {'loss': 0.6609, 'grad_norm': 0.13323400914669037, 'learning_rate': 0.00019954025809828266, 'ppl': 1.9365, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4566.95, 'total_tokens': 3777912, 'epoch': 0.1}
-  3%|███▉                                                                                                              | 87/2499 [10:33<4:12:38,  6.28s/it]  4%|████                                                                                                              | 88/2499 [10:39<4:12:35,  6.29s/it]                                                                                                                                                           {'loss': 0.6446, 'grad_norm': 0.16586028039455414, 'learning_rate': 0.00019952808961917558, 'ppl': 1.9052, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4553.1, 'total_tokens': 3806539, 'epoch': 0.11}
-  4%|████                                                                                                              | 88/2499 [10:39<4:12:35,  6.29s/it]  4%|████                                                                                                              | 89/2499 [10:45<4:12:53,  6.30s/it]                                                                                                                                                           {'loss': 0.6663, 'grad_norm': 0.14273381233215332, 'learning_rate': 0.0001995157625793655, 'ppl': 1.947, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4543.06, 'total_tokens': 3835239, 'epoch': 0.11}
-  4%|████                                                                                                              | 89/2499 [10:45<4:12:53,  6.30s/it]  4%|████                                                                                                              | 90/2499 [10:51<4:12:49,  6.30s/it]                                                                                                                                                           {'loss': 0.6725, 'grad_norm': 0.15345992147922516, 'learning_rate': 0.00019950327699849098, 'ppl': 1.9591, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4596.19, 'total_tokens': 3864175, 'epoch': 0.11}
-  4%|████                                                                                                              | 90/2499 [10:52<4:12:49,  6.30s/it]  4%|████▏                                                                                                             | 91/2499 [10:58<4:12:38,  6.29s/it]                                                                                                                                                           {'loss': 0.7163, 'grad_norm': 0.16092751920223236, 'learning_rate': 0.00019949063289644302, 'ppl': 2.0468, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4597.41, 'total_tokens': 3893079, 'epoch': 0.11}
-  4%|████▏                                                                                                             | 91/2499 [10:58<4:12:38,  6.29s/it]  4%|████▏                                                                                                             | 92/2499 [11:04<4:12:21,  6.29s/it]                                                                                                                                                           {'loss': 0.6764, 'grad_norm': 0.13062061369419098, 'learning_rate': 0.00019947783029336533, 'ppl': 1.9668, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4599.4, 'total_tokens': 3921954, 'epoch': 0.11}
-  4%|████▏                                                                                                             | 92/2499 [11:04<4:12:21,  6.29s/it]  4%|████▏                                                                                                             | 93/2499 [11:10<4:12:13,  6.29s/it]                                                                                                                                                           {'loss': 0.6585, 'grad_norm': 0.14627501368522644, 'learning_rate': 0.00019946486920965404, 'ppl': 1.9319, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4612.44, 'total_tokens': 3950949, 'epoch': 0.11}
-  4%|████▏                                                                                                             | 93/2499 [11:10<4:12:13,  6.29s/it]  4%|████▎                                                                                                             | 94/2499 [11:17<4:12:09,  6.29s/it]                                                                                                                                                           {'loss': 0.6825, 'grad_norm': 0.14802932739257812, 'learning_rate': 0.00019945174966595777, 'ppl': 1.9788, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4644.39, 'total_tokens': 3980160, 'epoch': 0.11}
-  4%|████▎                                                                                                             | 94/2499 [11:17<4:12:09,  6.29s/it]  4%|████▎                                                                                                             | 95/2499 [11:23<4:11:43,  6.28s/it]                                                                                                                                                           {'loss': 0.6535, 'grad_norm': 0.151302307844162, 'learning_rate': 0.0001994384716831776, 'ppl': 1.9223, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4503.85, 'total_tokens': 4008363, 'epoch': 0.11}
-  4%|████▎                                                                                                             | 95/2499 [11:23<4:11:43,  6.28s/it]  4%|████▍                                                                                                             | 96/2499 [11:29<4:12:15,  6.30s/it]                                                                                                                                                           {'loss': 0.6404, 'grad_norm': 0.15178830921649933, 'learning_rate': 0.000199425035282467, 'ppl': 1.8972, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4664.08, 'total_tokens': 4037899, 'epoch': 0.12}
-  4%|████▍                                                                                                             | 96/2499 [11:29<4:12:15,  6.30s/it]  4%|████▍                                                                                                             | 97/2499 [11:36<4:12:23,  6.30s/it]                                                                                                                                                           {'loss': 0.7097, 'grad_norm': 0.1457069218158722, 'learning_rate': 0.0001994114404852319, 'ppl': 2.0334, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4667.4, 'total_tokens': 4067373, 'epoch': 0.12}
-  4%|████▍                                                                                                             | 97/2499 [11:36<4:12:23,  6.30s/it]  4%|████▍                                                                                                             | 98/2499 [11:42<4:11:56,  6.30s/it]                                                                                                                                                           {'loss': 0.6538, 'grad_norm': 0.13825637102127075, 'learning_rate': 0.00019939768731313046, 'ppl': 1.9228, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4609.94, 'total_tokens': 4096295, 'epoch': 0.12}
-  4%|████▍                                                                                                             | 98/2499 [11:42<4:11:56,  6.30s/it]  4%|████▌                                                                                                             | 99/2499 [11:48<4:11:49,  6.30s/it]                                                                                                                                                           {'loss': 0.6082, 'grad_norm': 0.14136871695518494, 'learning_rate': 0.00019938377578807318, 'ppl': 1.8371, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4684.31, 'total_tokens': 4125771, 'epoch': 0.12}
-  4%|████▌                                                                                                             | 99/2499 [11:48<4:11:49,  6.30s/it]  4%|████▌                                                                                                            | 100/2499 [11:54<4:11:44,  6.30s/it]                                                                                                                                                           {'loss': 0.6605, 'grad_norm': 0.1564965695142746, 'learning_rate': 0.0001993697059322229, 'ppl': 1.9358, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4555.83, 'total_tokens': 4154447, 'epoch': 0.12}
-  4%|████▌                                                                                                            | 100/2499 [11:54<4:11:44,  6.30s/it][2025-12-28 11:17:31,070] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:42410] Running evaluation step...
-[2025-12-28 11:17:32,807] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8711647987365723
-[2025-12-28 11:17:33,641] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8331155776977539
-[2025-12-28 11:17:34,487] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8463048934936523
-[2025-12-28 11:17:35,331] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8430600166320801
-[2025-12-28 11:17:35,331] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
-
-  0%|                                                                                                                               | 0/90 [00:00<?, ?it/s][A
-  2%|██▋                                                                                                                    | 2/90 [00:00<00:36,  2.42it/s][A
-  3%|███▉                                                                                                                   | 3/90 [00:01<00:55,  1.57it/s][A
-  4%|█████▎                                                                                                                 | 4/90 [00:02<01:00,  1.42it/s][A
-  6%|██████▌                                                                                                                | 5/90 [00:03<01:06,  1.28it/s][A
-  7%|███████▉                                                                                                               | 6/90 [00:04<01:06,  1.26it/s][A
-  8%|█████████▎                                                                                                             | 7/90 [00:05<01:10,  1.17it/s][A
-  9%|██████████▌                                                                                                            | 8/90 [00:06<01:09,  1.19it/s][A
- 10%|███████████▉                                                                                                           | 9/90 [00:07<01:10,  1.15it/s][A
- 11%|█████████████                                                                                                         | 10/90 [00:07<01:08,  1.18it/s][A
- 12%|██████████████▍                                                                                                       | 11/90 [00:08<01:09,  1.14it/s][A
- 13%|███████████████▋                                                                                                      | 12/90 [00:09<01:06,  1.17it/s][A
- 14%|█████████████████                                                                                                     | 13/90 [00:10<01:07,  1.13it/s][A
- 16%|██████████████████▎                                                                                                   | 14/90 [00:11<01:05,  1.16it/s][A
- 17%|███████████████████▋                                                                                                  | 15/90 [00:12<01:05,  1.14it/s][A
- 18%|████████████████████▉                                                                                                 | 16/90 [00:13<01:03,  1.16it/s][A
- 19%|██████████████████████▎                                                                                               | 17/90 [00:14<01:04,  1.13it/s][A
- 20%|███████████████████████▌                                                                                              | 18/90 [00:14<01:01,  1.17it/s][A
- 21%|████████████████████████▉                                                                                             | 19/90 [00:15<01:01,  1.15it/s][A
- 22%|██████████████████████████▏                                                                                           | 20/90 [00:16<00:59,  1.17it/s][A
- 23%|███████████████████████████▌                                                                                          | 21/90 [00:17<01:00,  1.14it/s][A
- 24%|████████████████████████████▊                                                                                         | 22/90 [00:18<00:58,  1.17it/s][A
- 26%|██████████████████��███████████▏                                                                                       | 23/90 [00:19<00:58,  1.15it/s][A
- 27%|███████████████████████████████▍                                                                                      | 24/90 [00:20<00:56,  1.17it/s][A
- 28%|████████████████████████████████▊                                                                                     | 25/90 [00:20<00:56,  1.15it/s][A
- 29%|██████████████████████████████████                                                                                    | 26/90 [00:21<00:54,  1.17it/s][A
- 30%|███████████████████████████████████▍                                                                                  | 27/90 [00:22<00:54,  1.15it/s][A
- 31%|████████████████████████████████████▋                                                                                 | 28/90 [00:23<00:52,  1.17it/s][A
- 32%|██████████████████████████████████████                                                                                | 29/90 [00:24<00:53,  1.15it/s][A
- 33%|███████████████████████████████████████▎                                                                              | 30/90 [00:25<00:51,  1.17it/s][A
- 34%|████████████████████████████████████████▋                                                                             | 31/90 [00:26<00:51,  1.15it/s][A
- 36%|█████████████████████████████████████████▉                                                                            | 32/90 [00:26<00:49,  1.17it/s][A
- 37%|███████████████████████████████████████████▎                                                                          | 33/90 [00:27<00:49,  1.15it/s][A
- 38%|████████████████████████████████████████████▌                                                                         | 34/90 [00:28<00:47,  1.17it/s][A
- 39%|█████████████████████████████████████████████▉                                                                        | 35/90 [00:29<00:47,  1.15it/s][A
- 40%|███████████████████████████████████████████████▏                                                                      | 36/90 [00:30<00:45,  1.17it/s][A
- 41%|████████████████████████████████████████████████▌                                                                     | 37/90 [00:31<00:45,  1.15it/s][A
- 42%|█████████████████████████████████████████████████▊                                                                    | 38/90 [00:32<00:44,  1.17it/s][A
- 43%|███████████████████████████████████████████████████▏                                                                  | 39/90 [00:32<00:44,  1.15it/s][A
- 44%|████████████████████████████████████████████████████▍                                                                 | 40/90 [00:33<00:42,  1.17it/s][A
- 46%|█████████████████████████████████████████████████████▊                                                                | 41/90 [00:34<00:42,  1.15it/s][A
- 47%|███████████████████████████████████████████████████████                                                               | 42/90 [00:35<00:40,  1.17it/s][A
- 48%|████████████████████████████████████████████████████████▍                                                             | 43/90 [00:36<00:40,  1.15it/s][A
- 49%|█████████████████████████████████████████████████████████▋                                                            | 44/90 [00:37<00:39,  1.17it/s][A
- 50%|███████████████████████████████████████████████████████████                                                           | 45/90 [00:38<00:38,  1.15it/s][A
- 51%|████████████████████████████████████████████████████████████▎                                                         | 46/90 [00:38<00:37,  1.17it/s][A
- 52%|█████████████████████████████████████████████████████████████▌                                                        | 47/90 [00:39<00:37,  1.16it/s][A
- 53%|██████████████████████████████████████████████████████████████▉                                                       | 48/90 [00:40<00:35,  1.17it/s][A
- 54%|████████████████████████████████████████████████████████████████▏                                                     | 49/90 [00:41<00:35,  1.15it/s][A
- 56%|█████████████████████████████████████████████████████████████████▌                                                    | 50/90 [00:42<00:34,  1.18it/s][A
- 57%|██████████████████████████████████████████████████████████████████▊                                                   | 51/90 [00:43<00:33,  1.16it/s][A
- 58%|████████████████████████████████████████████████████████████████████▏                                                 | 52/90 [00:44<00:32,  1.17it/s][A
- 59%|█████████████████████████████████████████████████████████████████████▍                                                | 53/90 [00:44<00:32,  1.15it/s][A
- 60%|██████████████████████████████████████████████████████████████████████▊                                               | 54/90 [00:45<00:30,  1.17it/s][A
- 61%|████████████████████████████████████████████████████████████████████████                                              | 55/90 [00:46<00:30,  1.15it/s][A
- 62%|█████████████████████████████████████████████████████████████████████████▍                                            | 56/90 [00:47<00:28,  1.17it/s][A
- 63%|██████████████████████████████████████████████████████████████████████████▋                                           | 57/90 [00:48<00:28,  1.14it/s][A
- 64%|████████████████████████████████████████████████████████████████████████████                                          | 58/90 [00:49<00:27,  1.17it/s][A
- 66%|█████████████████████████████████████████████████████████████████████████████▎                                        | 59/90 [00:50<00:27,  1.13it/s][A
- 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 60/90 [00:51<00:25,  1.17it/s][A
- 68%|████��██████████████████████████████████████████████████████████████████████████▉                                      | 61/90 [00:51<00:25,  1.13it/s][A
- 69%|█████████████████████████████████████████████████████████████████████████████████▎                                    | 62/90 [00:52<00:24,  1.16it/s][A
- 70%|██████████████████████████████████████████████████████████████████████████████████▌                                   | 63/90 [00:53<00:23,  1.13it/s][A
- 71%|███████████████████████████████████████████████████████████████████████████████████▉                                  | 64/90 [00:54<00:22,  1.16it/s][A
- 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 65/90 [00:55<00:22,  1.13it/s][A
- 73%|██████████████████████████████████████████████████████████████████████████████████████▌                               | 66/90 [00:56<00:20,  1.16it/s][A
- 74%|███████████████████████████████████████████████████████████████████████████████████████▊                              | 67/90 [00:57<00:20,  1.13it/s][A
- 76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 68/90 [00:57<00:18,  1.16it/s][A
- 77%|██████████████████████████████████████████████████████████████████████████████████████████▍                           | 69/90 [00:58<00:18,  1.14it/s][A
- 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 70/90 [00:59<00:17,  1.16it/s][A
- 79%|█████████████████████████████████████████████████████████████████████████████████████████████                         | 71/90 [01:00<00:16,  1.15it/s][A
- 80%|██████████████████████████████████████████████████████████████████████████████████████████████▍                       | 72/90 [01:01<00:15,  1.17it/s][A
- 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 73/90 [01:03<00:19,  1.14s/it][A
- 82%|█████████████████████████████████████████████████████████████████████████████████████████████████                     | 74/90 [01:04<00:16,  1.03s/it][A
- 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 75/90 [01:04<00:14,  1.01it/s][A
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 76/90 [01:05<00:13,  1.07it/s][A
- 86%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 77/90 [01:06<00:12,  1.08it/s][A
- 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 78/90 [01:07<00:10,  1.12it/s][A
- 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 79/90 [01:08<00:09,  1.12it/s][A
- 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 80/90 [01:09<00:08,  1.15it/s][A
- 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 81/90 [01:10<00:07,  1.14it/s][A
- 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 82/90 [01:10<00:06,  1.16it/s][A
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 83/90 [01:11<00:06,  1.14it/s][A
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 84/90 [01:12<00:05,  1.16it/s][A
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 85/90 [01:13<00:04,  1.15it/s][A
- 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 86/90 [01:14<00:03,  1.17it/s][A
- 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 87/90 [01:15<00:02,  1.15it/s][A
- 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 88/90 [01:16<00:01,  1.17it/s][A
- 99%|████████████████████████████████████████████████████████████████████████████████████��███████████████████████████████▋ | 89/90 [01:16<00:00,  1.16it/s][A
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.14it/s][A                                                                                                                                                           
-                                                                                                                                                           [A{'eval_loss': 0.6468729376792908, 'eval_runtime': 79.9715, 'eval_samples_per_second': 9.128, 'eval_steps_per_second': 2.288, 'eval_ppl': 1.9096, 'memory/max_active (GiB)': 12.83, 'memory/max_allocated (GiB)': 6.85, 'memory/device_reserved (GiB)': 20.07, 'epoch': 0.12}
-  4%|████▌                                                                                                            | 100/2499 [13:19<4:11:44,  6.30s/it]
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:18<00:00,  1.14it/s][A
-                                                                                                                                                           [A  4%|████▌                                                                                                           | 101/2499 [13:25<21:01:55, 31.57s/it]                                                                                                                                                           {'loss': 0.6184, 'grad_norm': 0.17828112840652466, 'learning_rate': 0.00019935547776799467, 'ppl': 1.856, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4614.55, 'total_tokens': 5453331, 'epoch': 0.12}
-  4%|████▌                                                                                                           | 101/2499 [13:25<21:01:55, 31.57s/it]  4%|████▌                                                                                                           | 102/2499 [13:31<15:58:35, 23.99s/it]                                                                                                                                                           {'loss': 0.6822, 'grad_norm': 0.2011706829071045, 'learning_rate': 0.00019934109131805575, 'ppl': 1.9782, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4637.52, 'total_tokens': 5482579, 'epoch': 0.12}
-  4%|████▌                                                                                                           | 102/2499 [13:31<15:58:35, 23.99s/it]  4%|████▌                                                                                                           | 103/2499 [13:38<12:26:29, 18.69s/it]                                                                                                                                                           {'loss': 0.5284, 'grad_norm': 0.13656415045261383, 'learning_rate': 0.00019932654660532548, 'ppl': 1.6962, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4598.33, 'total_tokens': 5511638, 'epoch': 0.12}
-  4%|████▌                                                                                                           | 103/2499 [13:38<12:26:29, 18.69s/it]  4%|████▋                                                                                                            | 104/2499 [13:44<9:57:26, 14.97s/it]                                                                                                                                                           {'loss': 0.6585, 'grad_norm': 0.15870781242847443, 'learning_rate': 0.0001993118436529755, 'ppl': 1.9319, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4352.34, 'total_tokens': 5538918, 'epoch': 0.12}
-  4%|████▋                                                                                                            | 104/2499 [13:44<9:57:26, 14.97s/it]  4%|████▋                                                                                                            | 105/2499 [13:50<8:13:25, 12.37s/it]                                                                                                                                                           {'loss': 0.6339, 'grad_norm': 0.14072741568088531, 'learning_rate': 0.00019929698248442938, 'ppl': 1.8849, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4732.02, 'total_tokens': 5568710, 'epoch': 0.13}
-  4%|████▋                                                                                                            | 105/2499 [13:50<8:13:25, 12.37s/it]  4%|████▊                                                                                                            | 106/2499 [13:56<7:00:22, 10.54s/it]                                                                                                                                                           {'loss': 0.6381, 'grad_norm': 0.14659491181373596, 'learning_rate': 0.00019928196312336285, 'ppl': 1.8929, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4575.0, 'total_tokens': 5597423, 'epoch': 0.13}
-  4%|████▊                                                                                                            | 106/2499 [13:56<7:00:22, 10.54s/it]  4%|████▊                                                                                                            | 107/2499 [14:03<6:09:10,  9.26s/it]                                                                                                                                                           {'loss': 0.6897, 'grad_norm': 0.1409890204668045, 'learning_rate': 0.00019926678559370364, 'ppl': 1.9931, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4498.1, 'total_tokens': 5625629, 'epoch': 0.13}
-  4%|████▊                                                                                                            | 107/2499 [14:03<6:09:10,  9.26s/it]  4%|████▉                                                                                                            | 108/2499 [14:09<5:33:17,  8.36s/it]                                                                                                                                                           {'loss': 0.5941, 'grad_norm': 0.1351788341999054, 'learning_rate': 0.00019925144991963145, 'ppl': 1.8114, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4593.3, 'total_tokens': 5654426, 'epoch': 0.13}
-  4%|████▉                                                                                                            | 108/2499 [14:09<5:33:17,  8.36s/it]  4%|████▉                                                                                                            | 109/2499 [14:15<5:08:46,  7.75s/it]                                                                                                                                                           {'loss': 0.6293, 'grad_norm': 0.1541460007429123, 'learning_rate': 0.00019923595612557793, 'ppl': 1.8763, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4634.55, 'total_tokens': 5683721, 'epoch': 0.13}
-  4%|████▉                                                                                                            | 109/2499 [14:15<5:08:46,  7.75s/it]  4%|████▉                                                                                                            | 110/2499 [14:22<4:51:31,  7.32s/it]                                                                                                                                                           {'loss': 0.6673, 'grad_norm': 0.17826059460639954, 'learning_rate': 0.0001992203042362266, 'ppl': 1.949, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4305.69, 'total_tokens': 5710908, 'epoch': 0.13}
-  4%|████▉                                                                                                            | 110/2499 [14:22<4:51:31,  7.32s/it]  4%|█████                                                                                                            | 111/2499 [14:28<4:39:24,  7.02s/it]                                                                                                                                                           {'loss': 0.7005, 'grad_norm': 0.14798669517040253, 'learning_rate': 0.00019920449427651292, 'ppl': 2.0148, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4490.72, 'total_tokens': 5739262, 'epoch': 0.13}
-  4%|█████                                                                                                            | 111/2499 [14:28<4:39:24,  7.02s/it]  4%|█████                                                                                                            | 112/2499 [14:34<4:30:29,  6.80s/it]                                                                                                                                                           {'loss': 0.701, 'grad_norm': 0.14876116812229156, 'learning_rate': 0.00019918852627162412, 'ppl': 2.0158, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4544.41, 'total_tokens': 5767800, 'epoch': 0.13}
-  4%|█████                                                                                                            | 112/2499 [14:34<4:30:29,  6.80s/it]  5%|█████                                                                                                            | 113/2499 [14:41<4:24:02,  6.64s/it]                                                                                                                                                           {'loss': 0.6515, 'grad_norm': 0.14015726745128632, 'learning_rate': 0.00019917240024699924, 'ppl': 1.9184, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4582.81, 'total_tokens': 5796516, 'epoch': 0.14}
-  5%|█████                                                                                                            | 113/2499 [14:41<4:24:02,  6.64s/it]  5%|█████▏                                                                                                           | 114/2499 [14:47<4:19:38,  6.53s/it]                                                                                                                                                           {'loss': 0.6357, 'grad_norm': 0.14569461345672607, 'learning_rate': 0.00019915611622832905, 'ppl': 1.8883, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4596.84, 'total_tokens': 5825374, 'epoch': 0.14}
-  5%|█████▏                                                                                                           | 114/2499 [14:47<4:19:38,  6.53s/it]  5%|█████▏                                                                                                           | 115/2499 [14:53<4:16:34,  6.46s/it]                                                                                                                                                           {'loss': 0.6666, 'grad_norm': 0.1522768884897232, 'learning_rate': 0.00019913967424155598, 'ppl': 1.9476, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4636.01, 'total_tokens': 5854490, 'epoch': 0.14}
-  5%|█████▏                                                                                                           | 115/2499 [14:53<4:16:34,  6.46s/it]  5%|█████▏                                                                                                           | 116/2499 [14:59<4:14:25,  6.41s/it]                                                                                                                                                           {'loss': 0.6558, 'grad_norm': 0.15072417259216309, 'learning_rate': 0.00019912307431287427, 'ppl': 1.9267, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4478.85, 'total_tokens': 5882638, 'epoch': 0.14}
-  5%|█████▏                                                                                                           | 116/2499 [14:59<4:14:25,  6.41s/it]  5%|█████▎                                                                                                           | 117/2499 [15:06<4:13:09,  6.38s/it]                                                                                                                                                           {'loss': 0.6541, 'grad_norm': 0.140936478972435, 'learning_rate': 0.0001991063164687296, 'ppl': 1.9234, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4528.6, 'total_tokens': 5911187, 'epoch': 0.14}
-  5%|█████▎                                                                                                           | 117/2499 [15:06<4:13:09,  6.38s/it]  5%|█████▎                                                                                                           | 118/2499 [15:12<4:12:05,  6.35s/it]                                                                                                                                                           {'loss': 0.6191, 'grad_norm': 0.14590787887573242, 'learning_rate': 0.00019908940073581937, 'ppl': 1.8573, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4668.98, 'total_tokens': 5940567, 'epoch': 0.14}
-  5%|█████▎                                                                                                           | 118/2499 [15:12<4:12:05,  6.35s/it]  5%|█████▍                                                                                                           | 119/2499 [15:18<4:11:21,  6.34s/it]                                                                                                                                                           {'loss': 0.6365, 'grad_norm': 0.13646982610225677, 'learning_rate': 0.0001990723271410924, 'ppl': 1.8899, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4828.06, 'total_tokens': 5970969, 'epoch': 0.14}
-  5%|█████▍                                                                                                           | 119/2499 [15:18<4:11:21,  6.34s/it]  5%|█████▍                                                                                                           | 120/2499 [15:25<4:10:27,  6.32s/it]                                                                                                                                                           {'loss': 0.5822, 'grad_norm': 0.1353752613067627, 'learning_rate': 0.00019905509571174914, 'ppl': 1.79, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4639.33, 'total_tokens': 6000051, 'epoch': 0.14}
-  5%|█████▍                                                                                                           | 120/2499 [15:25<4:10:27,  6.32s/it]  5%|█████▍                                                                                                           | 121/2499 [15:31<4:09:58,  6.31s/it]                                                                                                                                                           {'loss': 0.6289, 'grad_norm': 0.17556677758693695, 'learning_rate': 0.00019903770647524137, 'ppl': 1.8755, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4626.75, 'total_tokens': 6029115, 'epoch': 0.15}
-  5%|█████▍                                                                                                           | 121/2499 [15:31<4:09:58,  6.31s/it]  5%|█████▌                                                                                                           | 122/2499 [15:37<4:09:14,  6.29s/it]                                                                                                                                                           {'loss': 0.6331, 'grad_norm': 0.1434057652950287, 'learning_rate': 0.0001990201594592723, 'ppl': 1.8834, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4451.39, 'total_tokens': 6056947, 'epoch': 0.15}
-  5%|█████▌                                                                                                           | 122/2499 [15:37<4:09:14,  6.29s/it]  5%|█████▌                                                                                                           | 123/2499 [15:43<4:09:19,  6.30s/it]                                                                                                                                                           {'loss': 0.6185, 'grad_norm': 0.14586731791496277, 'learning_rate': 0.00019900245469179655, 'ppl': 1.8561, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4505.08, 'total_tokens': 6085351, 'epoch': 0.15}
-  5%|█████▌                                                                                                           | 123/2499 [15:43<4:09:19,  6.30s/it]  5%|█████▌                                                                                                           | 124/2499 [15:50<4:09:00,  6.29s/it]                                                                                                                                                           {'loss': 0.6336, 'grad_norm': 0.15855848789215088, 'learning_rate': 0.00019898459220102002, 'ppl': 1.8844, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4453.23, 'total_tokens': 6113294, 'epoch': 0.15}
-  5%|█████▌                                                                                                           | 124/2499 [15:50<4:09:00,  6.29s/it]  5%|█████▋                                                                                                           | 125/2499 [15:56<4:08:35,  6.28s/it]                                                                                                                                                           {'loss': 0.6083, 'grad_norm': 0.14481675624847412, 'learning_rate': 0.0001989665720153999, 'ppl': 1.8373, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4599.51, 'total_tokens': 6142097, 'epoch': 0.15}
-  5%|█████▋                                                                                                           | 125/2499 [15:56<4:08:35,  6.28s/it]  5%|█████▋                                                                                                           | 126/2499 [16:02<4:08:12,  6.28s/it]                                                                                                                                                           {'loss': 0.6727, 'grad_norm': 0.167931467294693, 'learning_rate': 0.0001989483941636446, 'ppl': 1.9595, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4386.44, 'total_tokens': 6169540, 'epoch': 0.15}
-  5%|█████▋                                                                                                           | 126/2499 [16:02<4:08:12,  6.28s/it]  5%|█████▋                                                                                                           | 127/2499 [16:08<4:08:05,  6.28s/it]                                                                                                                                                           {'loss': 0.601, 'grad_norm': 0.155978262424469, 'learning_rate': 0.00019893005867471374, 'ppl': 1.8239, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4730.58, 'total_tokens': 6199215, 'epoch': 0.15}
-  5%|█████▋                                                                                                           | 127/2499 [16:08<4:08:05,  6.28s/it]  5%|█████▊                                                                                                           | 128/2499 [16:15<4:07:48,  6.27s/it]                                                                                                                                                           {'loss': 0.6443, 'grad_norm': 0.1500401645898819, 'learning_rate': 0.00019891156557781797, 'ppl': 1.9047, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4510.45, 'total_tokens': 6227443, 'epoch': 0.15}
-  5%|█████▊                                                                                                           | 128/2499 [16:15<4:07:48,  6.27s/it]  5%|█████▊                                                                                                           | 129/2499 [16:21<4:07:33,  6.27s/it]                                                                                                                                                           {'loss': 0.6555, 'grad_norm': 0.15343204140663147, 'learning_rate': 0.0001988929149024192, 'ppl': 1.9261, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4447.09, 'total_tokens': 6255262, 'epoch': 0.15}
-  5%|█████▊                                                                                                           | 129/2499 [16:21<4:07:33,  6.27s/it]  5%|█████▉                                                                                                           | 130/2499 [16:27<4:07:53,  6.28s/it]                                                                                                                                                           {'loss': 0.6536, 'grad_norm': 0.18412944674491882, 'learning_rate': 0.00019887410667823022, 'ppl': 1.9224, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4639.29, 'total_tokens': 6284499, 'epoch': 0.16}
-  5%|█████▉                                                                                                           | 130/2499 [16:27<4:07:53,  6.28s/it]  5%|█████▉                                                                                                           | 131/2499 [16:34<4:07:47,  6.28s/it]                                                                                                                                                           {'loss': 0.6874, 'grad_norm': 6.614463806152344, 'learning_rate': 0.00019885514093521495, 'ppl': 1.9885, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4495.37, 'total_tokens': 6312705, 'epoch': 0.16}
-  5%|█████▉                                                                                                           | 131/2499 [16:34<4:07:47,  6.28s/it]  5%|█████▉                                                                                                           | 132/2499 [16:40<4:07:36,  6.28s/it]                                                                                                                                                           {'loss': 0.6402, 'grad_norm': 0.1778506189584732, 'learning_rate': 0.0001988360177035881, 'ppl': 1.8969, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4504.67, 'total_tokens': 6340952, 'epoch': 0.16}
-  5%|█████▉                                                                                                           | 132/2499 [16:40<4:07:36,  6.28s/it]  5%|██████                                                                                                           | 133/2499 [16:46<4:07:13,  6.27s/it]                                                                                                                                                           {'loss': 0.5849, 'grad_norm': 0.15809500217437744, 'learning_rate': 0.00019881673701381547, 'ppl': 1.7948, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4387.74, 'total_tokens': 6368377, 'epoch': 0.16}
-  5%|██████                                                                                                           | 133/2499 [16:46<4:07:13,  6.27s/it]  5%|██████                                                                                                           | 134/2499 [16:52<4:07:04,  6.27s/it]                                                                                                                                                           {'loss': 0.5755, 'grad_norm': 0.16758741438388824, 'learning_rate': 0.00019879729889661353, 'ppl': 1.778, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4713.74, 'total_tokens': 6397901, 'epoch': 0.16}
-  5%|██████                                                                                                           | 134/2499 [16:52<4:07:04,  6.27s/it]  5%|██████                                                                                                           | 135/2499 [16:59<4:06:57,  6.27s/it]                                                                                                                                                           {'loss': 0.6093, 'grad_norm': 0.17591319978237152, 'learning_rate': 0.00019877770338294973, 'ppl': 1.8391, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4636.12, 'total_tokens': 6426945, 'epoch': 0.16}
-  5%|██████                                                                                                           | 135/2499 [16:59<4:06:57,  6.27s/it]  5%|██████▏                                                                                                          | 136/2499 [17:05<4:06:54,  6.27s/it]                                                                                                                                                           {'loss': 0.6427, 'grad_norm': 0.18837158381938934, 'learning_rate': 0.0001987579505040421, 'ppl': 1.9016, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4433.54, 'total_tokens': 6454744, 'epoch': 0.16}
-  5%|██████▏                                                                                                          | 136/2499 [17:05<4:06:54,  6.27s/it]  5%|██████▏                                                                                                          | 137/2499 [17:11<4:07:08,  6.28s/it]                                                                                                                                                           {'loss': 0.6579, 'grad_norm': 0.1512988954782486, 'learning_rate': 0.00019873804029135942, 'ppl': 1.9307, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4501.54, 'total_tokens': 6483079, 'epoch': 0.16}
-  5%|██████▏                                                                                                          | 137/2499 [17:11<4:07:08,  6.28s/it]  6%|██████▏                                                                                                          | 138/2499 [17:17<4:06:52,  6.27s/it]                                                                                                                                                           {'loss': 0.6406, 'grad_norm': 0.1809886246919632, 'learning_rate': 0.00019871797277662125, 'ppl': 1.8976, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4511.87, 'total_tokens': 6511327, 'epoch': 0.17}
-  6%|██████▏                                                                                                          | 138/2499 [17:17<4:06:52,  6.27s/it]  6%|██████▎                                                                                                          | 139/2499 [17:24<4:07:01,  6.28s/it]                                                                                                                                                           {'loss': 0.6779, 'grad_norm': 0.1574440598487854, 'learning_rate': 0.00019869774799179755, 'ppl': 1.9697, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4721.62, 'total_tokens': 6541034, 'epoch': 0.17}
-  6%|██████▎                                                                                                          | 139/2499 [17:24<4:07:01,  6.28s/it]  6%|██████▎                                                                                                          | 140/2499 [17:30<4:06:55,  6.28s/it]                                                                                                                                                           {'loss': 0.6388, 'grad_norm': 0.16212943196296692, 'learning_rate': 0.00019867736596910902, 'ppl': 1.8942, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4727.92, 'total_tokens': 6570721, 'epoch': 0.17}
-  6%|██████▎                                                                                                          | 140/2499 [17:30<4:06:55,  6.28s/it]  6%|██████▍                                                                                                          | 141/2499 [17:36<4:06:44,  6.28s/it]                                                                                                                                                           {'loss': 0.6901, 'grad_norm': 0.16586321592330933, 'learning_rate': 0.00019865682674102676, 'ppl': 1.9939, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4663.45, 'total_tokens': 6599963, 'epoch': 0.17}
-  6%|██████▍                                                                                                          | 141/2499 [17:36<4:06:44,  6.28s/it]  6%|██████▍                                                                                                          | 142/2499 [17:43<4:06:23,  6.27s/it]                                                                                                                                                           {'loss': 0.6483, 'grad_norm': 0.1520916223526001, 'learning_rate': 0.00019863613034027224, 'ppl': 1.9123, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4568.36, 'total_tokens': 6628544, 'epoch': 0.17}
-  6%|██████▍                                                                                                          | 142/2499 [17:43<4:06:23,  6.27s/it]  6%|██████▍                                                                                                          | 143/2499 [17:49<4:07:00,  6.29s/it]                                                                                                                                                           {'loss': 0.6739, 'grad_norm': 0.17079249024391174, 'learning_rate': 0.00019861527679981752, 'ppl': 1.9619, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4642.42, 'total_tokens': 6657935, 'epoch': 0.17}
-  6%|██████▍                                                                                                          | 143/2499 [17:49<4:07:00,  6.29s/it]  6%|██████▌                                                                                                          | 144/2499 [17:55<4:07:16,  6.30s/it]                                                                                                                                                           {'loss': 0.6213, 'grad_norm': 0.14469042420387268, 'learning_rate': 0.00019859426615288488, 'ppl': 1.8613, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4454.93, 'total_tokens': 6686079, 'epoch': 0.17}
-  6%|██████▌                                                                                                          | 144/2499 [17:55<4:07:16,  6.30s/it]  6%|██████▌                                                                                                          | 145/2499 [18:02<4:06:50,  6.29s/it]                                                                                                                                                           {'loss': 0.6334, 'grad_norm': 0.15830209851264954, 'learning_rate': 0.00019857309843294684, 'ppl': 1.884, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4440.19, 'total_tokens': 6713910, 'epoch': 0.17}
-  6%|██████▌                                                                                                          | 145/2499 [18:02<4:06:50,  6.29s/it]  6%|██████▌                                                                                                          | 146/2499 [18:08<4:06:32,  6.29s/it]                                                                                                                                                           {'loss': 0.6419, 'grad_norm': 0.15467514097690582, 'learning_rate': 0.00019855177367372634, 'ppl': 1.9001, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4476.41, 'total_tokens': 6741989, 'epoch': 0.18}
-  6%|██████▌                                                                                                          | 146/2499 [18:08<4:06:32,  6.29s/it]  6%|██████▋                                                                                                          | 147/2499 [18:14<4:06:15,  6.28s/it]                                                                                                                                                           {'loss': 0.6124, 'grad_norm': 0.14238551259040833, 'learning_rate': 0.0001985302919091963, 'ppl': 1.8449, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4580.51, 'total_tokens': 6770703, 'epoch': 0.18}
-  6%|██████▋                                                                                                          | 147/2499 [18:14<4:06:15,  6.28s/it]  6%|██████▋                                                                                                          | 148/2499 [18:20<4:06:06,  6.28s/it]                                                                                                                                                           {'loss': 0.6293, 'grad_norm': 0.16102945804595947, 'learning_rate': 0.00019850865317357988, 'ppl': 1.8763, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4631.61, 'total_tokens': 6799769, 'epoch': 0.18}
-  6%|██████▋                                                                                                          | 148/2499 [18:20<4:06:06,  6.28s/it]  6%|██████▋                                                                                                          | 149/2499 [18:27<4:05:48,  6.28s/it]                                                                                                                                                           {'loss': 0.6808, 'grad_norm': 0.1688845455646515, 'learning_rate': 0.00019848685750135033, 'ppl': 1.9755, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4488.35, 'total_tokens': 6827878, 'epoch': 0.18}
-  6%|██████▋                                                                                                          | 149/2499 [18:27<4:05:48,  6.28s/it]  6%|██████▊                                                                                                          | 150/2499 [18:33<4:05:57,  6.28s/it]                                                                                                                                                           {'loss': 0.6459, 'grad_norm': 0.14278124272823334, 'learning_rate': 0.00019846490492723084, 'ppl': 1.9077, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4585.29, 'total_tokens': 6856742, 'epoch': 0.18}
-  6%|██████▊                                                                                                          | 150/2499 [18:33<4:05:57,  6.28s/it]  6%|██████▊                                                                                                          | 151/2499 [18:39<4:06:23,  6.30s/it]                                                                                                                                                           {'loss': 0.6847, 'grad_norm': 0.1538703888654709, 'learning_rate': 0.0001984427954861946, 'ppl': 1.9832, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4651.06, 'total_tokens': 6886155, 'epoch': 0.18}
-  6%|██████▊                                                                                                          | 151/2499 [18:39<4:06:23,  6.30s/it]  6%|██████▊                                                                                                          | 152/2499 [18:46<4:06:17,  6.30s/it]                                                                                                                                                           {'loss': 0.6242, 'grad_norm': 0.15251557528972626, 'learning_rate': 0.00019842052921346479, 'ppl': 1.8668, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4760.27, 'total_tokens': 6916113, 'epoch': 0.18}
-  6%|██████▊                                                                                                          | 152/2499 [18:46<4:06:17,  6.30s/it]  6%|██████▉                                                                                                          | 153/2499 [18:52<4:06:09,  6.30s/it]                                                                                                                                                           {'loss': 0.6634, 'grad_norm': 0.15581682324409485, 'learning_rate': 0.00019839810614451434, 'ppl': 1.9414, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4622.18, 'total_tokens': 6945193, 'epoch': 0.18}
-  6%|██████▉                                                                                                          | 153/2499 [18:52<4:06:09,  6.30s/it]  6%|██████▉                                                                                                          | 154/2499 [18:58<4:05:45,  6.29s/it]                                                                                                                                                           {'loss': 0.6208, 'grad_norm': 0.14313741028308868, 'learning_rate': 0.00019837552631506592, 'ppl': 1.8604, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4588.89, 'total_tokens': 6973954, 'epoch': 0.18}
-  6%|██████▉                                                                                                          | 154/2499 [18:58<4:05:45,  6.29s/it]  6%|███████                                                                                                          | 155/2499 [19:04<4:05:27,  6.28s/it]                                                                                                                                                           {'loss': 0.652, 'grad_norm': 0.14645761251449585, 'learning_rate': 0.00019835278976109214, 'ppl': 1.9194, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4630.67, 'total_tokens': 7002988, 'epoch': 0.19}
-  6%|███████                                                                                                          | 155/2499 [19:04<4:05:27,  6.28s/it]  6%|███████                                                                                                          | 156/2499 [19:11<4:05:11,  6.28s/it]                                                                                                                                                           {'loss': 0.6053, 'grad_norm': 0.1450553685426712, 'learning_rate': 0.0001983298965188151, 'ppl': 1.8318, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4535.2, 'total_tokens': 7031406, 'epoch': 0.19}
-  6%|███████                                                                                                          | 156/2499 [19:11<4:05:11,  6.28s/it]  6%|███████                                                                                                          | 157/2499 [19:17<4:05:20,  6.29s/it]                                                                                                                                                           {'loss': 0.6132, 'grad_norm': 0.14832331240177155, 'learning_rate': 0.00019830684662470663, 'ppl': 1.8463, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4542.32, 'total_tokens': 7060015, 'epoch': 0.19}
-  6%|███████                                                                                                          | 157/2499 [19:17<4:05:20,  6.29s/it]  6%|███████▏                                                                                                         | 158/2499 [19:23<4:05:24,  6.29s/it]                                                                                                                                                           {'loss': 0.6337, 'grad_norm': 0.15093529224395752, 'learning_rate': 0.0001982836401154881, 'ppl': 1.8846, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4563.48, 'total_tokens': 7088745, 'epoch': 0.19}
-  6%|███████▏                                                                                                         | 158/2499 [19:23<4:05:24,  6.29s/it]  6%|███████▏                                                                                                         | 159/2499 [19:30<4:05:10,  6.29s/it]                                                                                                                                                           {'loss': 0.6969, 'grad_norm': 0.16975665092468262, 'learning_rate': 0.00019826027702813038, 'ppl': 2.0075, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4595.17, 'total_tokens': 7117583, 'epoch': 0.19}
-  6%|███████▏                                                                                                         | 159/2499 [19:30<4:05:10,  6.29s/it]  6%|███████▏                                                                                                         | 160/2499 [19:36<4:04:55,  6.28s/it]                                                                                                                                                           {'loss': 0.6083, 'grad_norm': 0.1516297310590744, 'learning_rate': 0.00019823675739985376, 'ppl': 1.8373, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4718.55, 'total_tokens': 7147178, 'epoch': 0.19}
-  6%|███████▏                                                                                                         | 160/2499 [19:36<4:04:55,  6.28s/it]  6%|███████▎                                                                                                         | 161/2499 [19:42<4:04:46,  6.28s/it]                                                                                                                                                           {'loss': 0.6185, 'grad_norm': 0.14229127764701843, 'learning_rate': 0.00019821308126812803, 'ppl': 1.8561, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4711.98, 'total_tokens': 7176755, 'epoch': 0.19}
-  6%|███████▎                                                                                                         | 161/2499 [19:42<4:04:46,  6.28s/it]  6%|███████▎                                                                                                         | 162/2499 [19:48<4:04:20,  6.27s/it]                                                                                                                                                           {'loss': 0.6169, 'grad_norm': 0.17252376675605774, 'learning_rate': 0.00019818924867067214, 'ppl': 1.8532, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4502.44, 'total_tokens': 7204896, 'epoch': 0.19}
-  6%|███████▎                                                                                                         | 162/2499 [19:48<4:04:20,  6.27s/it]  7%|███████▎                                                                                                         | 163/2499 [19:55<4:04:10,  6.27s/it]                                                                                                                                                           {'loss': 0.6053, 'grad_norm': 0.15479132533073425, 'learning_rate': 0.00019816525964545448, 'ppl': 1.8318, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4656.1, 'total_tokens': 7234072, 'epoch': 0.2}
-  7%|███████▎                                                                                                         | 163/2499 [19:55<4:04:10,  6.27s/it]  7%|███████▍                                                                                                         | 164/2499 [20:01<4:04:32,  6.28s/it]                                                                                                                                                           {'loss': 0.6358, 'grad_norm': 0.1458706557750702, 'learning_rate': 0.0001981411142306925, 'ppl': 1.8885, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4626.2, 'total_tokens': 7263258, 'epoch': 0.2}
-  7%|███████▍                                                                                                         | 164/2499 [20:01<4:04:32,  6.28s/it]  7%|███████▍                                                                                                         | 165/2499 [20:07<4:04:24,  6.28s/it]                                                                                                                                                           {'loss': 0.5665, 'grad_norm': 0.1417934000492096, 'learning_rate': 0.0001981168124648529, 'ppl': 1.7621, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4551.14, 'total_tokens': 7291824, 'epoch': 0.2}
-  7%|███████▍                                                                                                         | 165/2499 [20:07<4:04:24,  6.28s/it]  7%|███████▌                                                                                                         | 166/2499 [20:13<4:04:06,  6.28s/it]                                                                                                                                                           {'loss': 0.6314, 'grad_norm': 0.1490688920021057, 'learning_rate': 0.00019809235438665143, 'ppl': 1.8802, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4564.55, 'total_tokens': 7320418, 'epoch': 0.2}
-  7%|███████▌                                                                                                         | 166/2499 [20:13<4:04:06,  6.28s/it]  7%|███████▌                                                                                                         | 167/2499 [20:20<4:03:43,  6.27s/it]                                                                                                                                                           {'loss': 0.6009, 'grad_norm': 0.1549319177865982, 'learning_rate': 0.0001980677400350529, 'ppl': 1.8238, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4506.43, 'total_tokens': 7348591, 'epoch': 0.2}
-  7%|███████▌                                                                                                         | 167/2499 [20:20<4:03:43,  6.27s/it]  7%|███████▌                                                                                                         | 168/2499 [20:26<4:03:35,  6.27s/it]                                                                                                                                                           {'loss': 0.582, 'grad_norm': 0.1679680198431015, 'learning_rate': 0.000198042969449271, 'ppl': 1.7896, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4706.82, 'total_tokens': 7378083, 'epoch': 0.2}
-  7%|███████▌                                                                                                         | 168/2499 [20:26<4:03:35,  6.27s/it]  7%|███████▋                                                                                                         | 169/2499 [20:32<4:03:31,  6.27s/it]                                                                                                                                                           {'loss': 0.6688, 'grad_norm': 0.16335871815681458, 'learning_rate': 0.0001980180426687684, 'ppl': 1.9519, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4740.61, 'total_tokens': 7407810, 'epoch': 0.2}
-  7%|███████▋                                                                                                         | 169/2499 [20:32<4:03:31,  6.27s/it]  7%|███████▋                                                                                                         | 170/2499 [20:39<4:03:31,  6.27s/it]                                                                                                                                                           {'loss': 0.5984, 'grad_norm': 0.15233907103538513, 'learning_rate': 0.00019799295973325657, 'ppl': 1.8192, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4701.67, 'total_tokens': 7437325, 'epoch': 0.2}
-  7%|███████▋                                                                                                         | 170/2499 [20:39<4:03:31,  6.27s/it]  7%|███████▋                                                                                                         | 171/2499 [20:45<4:03:37,  6.28s/it]                                                                                                                                                           {'loss': 0.6533, 'grad_norm': 0.14838764071464539, 'learning_rate': 0.0001979677206826958, 'ppl': 1.9219, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4422.84, 'total_tokens': 7465136, 'epoch': 0.21}
-  7%|███████▋                                                                                                         | 171/2499 [20:45<4:03:37,  6.28s/it]  7%|███████▊                                                                                                         | 172/2499 [20:51<4:03:32,  6.28s/it]                                                                                                                                                           {'loss': 0.5928, 'grad_norm': 0.1395515352487564, 'learning_rate': 0.000197942325557295, 'ppl': 1.809, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4613.25, 'total_tokens': 7494094, 'epoch': 0.21}
-  7%|███████▊                                                                                                         | 172/2499 [20:51<4:03:32,  6.28s/it]  7%|███████▊                                                                                                         | 173/2499 [20:57<4:03:08,  6.27s/it]                                                                                                                                                           {'loss': 0.6164, 'grad_norm': 0.14091241359710693, 'learning_rate': 0.00019791677439751185, 'ppl': 1.8522, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4590.45, 'total_tokens': 7522794, 'epoch': 0.21}
-  7%|███████▊                                                                                                         | 173/2499 [20:57<4:03:08,  6.27s/it]  7%|███████▊                                                                                                         | 174/2499 [21:04<4:02:50,  6.27s/it]                                                                                                                                                           {'loss': 0.6732, 'grad_norm': 0.16553938388824463, 'learning_rate': 0.0001978910672440525, 'ppl': 1.9605, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4550.86, 'total_tokens': 7551247, 'epoch': 0.21}
-  7%|███████▊                                                                                                         | 174/2499 [21:04<4:02:50,  6.27s/it]  7%|███████▉                                                                                                         | 175/2499 [21:10<4:02:44,  6.27s/it]                                                                                                                                                           {'loss': 0.6298, 'grad_norm': 0.15987837314605713, 'learning_rate': 0.00019786520413787165, 'ppl': 1.8772, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4506.6, 'total_tokens': 7579481, 'epoch': 0.21}
-  7%|███████▉                                                                                                         | 175/2499 [21:10<4:02:44,  6.27s/it]  7%|███████▉                                                                                                         | 176/2499 [21:16<4:02:42,  6.27s/it]                                                                                                                                                           {'loss': 0.6511, 'grad_norm': 0.14235079288482666, 'learning_rate': 0.00019783918512017253, 'ppl': 1.9176, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4668.32, 'total_tokens': 7608756, 'epoch': 0.21}
-  7%|███████▉                                                                                                         | 176/2499 [21:16<4:02:42,  6.27s/it]  7%|████████                                                                                                         | 177/2499 [21:22<4:03:16,  6.29s/it]                                                                                                                                                           {'loss': 0.6042, 'grad_norm': 0.17243558168411255, 'learning_rate': 0.0001978130102324066, 'ppl': 1.8298, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4565.31, 'total_tokens': 7637623, 'epoch': 0.21}
-  7%|████████                                                                                                         | 177/2499 [21:22<4:03:16,  6.29s/it]  7%|████████                                                                                                         | 178/2499 [21:29<4:03:26,  6.29s/it]                                                                                                                                                           {'loss': 0.637, 'grad_norm': 0.16263476014137268, 'learning_rate': 0.00019778667951627382, 'ppl': 1.8908, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4526.74, 'total_tokens': 7666166, 'epoch': 0.21}
-  7%|████████                                                                                                         | 178/2499 [21:29<4:03:26,  6.29s/it]  7%|████████                                                                                                         | 179/2499 [21:35<4:03:04,  6.29s/it]                                                                                                                                                           {'loss': 0.6186, 'grad_norm': 0.15282128751277924, 'learning_rate': 0.00019776019301372225, 'ppl': 1.8563, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4439.86, 'total_tokens': 7693990, 'epoch': 0.21}
-  7%|████████                                                                                                         | 179/2499 [21:35<4:03:04,  6.29s/it]  7%|████████▏                                                                                                        | 180/2499 [21:41<4:02:51,  6.28s/it]                                                                                                                                                           {'loss': 0.6161, 'grad_norm': 0.14302721619606018, 'learning_rate': 0.00019773355076694826, 'ppl': 1.8517, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4753.91, 'total_tokens': 7723820, 'epoch': 0.22}
-  7%|████████▏                                                                                                        | 180/2499 [21:41<4:02:51,  6.28s/it]  7%|████████▏                                                                                                        | 181/2499 [21:48<4:02:32,  6.28s/it]                                                                                                                                                           {'loss': 0.6521, 'grad_norm': 0.1567981094121933, 'learning_rate': 0.00019770675281839624, 'ppl': 1.9196, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4552.84, 'total_tokens': 7752331, 'epoch': 0.22}
-  7%|████████▏                                                                                                        | 181/2499 [21:48<4:02:32,  6.28s/it]  7%|████████▏                                                                                                        | 182/2499 [21:54<4:02:22,  6.28s/it]                                                                                                                                                           {'loss': 0.6502, 'grad_norm': 0.16891400516033173, 'learning_rate': 0.00019767979921075866, 'ppl': 1.9159, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4489.31, 'total_tokens': 7780479, 'epoch': 0.22}
-  7%|████████▏                                                                                                        | 182/2499 [21:54<4:02:22,  6.28s/it]  7%|████████▎                                                                                                        | 183/2499 [22:00<4:02:16,  6.28s/it]                                                                                                                                                           {'loss': 0.62, 'grad_norm': 0.15879429876804352, 'learning_rate': 0.00019765268998697604, 'ppl': 1.8589, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4588.46, 'total_tokens': 7809267, 'epoch': 0.22}
-  7%|████████▎                                                                                                        | 183/2499 [22:00<4:02:16,  6.28s/it]  7%|████████▎                                                                                                        | 184/2499 [22:06<4:02:26,  6.28s/it]                                                                                                                                                           {'loss': 0.6378, 'grad_norm': 0.1598796546459198, 'learning_rate': 0.00019762542519023674, 'ppl': 1.8923, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4576.5, 'total_tokens': 7838088, 'epoch': 0.22}
-  7%|████████▎                                                                                                        | 184/2499 [22:06<4:02:26,  6.28s/it]  7%|████████▎                                                                                                        | 185/2499 [22:13<4:02:51,  6.30s/it]                                                                                                                                                           {'loss': 0.5584, 'grad_norm': 0.1714273989200592, 'learning_rate': 0.00019759800486397703, 'ppl': 1.7479, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4679.83, 'total_tokens': 7867688, 'epoch': 0.22}
-  7%|████████▎                                                                                                        | 185/2499 [22:13<4:02:51,  6.30s/it]  7%|████████▍                                                                                                        | 186/2499 [22:19<4:02:17,  6.29s/it]                                                                                                                                                           {'loss': 0.6139, 'grad_norm': 0.16586022078990936, 'learning_rate': 0.00019757042905188088, 'ppl': 1.8476, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4281.2, 'total_tokens': 7894459, 'epoch': 0.22}
-  7%|████████▍                                                                                                        | 186/2499 [22:19<4:02:17,  6.29s/it]  7%|████████▍                                                                                                        | 187/2499 [22:25<4:02:07,  6.28s/it]                                                                                                                                                           {'loss': 0.6282, 'grad_norm': 0.1663977950811386, 'learning_rate': 0.00019754269779788, 'ppl': 1.8742, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4602.7, 'total_tokens': 7923350, 'epoch': 0.22}
-  7%|████████▍                                                                                                        | 187/2499 [22:25<4:02:07,  6.28s/it]  8%|████████▌                                                                                                        | 188/2499 [22:32<4:01:49,  6.28s/it]                                                                                                                                                           {'loss': 0.5851, 'grad_norm': 0.1668008416891098, 'learning_rate': 0.0001975148111461538, 'ppl': 1.7952, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4571.75, 'total_tokens': 7951987, 'epoch': 0.23}
-  8%|████████▌                                                                                                        | 188/2499 [22:32<4:01:49,  6.28s/it]  8%|████████▌                                                                                                        | 189/2499 [22:38<4:01:32,  6.27s/it]                                                                                                                                                           {'loss': 0.626, 'grad_norm': 0.18379661440849304, 'learning_rate': 0.00019748676914112915, 'ppl': 1.8701, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4556.79, 'total_tokens': 7980520, 'epoch': 0.23}
-  8%|████████▌                                                                                                        | 189/2499 [22:38<4:01:32,  6.27s/it]  8%|████████▌                                                                                                        | 190/2499 [22:44<4:01:34,  6.28s/it]                                                                                                                                                           {'loss': 0.5925, 'grad_norm': 0.13806037604808807, 'learning_rate': 0.00019745857182748054, 'ppl': 1.8085, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4700.59, 'total_tokens': 8010056, 'epoch': 0.23}
-  8%|████████▌                                                                                                        | 190/2499 [22:44<4:01:34,  6.28s/it]  8%|████████▋                                                                                                        | 191/2499 [22:50<4:01:44,  6.28s/it]                                                                                                                                                           {'loss': 0.6313, 'grad_norm': 0.14297842979431152, 'learning_rate': 0.00019743021925012973, 'ppl': 1.8801, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4553.45, 'total_tokens': 8038737, 'epoch': 0.23}
-  8%|████████▋                                                                                                        | 191/2499 [22:50<4:01:44,  6.28s/it]  8%|████████▋                                                                                                        | 192/2499 [22:57<4:02:09,  6.30s/it]                                                                                                                                                           {'loss': 0.6269, 'grad_norm': 0.16967882215976715, 'learning_rate': 0.000197401711454246, 'ppl': 1.8718, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4698.64, 'total_tokens': 8068455, 'epoch': 0.23}
-  8%|████████▋                                                                                                        | 192/2499 [22:57<4:02:09,  6.30s/it]  8%|████████▋                                                                                                        | 193/2499 [23:03<4:01:52,  6.29s/it]                                                                                                                                                           {'loss': 0.5853, 'grad_norm': 0.15979325771331787, 'learning_rate': 0.0001973730484852458, 'ppl': 1.7955, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4662.01, 'total_tokens': 8097728, 'epoch': 0.23}
-  8%|████████▋                                                                                                        | 193/2499 [23:03<4:01:52,  6.29s/it]  8%|████████▊                                                                                                        | 194/2499 [23:09<4:01:24,  6.28s/it]                                                                                                                                                           {'loss': 0.6389, 'grad_norm': 0.1816360056400299, 'learning_rate': 0.00019734423038879283, 'ppl': 1.8944, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4387.73, 'total_tokens': 8125195, 'epoch': 0.23}
-  8%|████████▊                                                                                                        | 194/2499 [23:09<4:01:24,  6.28s/it]  8%|████████▊                                                                                                        | 195/2499 [23:16<4:01:06,  6.28s/it]                                                                                                                                                           {'loss': 0.5965, 'grad_norm': 0.14533467590808868, 'learning_rate': 0.00019731525721079793, 'ppl': 1.8158, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4552.24, 'total_tokens': 8153711, 'epoch': 0.23}
-  8%|████████▊                                                                                                        | 195/2499 [23:16<4:01:06,  6.28s/it]  8%|████████▊                                                                                                        | 196/2499 [23:22<4:00:54,  6.28s/it]                                                                                                                                                           {'loss': 0.6688, 'grad_norm': 0.16294941306114197, 'learning_rate': 0.000197286128997419, 'ppl': 1.9519, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4513.63, 'total_tokens': 8182000, 'epoch': 0.24}
-  8%|████████▊                                                                                                        | 196/2499 [23:22<4:00:54,  6.28s/it]  8%|████████▉                                                                                                        | 197/2499 [23:28<4:00:37,  6.27s/it]                                                                                                                                                           {'loss': 0.638, 'grad_norm': 0.15876515209674835, 'learning_rate': 0.00019725684579506095, 'ppl': 1.8927, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4516.46, 'total_tokens': 8210270, 'epoch': 0.24}
-  8%|████████▉                                                                                                        | 197/2499 [23:28<4:00:37,  6.27s/it]  8%|████████▉                                                                                                        | 198/2499 [23:34<4:01:01,  6.28s/it]                                                                                                                                                           {'loss': 0.6244, 'grad_norm': 0.1551365852355957, 'learning_rate': 0.00019722740765037555, 'ppl': 1.8671, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4607.89, 'total_tokens': 8239361, 'epoch': 0.24}
-  8%|████████▉                                                                                                        | 198/2499 [23:34<4:01:01,  6.28s/it]  8%|████████▉                                                                                                        | 199/2499 [23:41<4:01:12,  6.29s/it]                                                                                                                                                           {'loss': 0.6537, 'grad_norm': 0.15418943762779236, 'learning_rate': 0.00019719781461026146, 'ppl': 1.9226, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4639.8, 'total_tokens': 8268621, 'epoch': 0.24}
-  8%|████████▉                                                                                                        | 199/2499 [23:41<4:01:12,  6.29s/it]  8%|█████████                                                                                                        | 200/2499 [23:47<4:00:55,  6.29s/it]                                                                                                                                                           {'loss': 0.6467, 'grad_norm': 0.15851524472236633, 'learning_rate': 0.00019716806672186412, 'ppl': 1.9092, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4664.04, 'total_tokens': 8297884, 'epoch': 0.24}
-  8%|█████████                                                                                                        | 200/2499 [23:47<4:00:55,  6.29s/it][2025-12-28 11:29:23,624] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:42410] Running evaluation step...
-[2025-12-28 11:29:25,368] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8519337177276611
-[2025-12-28 11:29:26,219] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8512239456176758
-[2025-12-28 11:29:27,107] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8861675262451172
-[2025-12-28 11:29:27,946] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8390281200408936
-[2025-12-28 11:29:27,947] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
-
-  0%|                                                                                                                               | 0/90 [00:00<?, ?it/s][A
-  2%|██▋                                                                                                                    | 2/90 [00:00<00:36,  2.41it/s][A
-  3%|███▉                                                                                                                   | 3/90 [00:01<00:54,  1.58it/s][A
-  4%|█████▎                                                                                                                 | 4/90 [00:02<01:00,  1.43it/s][A
-  6%|██████▌                                                                                                                | 5/90 [00:03<01:05,  1.30it/s][A
-  7%|███████▉                                                                                                               | 6/90 [00:04<01:05,  1.27it/s][A
-  8%|█████████▎                                                                                                             | 7/90 [00:05<01:08,  1.22it/s][A
-  9%|██████████▌                                                                                                            | 8/90 [00:06<01:07,  1.22it/s][A
- 10%|███████████▉                                                                                                           | 9/90 [00:06<01:08,  1.19it/s][A
- 11%|█████████████                                                                                                         | 10/90 [00:07<01:06,  1.20it/s][A
- 12%|██████████████▍                                                                                                       | 11/90 [00:08<01:07,  1.17it/s][A
- 13%|███████████████▋                                                                                                      | 12/90 [00:09<01:05,  1.19it/s][A
- 14%|█████████████████                                                                                                     | 13/90 [00:10<01:06,  1.16it/s][A
- 16%|██████████████████▎                                                                                                   | 14/90 [00:11<01:04,  1.18it/s][A
- 17%|███████████████████▋                                                                                                  | 15/90 [00:12<01:04,  1.16it/s][A
- 18%|████████████████████▉                                                                                                 | 16/90 [00:12<01:02,  1.18it/s][A
- 19%|██████████████████████▎                                                                                               | 17/90 [00:13<01:02,  1.16it/s][A
- 20%|███████████████████████▌                                                                                              | 18/90 [00:14<01:01,  1.18it/s][A
- 21%|████████████████████████▉                                                                                             | 19/90 [00:15<01:01,  1.16it/s][A
- 22%|██████████████████████████▏                                                                                           | 20/90 [00:16<00:59,  1.18it/s][A
- 23%|███████████████████████████▌                                                                                          | 21/90 [00:17<00:59,  1.15it/s][A
- 24%|████████████████████████████▊                                                                                         | 22/90 [00:18<00:58,  1.17it/s][A
- 26%|██████████████████████████████▏                                                                                       | 23/90 [00:18<00:58,  1.15it/s][A
- 27%|███████████████████████████████▍                                                                                      | 24/90 [00:19<00:56,  1.17it/s][A
- 28%|████████████████████████████████▊                                                                                     | 25/90 [00:20<00:56,  1.15it/s][A
- 29%|██████████████████████████████████                                                                                    | 26/90 [00:21<00:54,  1.17it/s][A
- 30%|█████████��█████████████████████████▍                                                                                  | 27/90 [00:22<00:55,  1.14it/s][A
- 31%|████████████████████████████████████▋                                                                                 | 28/90 [00:23<00:53,  1.17it/s][A
- 32%|██████████████████████████████████████                                                                                | 29/90 [00:24<00:53,  1.13it/s][A
- 33%|███████████████████████████████████████▎                                                                              | 30/90 [00:24<00:51,  1.16it/s][A
- 34%|████████████████████████████████████████▋                                                                             | 31/90 [00:25<00:51,  1.14it/s][A
- 36%|█████████████████████████████████████████▉                                                                            | 32/90 [00:26<00:49,  1.16it/s][A
- 37%|███████████████████████████████████████████▎                                                                          | 33/90 [00:27<00:50,  1.13it/s][A
- 38%|████████████████████████████████████████████▌                                                                         | 34/90 [00:28<00:48,  1.16it/s][A
- 39%|█████████████████████████████████████████████▉                                                                        | 35/90 [00:29<00:48,  1.13it/s][A
- 40%|███████████████████████████████████████████████▏                                                                      | 36/90 [00:30<00:46,  1.17it/s][A
- 41%|████████████████████████████████████████████████▌                                                                     | 37/90 [00:31<00:46,  1.15it/s][A
- 42%|█████████████████████████████████████████████████▊                                                                    | 38/90 [00:31<00:44,  1.17it/s][A
- 43%|███████████████████████████████████████████████████▏                                                                  | 39/90 [00:32<00:44,  1.15it/s][A
- 44%|████████████████████████████████████████████████████▍                                                                 | 40/90 [00:33<00:42,  1.17it/s][A
- 46%|█████████████████████████████████████████████████████▊                                                                | 41/90 [00:34<00:42,  1.15it/s][A
- 47%|███████████████████████████████████████████████████████                                                               | 42/90 [00:35<00:41,  1.17it/s][A
- 48%|████████████████████████████████████████████████████████▍                                                             | 43/90 [00:36<00:40,  1.15it/s][A
- 49%|█████████████████████████████████████████████████████████▋                                                            | 44/90 [00:37<00:39,  1.16it/s][A
- 50%|███████████████████████████████████████████████████████████                                                           | 45/90 [00:38<00:39,  1.14it/s][A
- 51%|████████████████████████████████████████████████████████████▎                                                         | 46/90 [00:38<00:37,  1.16it/s][A
- 52%|█████████████████████████████████████████████████████████████▌                                                        | 47/90 [00:39<00:37,  1.15it/s][A
- 53%|██████████████████████████████████████████████████████████████▉                                                       | 48/90 [00:40<00:35,  1.17it/s][A
- 54%|████████████████████████████████████████████████████████████████▏                                                     | 49/90 [00:41<00:35,  1.15it/s][A
- 56%|█████████████████████████████████████████████████████████████████▌                                                    | 50/90 [00:42<00:34,  1.17it/s][A
- 57%|██████████████████████████████████████████████████████████████████▊                                                   | 51/90 [00:43<00:34,  1.14it/s][A
- 58%|████████████████████████████████████████████████████████████████████▏                                                 | 52/90 [00:43<00:32,  1.17it/s][A
- 59%|█████████████████████████████████████████████████████████████████████▍                                                | 53/90 [00:44<00:32,  1.15it/s][A
- 60%|██████████████████████████████████████████████████████████████████████▊                                               | 54/90 [00:45<00:30,  1.17it/s][A
- 61%|████████████████████████████████████████████████████████████████████████                                              | 55/90 [00:47<00:34,  1.01it/s][A
- 62%|█████████████████████████████████████████████████████████████████████████▍                                            | 56/90 [00:47<00:28,  1.18it/s][A
- 63%|██████████████████████████████████████████████████████████████████████████▋                                           | 57/90 [00:48<00:28,  1.16it/s][A
- 64%|████████████████████████████████████████████████████████████████████████████                                          | 58/90 [00:49<00:27,  1.18it/s][A
- 66%|█████████████████████████████████████████████████████████████████████████████▎                                        | 59/90 [00:50<00:26,  1.16it/s][A
- 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 60/90 [00:50<00:25,  1.18it/s][A
- 68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 61/90 [00:51<00:25,  1.15it/s][A
- 69%|█████████████████████████████████████████████████████████████████████████████████▎                                    | 62/90 [00:52<00:23,  1.17it/s][A
- 70%|█████████████████████████████████████████████████████████████████████████████████��▌                                   | 63/90 [00:53<00:26,  1.02it/s][A
- 71%|███████████████████████████████████████████████████████████████████████████████████▉                                  | 64/90 [00:54<00:24,  1.07it/s][A
- 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 65/90 [00:55<00:23,  1.09it/s][A
- 73%|██████████████████████████████████████████████████████████████████████████████████████▌                               | 66/90 [00:56<00:21,  1.12it/s][A
- 74%|███████████████████████████████████████████████████████████████████████████████████████▊                              | 67/90 [00:57<00:20,  1.12it/s][A
- 76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 68/90 [00:58<00:19,  1.15it/s][A
- 77%|██████████████████████████████████████████████████████████████████████████████████████████▍                           | 69/90 [00:59<00:18,  1.14it/s][A
- 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 70/90 [00:59<00:17,  1.16it/s][A
- 79%|█████████████████████████████████████████████████████████████████████████████████████████████                         | 71/90 [01:00<00:16,  1.15it/s][A
- 80%|██████████████████████████████████████████████████████████████████████████████████████████████▍                       | 72/90 [01:01<00:15,  1.17it/s][A
- 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 73/90 [01:02<00:14,  1.14it/s][A
- 82%|█████████████████████████████████████████████████████████████████████████████████████████████████                     | 74/90 [01:03<00:13,  1.17it/s][A
- 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 75/90 [01:04<00:13,  1.14it/s][A
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 76/90 [01:05<00:11,  1.17it/s][A
- 86%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 77/90 [01:06<00:11,  1.14it/s][A
- 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 78/90 [01:06<00:10,  1.17it/s][A
- 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 79/90 [01:07<00:09,  1.14it/s][A
- 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 80/90 [01:08<00:08,  1.17it/s][A
- 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 81/90 [01:09<00:07,  1.14it/s][A
- 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 82/90 [01:10<00:06,  1.17it/s][A
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 83/90 [01:11<00:06,  1.14it/s][A
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 84/90 [01:12<00:05,  1.16it/s][A
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 85/90 [01:12<00:04,  1.14it/s][A
- 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 86/90 [01:13<00:03,  1.16it/s][A
- 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 87/90 [01:14<00:02,  1.15it/s][A
- 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 88/90 [01:15<00:01,  1.17it/s][A
- 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 89/90 [01:16<00:00,  1.15it/s][A
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.15it/s][A                                                                                                                                                           
-                                                                                                                                                           [A{'eval_loss': 0.6098045110702515, 'eval_runtime': 79.6449, 'eval_samples_per_second': 9.166, 'eval_steps_per_second': 2.298, 'eval_ppl': 1.8401, 'memory/max_active (GiB)': 12.83, 'memory/max_allocated (GiB)': 6.85, 'memory/device_reserved (GiB)': 20.19, 'epoch': 0.24}
-  8%|█████████                                                                                                        | 200/2499 [25:11<4:00:55,  6.29s/it]
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.15it/s][A
-                                                                                                                                                           [A[2025-12-28 11:30:51,250] [INFO] [axolotl.core.trainers.base._save:692] [PID:42410] Saving model checkpoint to ./outputs/luau-codellama-h200/checkpoint-200
-  8%|█████████                                                                                                       | 201/2499 [25:22<20:58:02, 32.85s/it]                                                                                                                                                           {'loss': 0.62, 'grad_norm': 0.1783120483160019, 'learning_rate': 0.0001971381640325756, 'ppl': 1.8589, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4565.79, 'total_tokens': 9596269, 'epoch': 0.24}
-  8%|█████████                                                                                                       | 201/2499 [25:22<20:58:02, 32.85s/it]  8%|█████████                                                                                                       | 202/2499 [25:28<15:52:06, 24.87s/it]                                                                                                                                                           {'loss': 0.6069, 'grad_norm': 0.1567048877477646, 'learning_rate': 0.00019710810659003463, 'ppl': 1.8347, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4530.52, 'total_tokens': 9624606, 'epoch': 0.24}
-  8%|█████████                                                                                                       | 202/2499 [25:28<15:52:06, 24.87s/it]  8%|█████████                                                                                                       | 203/2499 [25:34<12:18:04, 19.29s/it]                                                                                                                                                           {'loss': 0.6501, 'grad_norm': 0.17752958834171295, 'learning_rate': 0.00019707789444212655, 'ppl': 1.9157, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4547.65, 'total_tokens': 9653076, 'epoch': 0.24}
-  8%|█████████                                                                                                       | 203/2499 [25:34<12:18:04, 19.29s/it]  8%|█████████▏                                                                                                       | 204/2499 [25:41<9:49:16, 15.41s/it]                                                                                                                                                           {'loss': 0.6438, 'grad_norm': 0.16355815529823303, 'learning_rate': 0.00019704752763698301, 'ppl': 1.9037, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4655.9, 'total_tokens': 9682621, 'epoch': 0.24}
-  8%|█████████▏                                                                                                       | 204/2499 [25:41<9:49:16, 15.41s/it]  8%|█████████▎                                                                                                       | 205/2499 [25:47<8:05:07, 12.69s/it]                                                                                                                                                           {'loss': 0.6053, 'grad_norm': 0.15781280398368835, 'learning_rate': 0.00019701700622298213, 'ppl': 1.8318, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4721.86, 'total_tokens': 9712580, 'epoch': 0.25}
-  8%|█████████▎                                                                                                       | 205/2499 [25:47<8:05:07, 12.69s/it]  8%|█████████▎                                                                                                       | 206/2499 [25:53<6:51:31, 10.77s/it]                                                                                                                                                           {'loss': 0.626, 'grad_norm': 0.1439598947763443, 'learning_rate': 0.00019698633024874842, 'ppl': 1.8701, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4724.82, 'total_tokens': 9742266, 'epoch': 0.25}
-  8%|█████████▎                                                                                                       | 206/2499 [25:53<6:51:31, 10.77s/it]  8%|█████████▎                                                                                                       | 207/2499 [26:00<5:59:38,  9.41s/it]                                                                                                                                                           {'loss': 0.6171, 'grad_norm': 0.17815396189689636, 'learning_rate': 0.00019695549976315245, 'ppl': 1.8535, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4507.21, 'total_tokens': 9770456, 'epoch': 0.25}
-  8%|█████████▎                                                                                                       | 207/2499 [26:00<5:59:38,  9.41s/it]  8%|█████████▍                                                                                                       | 208/2499 [26:06<5:23:29,  8.47s/it]                                                                                                                                                           {'loss': 0.569, 'grad_norm': 0.15135987102985382, 'learning_rate': 0.0001969245148153111, 'ppl': 1.7665, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4686.34, 'total_tokens': 9799838, 'epoch': 0.25}
-  8%|█████████▍                                                                                                       | 208/2499 [26:06<5:23:29,  8.47s/it]  8%|█████████▍                                                                                                       | 209/2499 [26:12<4:58:00,  7.81s/it]                                                                                                                                                           {'loss': 0.6061, 'grad_norm': 0.15614871680736542, 'learning_rate': 0.00019689337545458727, 'ppl': 1.8333, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4564.09, 'total_tokens': 9828394, 'epoch': 0.25}
-  8%|█████████▍                                                                                                       | 209/2499 [26:12<4:58:00,  7.81s/it]  8%|█████████▍                                                                                                       | 210/2499 [26:18<4:40:23,  7.35s/it]                                                                                                                                                           {'loss': 0.5968, 'grad_norm': 0.155409038066864, 'learning_rate': 0.00019686208173058987, 'ppl': 1.8163, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4670.39, 'total_tokens': 9857717, 'epoch': 0.25}
-  8%|█████████▍                                                                                                       | 210/2499 [26:18<4:40:23,  7.35s/it]  8%|█████████▌                                                                                                       | 211/2499 [26:25<4:28:24,  7.04s/it]                                                                                                                                                           {'loss': 0.6103, 'grad_norm': 0.14444303512573242, 'learning_rate': 0.00019683063369317364, 'ppl': 1.841, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4549.36, 'total_tokens': 9886424, 'epoch': 0.25}
-  8%|█████████▌                                                                                                       | 211/2499 [26:25<4:28:24,  7.04s/it]  8%|█████████▌                                                                                                       | 212/2499 [26:31<4:19:41,  6.81s/it]                                                                                                                                                           {'loss': 0.6344, 'grad_norm': 0.15831312537193298, 'learning_rate': 0.00019679903139243937, 'ppl': 1.8859, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4649.2, 'total_tokens': 9915636, 'epoch': 0.25}
-  8%|█████████▌                                                                                                       | 212/2499 [26:31<4:19:41,  6.81s/it]  9%|█████████▋                                                                                                       | 213/2499 [26:37<4:13:23,  6.65s/it]                                                                                                                                                           {'loss': 0.6425, 'grad_norm': 0.16117224097251892, 'learning_rate': 0.00019676727487873334, 'ppl': 1.9012, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4553.31, 'total_tokens': 9944180, 'epoch': 0.26}
-  9%|█████████▋                                                                                                       | 213/2499 [26:37<4:13:23,  6.65s/it]  9%|█████████▋                                                                                                       | 214/2499 [26:44<4:09:02,  6.54s/it]                                                                                                                                                           {'loss': 0.6397, 'grad_norm': 0.15113097429275513, 'learning_rate': 0.00019673536420264774, 'ppl': 1.8959, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4723.13, 'total_tokens': 9973833, 'epoch': 0.26}
-  9%|█████████▋                                                                                                       | 214/2499 [26:44<4:09:02,  6.54s/it]  9%|█████████▋                                                                                                       | 215/2499 [26:50<4:05:51,  6.46s/it]                                                                                                                                                           {'loss': 0.6297, 'grad_norm': 0.16022402048110962, 'learning_rate': 0.00019670329941502023, 'ppl': 1.877, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4658.6, 'total_tokens': 10003030, 'epoch': 0.26}
-  9%|█████████▋                                                                                                       | 215/2499 [26:50<4:05:51,  6.46s/it]  9%|█████████▊                                                                                                       | 216/2499 [26:56<4:03:28,  6.40s/it]                                                                                                                                                           {'loss': 0.6056, 'grad_norm': 0.14694246649742126, 'learning_rate': 0.00019667108056693405, 'ppl': 1.8324, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4430.63, 'total_tokens': 10030750, 'epoch': 0.26}
-  9%|█████████▊                                                                                                       | 216/2499 [26:56<4:03:28,  6.40s/it]  9%|█████████▊                                                                                                       | 217/2499 [27:02<4:02:15,  6.37s/it]                                                                                                                                                           {'loss': 0.5919, 'grad_norm': 0.24986422061920166, 'learning_rate': 0.00019663870770971788, 'ppl': 1.8074, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4534.13, 'total_tokens': 10059315, 'epoch': 0.26}
-  9%|█████████▊                                                                                                       | 217/2499 [27:02<4:02:15,  6.37s/it]  9%|█████████▊                                                                                                       | 218/2499 [27:09<4:01:23,  6.35s/it]                                                                                                                                                           {'loss': 0.6979, 'grad_norm': 0.16677173972129822, 'learning_rate': 0.0001966061808949457, 'ppl': 2.0095, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4392.88, 'total_tokens': 10086983, 'epoch': 0.26}
-  9%|█████████▊                                                                                                       | 218/2499 [27:09<4:01:23,  6.35s/it]  9%|█████████▉                                                                                                       | 219/2499 [27:15<4:00:25,  6.33s/it]                                                                                                                                                           {'loss': 0.6049, 'grad_norm': 0.15127292275428772, 'learning_rate': 0.0001965735001744368, 'ppl': 1.8311, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4572.27, 'total_tokens': 10115652, 'epoch': 0.26}
-  9%|█████████▉                                                                                                       | 219/2499 [27:15<4:00:25,  6.33s/it]  9%|█████████▉                                                                                                       | 220/2499 [27:21<3:59:42,  6.31s/it]                                                                                                                                                           {'loss': 0.6062, 'grad_norm': 0.15187977254390717, 'learning_rate': 0.00019654066560025567, 'ppl': 1.8335, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4528.19, 'total_tokens': 10144050, 'epoch': 0.26}
-  9%|█████████▉                                                                                                       | 220/2499 [27:21<3:59:42,  6.31s/it]  9%|█████████▉                                                                                                       | 221/2499 [27:27<3:59:15,  6.30s/it]                                                                                                                                                           {'loss': 0.5865, 'grad_norm': 0.15046511590480804, 'learning_rate': 0.00019650767722471186, 'ppl': 1.7977, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4610.57, 'total_tokens': 10172997, 'epoch': 0.27}
-  9%|█████████▉                                                                                                       | 221/2499 [27:27<3:59:15,  6.30s/it]  9%|██████████                                                                                                       | 222/2499 [27:34<3:58:50,  6.29s/it]                                                                                                                                                           {'loss': 0.5561, 'grad_norm': 0.138535276055336, 'learning_rate': 0.00019647453510036002, 'ppl': 1.7439, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4535.14, 'total_tokens': 10201441, 'epoch': 0.27}
-  9%|██████████                                                                                                       | 222/2499 [27:34<3:58:50,  6.29s/it]  9%|██████████                                                                                                       | 223/2499 [27:40<3:58:42,  6.29s/it]                                                                                                                                                           {'loss': 0.6202, 'grad_norm': 0.15157605707645416, 'learning_rate': 0.0001964412392799997, 'ppl': 1.8593, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4750.1, 'total_tokens': 10231316, 'epoch': 0.27}
-  9%|██████████                                                                                                       | 223/2499 [27:40<3:58:42,  6.29s/it]  9%|██████████▏                                                                                                      | 224/2499 [27:46<3:58:53,  6.30s/it]                                                                                                                                                           {'loss': 0.6144, 'grad_norm': 0.15931400656700134, 'learning_rate': 0.00019640778981667526, 'ppl': 1.8485, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4641.35, 'total_tokens': 10260630, 'epoch': 0.27}
-  9%|██████████▏                                                                                                      | 224/2499 [27:46<3:58:53,  6.30s/it]  9%|██████████▏                                                                                                      | 225/2499 [27:53<3:58:56,  6.30s/it]                                                                                                                                                           {'loss': 0.6279, 'grad_norm': 0.1776997298002243, 'learning_rate': 0.00019637418676367595, 'ppl': 1.8737, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4354.47, 'total_tokens': 10288107, 'epoch': 0.27}
-  9%|██████████▏                                                                                                      | 225/2499 [27:53<3:58:56,  6.30s/it]  9%|██████████▏                                                                                                      | 226/2499 [27:59<3:58:40,  6.30s/it]                                                                                                                                                           {'loss': 0.6077, 'grad_norm': 0.15269804000854492, 'learning_rate': 0.00019634043017453565, 'ppl': 1.8362, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4585.03, 'total_tokens': 10316931, 'epoch': 0.27}
-  9%|██████████▏                                                                                                      | 226/2499 [27:59<3:58:40,  6.30s/it]  9%|██████████▎                                                                                                      | 227/2499 [28:05<3:58:11,  6.29s/it]                                                                                                                                                           {'loss': 0.6055, 'grad_norm': 0.15620221197605133, 'learning_rate': 0.00019630652010303273, 'ppl': 1.8322, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4495.93, 'total_tokens': 10345097, 'epoch': 0.27}
-  9%|██████████▎                                                                                                      | 227/2499 [28:05<3:58:11,  6.29s/it]  9%|██████████▎                                                                                                      | 228/2499 [28:12<3:57:59,  6.29s/it]                                                                                                                                                           {'loss': 0.6165, 'grad_norm': 0.1660533845424652, 'learning_rate': 0.00019627245660319026, 'ppl': 1.8524, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4621.54, 'total_tokens': 10374119, 'epoch': 0.27}
-  9%|██████████▎                                                                                                      | 228/2499 [28:12<3:57:59,  6.29s/it]  9%|██████████▎                                                                                                      | 229/2499 [28:18<3:58:06,  6.29s/it]                                                                                                                                                           {'loss': 0.6691, 'grad_norm': 0.17098499834537506, 'learning_rate': 0.00019623823972927563, 'ppl': 1.9525, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4424.1, 'total_tokens': 10402014, 'epoch': 0.27}
-  9%|██████████▎                                                                                                      | 229/2499 [28:18<3:58:06,  6.29s/it]  9%|██████████▍                                                                                                      | 230/2499 [28:24<3:58:23,  6.30s/it]                                                                                                                                                           {'loss': 0.5747, 'grad_norm': 0.15090154111385345, 'learning_rate': 0.00019620386953580067, 'ppl': 1.7766, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4648.9, 'total_tokens': 10431409, 'epoch': 0.28}
-  9%|██████████▍                                                                                                      | 230/2499 [28:24<3:58:23,  6.30s/it]  9%|██████████▍                                                                                                      | 231/2499 [28:30<3:58:22,  6.31s/it]                                                                                                                                                           {'loss': 0.6935, 'grad_norm': 0.1816420555114746, 'learning_rate': 0.00019616934607752127, 'ppl': 2.0007, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4424.06, 'total_tokens': 10459322, 'epoch': 0.28}
-  9%|██████████▍                                                                                                      | 231/2499 [28:30<3:58:22,  6.31s/it]  9%|██████████▍                                                                                                      | 232/2499 [28:37<3:58:24,  6.31s/it]                                                                                                                                                           {'loss': 0.626, 'grad_norm': 0.1661038100719452, 'learning_rate': 0.0001961346694094377, 'ppl': 1.8701, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4496.08, 'total_tokens': 10487718, 'epoch': 0.28}
-  9%|██████████▍                                                                                                      | 232/2499 [28:37<3:58:24,  6.31s/it]  9%|██████████▌                                                                                                      | 233/2499 [28:43<3:58:03,  6.30s/it]                                                                                                                                                           {'loss': 0.6463, 'grad_norm': 0.1440490186214447, 'learning_rate': 0.00019609983958679422, 'ppl': 1.9085, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4682.72, 'total_tokens': 10517146, 'epoch': 0.28}
-  9%|██████████▌                                                                                                      | 233/2499 [28:43<3:58:03,  6.30s/it]  9%|██████████▌                                                                                                      | 234/2499 [28:49<3:57:34,  6.29s/it]                                                                                                                                                           {'loss': 0.6234, 'grad_norm': 0.1468016356229782, 'learning_rate': 0.00019606485666507912, 'ppl': 1.8653, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4655.6, 'total_tokens': 10546326, 'epoch': 0.28}
-  9%|██████████▌                                                                                                      | 234/2499 [28:49<3:57:34,  6.29s/it]  9%|██████████▋                                                                                                      | 235/2499 [28:56<3:57:11,  6.29s/it]                                                                                                                                                           {'loss': 0.5476, 'grad_norm': 0.15022438764572144, 'learning_rate': 0.00019602972070002452, 'ppl': 1.7291, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4583.31, 'total_tokens': 10575047, 'epoch': 0.28}
-  9%|██████████▋                                                                                                      | 235/2499 [28:56<3:57:11,  6.29s/it]  9%|██████████▋                                                                                                      | 236/2499 [29:02<3:56:57,  6.28s/it]                                                                                                                                                           {'loss': 0.5992, 'grad_norm': 0.15142318606376648, 'learning_rate': 0.00019599443174760648, 'ppl': 1.8207, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4589.7, 'total_tokens': 10603836, 'epoch': 0.28}
-  9%|██████████▋                                                                                                      | 236/2499 [29:02<3:56:57,  6.28s/it]  9%|██████████▋                                                                                                      | 237/2499 [29:08<3:56:44,  6.28s/it]                                                                                                                                                           {'loss': 0.6017, 'grad_norm': 0.14540834724903107, 'learning_rate': 0.00019595898986404464, 'ppl': 1.8252, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4538.75, 'total_tokens': 10632296, 'epoch': 0.28}
-  9%|██████████▋                                                                                                      | 237/2499 [29:08<3:56:44,  6.28s/it] 10%|██████████▊                                                                                                      | 238/2499 [29:14<3:57:00,  6.29s/it]                                                                                                                                                           {'loss': 0.6406, 'grad_norm': 0.16254767775535583, 'learning_rate': 0.00019592339510580243, 'ppl': 1.8976, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4589.97, 'total_tokens': 10661260, 'epoch': 0.29}
- 10%|██████████▊                                                                                                      | 238/2499 [29:14<3:57:00,  6.29s/it] 10%|██████████▊                                                                                                      | 239/2499 [29:21<3:57:02,  6.29s/it]                                                                                                                                                           {'loss': 0.6249, 'grad_norm': 0.14255541563034058, 'learning_rate': 0.00019588764752958668, 'ppl': 1.8681, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4737.33, 'total_tokens': 10691094, 'epoch': 0.29}
- 10%|██████████▊                                                                                                      | 239/2499 [29:21<3:57:02,  6.29s/it] 10%|██████████▊                                                                                                      | 240/2499 [29:27<3:56:41,  6.29s/it]                                                                                                                                                           {'loss': 0.6637, 'grad_norm': 0.1646222472190857, 'learning_rate': 0.00019585174719234782, 'ppl': 1.942, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4616.52, 'total_tokens': 10720034, 'epoch': 0.29}
- 10%|██████████▊                                                                                                      | 240/2499 [29:27<3:56:41,  6.29s/it] 10%|██████████▉                                                                                                      | 241/2499 [29:33<3:56:15,  6.28s/it]                                                                                                                                                           {'loss': 0.5695, 'grad_norm': 0.14777596294879913, 'learning_rate': 0.00019581569415127954, 'ppl': 1.7674, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4495.8, 'total_tokens': 10748161, 'epoch': 0.29}
- 10%|██████████▉                                                                                                      | 241/2499 [29:33<3:56:15,  6.28s/it] 10%|██████████▉                                                                                                      | 242/2499 [29:40<3:55:55,  6.27s/it]                                                                                                                                                           {'loss': 0.629, 'grad_norm': 0.17004624009132385, 'learning_rate': 0.00019577948846381886, 'ppl': 1.8757, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4432.93, 'total_tokens': 10775888, 'epoch': 0.29}
- 10%|██████████▉                                                                                                      | 242/2499 [29:40<3:55:55,  6.27s/it] 10%|██████████▉                                                                                                      | 243/2499 [29:46<3:55:47,  6.27s/it]                                                                                                                                                           {'loss': 0.6156, 'grad_norm': 0.15959785878658295, 'learning_rate': 0.00019574313018764597, 'ppl': 1.8508, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4592.21, 'total_tokens': 10804671, 'epoch': 0.29}
- 10%|██████████▉                                                                                                      | 243/2499 [29:46<3:55:47,  6.27s/it] 10%|█████████��█                                                                                                      | 244/2499 [29:52<3:55:42,  6.27s/it]                                                                                                                                                           {'loss': 0.6562, 'grad_norm': 0.15434452891349792, 'learning_rate': 0.00019570661938068417, 'ppl': 1.9275, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4657.16, 'total_tokens': 10833870, 'epoch': 0.29}
- 10%|███████████                                                                                                      | 244/2499 [29:52<3:55:42,  6.27s/it] 10%|███████████                                                                                                      | 245/2499 [29:58<3:55:51,  6.28s/it]                                                                                                                                                           {'loss': 0.6261, 'grad_norm': 0.15079908072948456, 'learning_rate': 0.00019566995610109967, 'ppl': 1.8703, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4408.02, 'total_tokens': 10861605, 'epoch': 0.29}
- 10%|███████████                                                                                                      | 245/2499 [29:58<3:55:51,  6.28s/it] 10%|███████████                                                                                                      | 246/2499 [30:05<3:55:38,  6.28s/it]                                                                                                                                                           {'loss': 0.6186, 'grad_norm': 0.15629984438419342, 'learning_rate': 0.0001956331404073018, 'ppl': 1.8563, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4470.79, 'total_tokens': 10889613, 'epoch': 0.3}
- 10%|███████████                                                                                                      | 246/2499 [30:05<3:55:38,  6.28s/it] 10%|███████████▏                                                                                                     | 247/2499 [30:11<3:55:48,  6.28s/it]                                                                                                                                                           {'loss': 0.6016, 'grad_norm': 0.1890110820531845, 'learning_rate': 0.00019559617235794243, 'ppl': 1.825, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4523.88, 'total_tokens': 10918100, 'epoch': 0.3}
- 10%|███████████▏                                                                                                     | 247/2499 [30:11<3:55:48,  6.28s/it] 10%|███████████▏                                                                                                     | 248/2499 [30:17<3:55:27,  6.28s/it]                                                                                                                                                           {'loss': 0.5688, 'grad_norm': 0.15975165367126465, 'learning_rate': 0.00019555905201191638, 'ppl': 1.7661, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4415.02, 'total_tokens': 10945730, 'epoch': 0.3}
- 10%|███████████▏                                                                                                     | 248/2499 [30:17<3:55:27,  6.28s/it] 10%|███████████▎                                                                                                     | 249/2499 [30:24<3:55:16,  6.27s/it]                                                                                                                                                           {'loss': 0.6438, 'grad_norm': 0.17490845918655396, 'learning_rate': 0.00019552177942836098, 'ppl': 1.9037, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4577.94, 'total_tokens': 10974419, 'epoch': 0.3}
- 10%|███████████▎                                                                                                     | 249/2499 [30:24<3:55:16,  6.27s/it] 10%|███████████▎                                                                                                     | 250/2499 [30:30<3:55:24,  6.28s/it]                                                                                                                                                           {'loss': 0.6401, 'grad_norm': 0.1564694046974182, 'learning_rate': 0.0001954843546666561, 'ppl': 1.8967, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4774.51, 'total_tokens': 11004462, 'epoch': 0.3}
- 10%|███████████▎                                                                                                     | 250/2499 [30:30<3:55:24,  6.28s/it] 10%|███████████▎                                                                                                     | 251/2499 [30:36<3:55:28,  6.28s/it]                                                                                                                                                           {'loss': 0.572, 'grad_norm': 0.15054045617580414, 'learning_rate': 0.00019544677778642408, 'ppl': 1.7718, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4414.85, 'total_tokens': 11032247, 'epoch': 0.3}
- 10%|███████████▎                                                                                                     | 251/2499 [30:36<3:55:28,  6.28s/it] 10%|███████████▍                                                                                                     | 252/2499 [30:42<3:55:48,  6.30s/it]                                                                                                                                                           {'loss': 0.5845, 'grad_norm': 0.15074437856674194, 'learning_rate': 0.00019540904884752963, 'ppl': 1.7941, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4519.84, 'total_tokens': 11060814, 'epoch': 0.3}
- 10%|███████████▍                                                                                                     | 252/2499 [30:42<3:55:48,  6.30s/it] 10%|███████████▍                                                                                                     | 253/2499 [30:49<3:55:41,  6.30s/it]                                                                                                                                                           {'loss': 0.6189, 'grad_norm': 0.17772871255874634, 'learning_rate': 0.0001953711679100796, 'ppl': 1.8569, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4681.42, 'total_tokens': 11090268, 'epoch': 0.3}
- 10%|███████████▍                                                                                                     | 253/2499 [30:49<3:55:41,  6.30s/it] 10%|███████████▍                                                                                                     | 254/2499 [30:55<3:55:17,  6.29s/it]                                                                                                                                                           {'loss': 0.636, 'grad_norm': 0.16250668466091156, 'learning_rate': 0.00019533313503442313, 'ppl': 1.8889, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4665.44, 'total_tokens': 11119505, 'epoch': 0.3}
- 10%|███████████▍                                                                                                     | 254/2499 [30:55<3:55:17,  6.29s/it] 10%|███████████▌                                                                                                     | 255/2499 [31:01<3:54:59,  6.28s/it]                                                                                                                                                           {'loss': 0.617, 'grad_norm': 0.15999537706375122, 'learning_rate': 0.0001952949502811513, 'ppl': 1.8534, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4580.22, 'total_tokens': 11148217, 'epoch': 0.31}
- 10%|███████████▌                                                                                                     | 255/2499 [31:01<3:54:59,  6.28s/it] 10%|███████████▌                                                                                                     | 256/2499 [31:08<3:54:43,  6.28s/it]                                                                                                                                                           {'loss': 0.6121, 'grad_norm': 0.1519382745027542, 'learning_rate': 0.00019525661371109726, 'ppl': 1.8443, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4643.22, 'total_tokens': 11177318, 'epoch': 0.31}
- 10%|███████████▌                                                                                                     | 256/2499 [31:08<3:54:43,  6.28s/it] 10%|███████████▌                                                                                                     | 257/2499 [31:14<3:54:29,  6.28s/it]                                                                                                                                                           {'loss': 0.6486, 'grad_norm': 0.16151119768619537, 'learning_rate': 0.00019521812538533592, 'ppl': 1.9129, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4493.36, 'total_tokens': 11205465, 'epoch': 0.31}
- 10%|███████████▌                                                                                                     | 257/2499 [31:14<3:54:29,  6.28s/it] 10%|███████████▋                                                                                                     | 258/2499 [31:20<3:54:42,  6.28s/it]                                                                                                                                                           {'loss': 0.602, 'grad_norm': 0.15068507194519043, 'learning_rate': 0.000195179485365184, 'ppl': 1.8258, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4588.52, 'total_tokens': 11234379, 'epoch': 0.31}
- 10%|███████████▋                                                                                                     | 258/2499 [31:20<3:54:42,  6.28s/it] 10%|███████████▋                                                                                                     | 259/2499 [31:26<3:55:04,  6.30s/it]                                                                                                                                                           {'loss': 0.5858, 'grad_norm': 0.14763666689395905, 'learning_rate': 0.00019514069371219989, 'ppl': 1.7964, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4632.62, 'total_tokens': 11263667, 'epoch': 0.31}
- 10%|███████████▋                                                                                                     | 259/2499 [31:26<3:55:04,  6.30s/it] 10%|███████████▊                                                                                                     | 260/2499 [31:33<3:54:40,  6.29s/it]                                                                                                                                                           {'loss': 0.5806, 'grad_norm': 0.1620749682188034, 'learning_rate': 0.00019510175048818358, 'ppl': 1.7871, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4537.22, 'total_tokens': 11292098, 'epoch': 0.31}
- 10%|███████████▊                                                                                                     | 260/2499 [31:33<3:54:40,  6.29s/it] 10%|███████████▊                                                                                                     | 261/2499 [31:39<3:54:14,  6.28s/it]                                                                                                                                                           {'loss': 0.6139, 'grad_norm': 0.16305935382843018, 'learning_rate': 0.00019506265575517645, 'ppl': 1.8476, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4553.53, 'total_tokens': 11320589, 'epoch': 0.31}
- 10%|███████████▊                                                                                                     | 261/2499 [31:39<3:54:14,  6.28s/it] 10%|███████████▊                                                                                                     | 262/2499 [31:45<3:53:57,  6.28s/it]                                                                                                                                                           {'loss': 0.5836, 'grad_norm': 0.1518191397190094, 'learning_rate': 0.00019502340957546133, 'ppl': 1.7925, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4476.69, 'total_tokens': 11348623, 'epoch': 0.31}
- 10%|███████████▊                                                                                                     | 262/2499 [31:45<3:53:57,  6.28s/it] 11%|███████████▉                                                                                                     | 263/2499 [31:52<3:54:00,  6.28s/it]                                                                                                                                                           {'loss': 0.6227, 'grad_norm': 0.16224627196788788, 'learning_rate': 0.00019498401201156233, 'ppl': 1.864, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4719.83, 'total_tokens': 11378293, 'epoch': 0.32}
- 11%|███████████▉                                                                                                     | 263/2499 [31:52<3:54:00,  6.28s/it] 11%|███████████▉                                                                                                     | 264/2499 [31:58<3:53:56,  6.28s/it]                                                                                                                                                           {'loss': 0.5515, 'grad_norm': 0.15429292619228363, 'learning_rate': 0.00019494446312624464, 'ppl': 1.7359, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4659.78, 'total_tokens': 11407559, 'epoch': 0.32}
- 11%|███████████▉                                                                                                     | 264/2499 [31:58<3:53:56,  6.28s/it] 11%|███████████▉                                                                                                     | 265/2499 [32:04<3:54:07,  6.29s/it]                                                                                                                                                           {'loss': 0.627, 'grad_norm': 0.14916737377643585, 'learning_rate': 0.0001949047629825146, 'ppl': 1.872, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4431.08, 'total_tokens': 11435494, 'epoch': 0.32}
- 11%|███████████▉                                                                                                     | 265/2499 [32:04<3:54:07,  6.29s/it] 11%|████████████                                                                                                     | 266/2499 [32:10<3:54:24,  6.30s/it]                                                                                                                                                           {'loss': 0.6209, 'grad_norm': 0.16902928054332733, 'learning_rate': 0.00019486491164361953, 'ppl': 1.8606, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4605.07, 'total_tokens': 11464595, 'epoch': 0.32}
- 11%|████████████                                                                                                     | 266/2499 [32:10<3:54:24,  6.30s/it] 11%|████████████                                                                                                     | 267/2499 [32:17<3:54:07,  6.29s/it]                                                                                                                                                           {'loss': 0.5865, 'grad_norm': 0.17003753781318665, 'learning_rate': 0.00019482490917304757, 'ppl': 1.7977, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4610.91, 'total_tokens': 11493546, 'epoch': 0.32}
- 11%|████████████                                                                                                     | 267/2499 [32:17<3:54:07,  6.29s/it] 11%|████████████                                                                                                     | 268/2499 [32:23<3:53:43,  6.29s/it]                                                                                                                                                           {'loss': 0.6035, 'grad_norm': 0.14946606755256653, 'learning_rate': 0.0001947847556345277, 'ppl': 1.8285, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4647.76, 'total_tokens': 11522665, 'epoch': 0.32}
- 11%|████████████                                                                                                     | 268/2499 [32:23<3:53:43,  6.29s/it] 11%|████████████▏                                                                                                    | 269/2499 [32:29<3:53:22,  6.28s/it]                                                                                                                                                           {'loss': 0.6196, 'grad_norm': 0.1707615703344345, 'learning_rate': 0.0001947444510920295, 'ppl': 1.8582, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4341.34, 'total_tokens': 11549847, 'epoch': 0.32}
- 11%|████████████▏                                                                                                    | 269/2499 [32:29<3:53:22,  6.28s/it] 11%|████████████▏                                                                                                    | 270/2499 [32:36<3:53:28,  6.28s/it]                                                                                                                                                           {'loss': 0.5874, 'grad_norm': 0.16345329582691193, 'learning_rate': 0.00019470399560976315, 'ppl': 1.7993, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4518.74, 'total_tokens': 11578294, 'epoch': 0.32}
- 11%|████████████▏                                                                                                    | 270/2499 [32:36<3:53:28,  6.28s/it] 11%|████████████▎                                                                                                    | 271/2499 [32:42<3:52:54,  6.27s/it]                                                                                                                                                           {'loss': 0.571, 'grad_norm': 0.162063866853714, 'learning_rate': 0.00019466338925217932, 'ppl': 1.77, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4312.6, 'total_tokens': 11605204, 'epoch': 0.33}
- 11%|████████████▎                                                                                                    | 271/2499 [32:42<3:52:54,  6.27s/it] 11%|████████████▎                                                                                                    | 272/2499 [32:48<3:53:16,  6.28s/it]                                                                                                                                                           {'loss': 0.6094, 'grad_norm': 0.16176359355449677, 'learning_rate': 0.000194622632083969, 'ppl': 1.8393, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4681.13, 'total_tokens': 11634753, 'epoch': 0.33}
- 11%|████████████▎                                                                                                    | 272/2499 [32:48<3:53:16,  6.28s/it] 11%|████████████▎                                                                                                    | 273/2499 [32:54<3:53:29,  6.29s/it]                                                                                                                                                           {'loss': 0.6469, 'grad_norm': 0.1526668667793274, 'learning_rate': 0.00019458172417006347, 'ppl': 1.9096, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4609.18, 'total_tokens': 11663837, 'epoch': 0.33}
- 11%|████████████▎                                                                                                    | 273/2499 [32:54<3:53:29,  6.29s/it] 11%|████████████▍                                                                                                    | 274/2499 [33:01<3:53:07,  6.29s/it]                                                                                                                                                           {'loss': 0.6463, 'grad_norm': 0.17007103562355042, 'learning_rate': 0.00019454066557563415, 'ppl': 1.9085, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4541.62, 'total_tokens': 11692294, 'epoch': 0.33}
- 11%|████████████▍                                                                                                    | 274/2499 [33:01<3:53:07,  6.29s/it] 11%|████████████▍                                                                                                    | 275/2499 [33:07<3:52:57,  6.28s/it]                                                                                                                                                           {'loss': 0.6217, 'grad_norm': 0.16375601291656494, 'learning_rate': 0.00019449945636609254, 'ppl': 1.8621, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4667.04, 'total_tokens': 11721595, 'epoch': 0.33}
- 11%|████████████▍                                                                                                    | 275/2499 [33:07<3:52:57,  6.28s/it] 11%|████████████▍                                                                                                    | 276/2499 [33:13<3:52:39,  6.28s/it]                                                                                                                                                           {'loss': 0.6596, 'grad_norm': 0.16178229451179504, 'learning_rate': 0.00019445809660709006, 'ppl': 1.934, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4510.52, 'total_tokens': 11749853, 'epoch': 0.33}
- 11%|████████████▍                                                                                                    | 276/2499 [33:13<3:52:39,  6.28s/it] 11%|████████████▌                                                                                                    | 277/2499 [33:19<3:52:24,  6.28s/it]                                                                                                                                                           {'loss': 0.6449, 'grad_norm': 0.17449264228343964, 'learning_rate': 0.00019441658636451794, 'ppl': 1.9058, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4589.89, 'total_tokens': 11778605, 'epoch': 0.33}
- 11%|████████████▌                                                                                                    | 277/2499 [33:19<3:52:24,  6.28s/it] 11%|████████████▌                                                                                                    | 278/2499 [33:26<3:52:22,  6.28s/it]                                                                                                                                                           {'loss': 0.6853, 'grad_norm': 0.15174663066864014, 'learning_rate': 0.00019437492570450725, 'ppl': 1.9844, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4658.29, 'total_tokens': 11807861, 'epoch': 0.33}
- 11%|████████████▌                                                                                                    | 278/2499 [33:26<3:52:22,  6.28s/it] 11%|████████████▌                                                                                                    | 279/2499 [33:32<3:52:19,  6.28s/it]                                                                                                                                                           {'loss': 0.584, 'grad_norm': 0.15343217551708221, 'learning_rate': 0.0001943331146934286, 'ppl': 1.7932, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4281.23, 'total_tokens': 11834747, 'epoch': 0.33}
- 11%|████████████▌                                                                                                    | 279/2499 [33:32<3:52:19,  6.28s/it] 11%|████████████▋                                                                                                    | 280/2499 [33:38<3:52:13,  6.28s/it]                                                                                                                                                           {'loss': 0.622, 'grad_norm': 0.1785060465335846, 'learning_rate': 0.00019429115339789215, 'ppl': 1.8626, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4445.31, 'total_tokens': 11862643, 'epoch': 0.34}
- 11%|████████████▋                                                                                                    | 280/2499 [33:38<3:52:13,  6.28s/it] 11%|████████████▋                                                                                                    | 281/2499 [33:45<3:52:09,  6.28s/it]                                                                                                                                                           {'loss': 0.5981, 'grad_norm': 0.1548158824443817, 'learning_rate': 0.00019424904188474753, 'ppl': 1.8187, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4637.88, 'total_tokens': 11891771, 'epoch': 0.34}
- 11%|████████████▋                                                                                                    | 281/2499 [33:45<3:52:09,  6.28s/it] 11%|████████████▊                                                                                                    | 282/2499 [33:51<3:52:02,  6.28s/it]                                                                                                                                                           {'loss': 0.5534, 'grad_norm': 0.1484275758266449, 'learning_rate': 0.00019420678022108364, 'ppl': 1.7392, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4680.22, 'total_tokens': 11921146, 'epoch': 0.34}
- 11%|████████████▊                                                                                                    | 282/2499 [33:51<3:52:02,  6.28s/it] 11%|████████████▊                                                                                                    | 283/2499 [33:57<3:51:41,  6.27s/it]                                                                                                                                                           {'loss': 0.6026, 'grad_norm': 0.17198914289474487, 'learning_rate': 0.00019416436847422862, 'ppl': 1.8269, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4457.61, 'total_tokens': 11949033, 'epoch': 0.34}
- 11%|████████████▊                                                                                                    | 283/2499 [33:57<3:51:41,  6.27s/it] 11%|████████████▊                                                                                                    | 284/2499 [34:03<3:51:36,  6.27s/it]                                                                                                                                                           {'loss': 0.5981, 'grad_norm': 0.16630032658576965, 'learning_rate': 0.00019412180671174965, 'ppl': 1.8187, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4588.48, 'total_tokens': 11977816, 'epoch': 0.34}
- 11%|████████████▊                                                                                                    | 284/2499 [34:03<3:51:36,  6.27s/it] 11%|████████████▉                                                                                                    | 285/2499 [34:10<3:51:48,  6.28s/it]                                                                                                                                                           {'loss': 0.5998, 'grad_norm': 0.15046648681163788, 'learning_rate': 0.00019407909500145302, 'ppl': 1.8218, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4489.1, 'total_tokens': 12006094, 'epoch': 0.34}
- 11%|████████████▉                                                                                                    | 285/2499 [34:10<3:51:48,  6.28s/it] 11%|████████████▉                                                                                                    | 286/2499 [34:16<3:52:13,  6.30s/it]                                                                                                                                                           {'loss': 0.6113, 'grad_norm': 0.1513357311487198, 'learning_rate': 0.0001940362334113837, 'ppl': 1.8428, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4664.7, 'total_tokens': 12035602, 'epoch': 0.34}
- 11%|████████████▉                                                                                                    | 286/2499 [34:16<3:52:13,  6.30s/it] 11%|████████████▉                                                                                                    | 287/2499 [34:22<3:51:53,  6.29s/it]                                                                                                                                                           {'loss': 0.635, 'grad_norm': 0.15904900431632996, 'learning_rate': 0.00019399322200982567, 'ppl': 1.887, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4445.6, 'total_tokens': 12063481, 'epoch': 0.34}
- 11%|████████████▉                                                                                                    | 287/2499 [34:22<3:51:53,  6.29s/it] 12%|█████████████                                                                                                    | 288/2499 [34:29<3:51:35,  6.28s/it]                                                                                                                                                           {'loss': 0.5955, 'grad_norm': 0.16054871678352356, 'learning_rate': 0.00019395006086530146, 'ppl': 1.8139, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4601.21, 'total_tokens': 12092331, 'epoch': 0.35}
- 12%|█████████████                                                                                                    | 288/2499 [34:29<3:51:35,  6.28s/it] 12%|█████████████                                                                                                    | 289/2499 [34:35<3:51:23,  6.28s/it]                                                                                                                                                           {'loss': 0.5774, 'grad_norm': 0.16297683119773865, 'learning_rate': 0.00019390675004657214, 'ppl': 1.7814, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4571.41, 'total_tokens': 12121009, 'epoch': 0.35}
- 12%|█████████████                                                                                                    | 289/2499 [34:35<3:51:23,  6.28s/it] 12%|█████████████                                                                                                    | 290/2499 [34:41<3:51:09,  6.28s/it]                                                                                                                                                           {'loss': 0.617, 'grad_norm': 0.17384764552116394, 'learning_rate': 0.0001938632896226373, 'ppl': 1.8534, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4560.04, 'total_tokens': 12149596, 'epoch': 0.35}
- 12%|█████████████                                                                                                    | 290/2499 [34:41<3:51:09,  6.28s/it] 12%|█████████████▏                                                                                                   | 291/2499 [34:47<3:50:58,  6.28s/it]                                                                                                                                                           {'loss': 0.6401, 'grad_norm': 0.1762438863515854, 'learning_rate': 0.00019381967966273483, 'ppl': 1.8967, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4557.77, 'total_tokens': 12178171, 'epoch': 0.35}
- 12%|█████████████▏                                                                                                   | 291/2499 [34:47<3:50:58,  6.28s/it] 12%|█████████████▏                                                                                                   | 292/2499 [34:54<3:51:08,  6.28s/it]                                                                                                                                                           {'loss': 0.6359, 'grad_norm': 0.18544957041740417, 'learning_rate': 0.0001937759202363408, 'ppl': 1.8887, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4622.3, 'total_tokens': 12207284, 'epoch': 0.35}
- 12%|█████████████▏                                                                                                   | 292/2499 [34:54<3:51:08,  6.28s/it] 12%|█████████████▏                                                                                                   | 293/2499 [35:00<3:51:26,  6.29s/it]                                                                                                                                                           {'loss': 0.5587, 'grad_norm': 0.14742697775363922, 'learning_rate': 0.00019373201141316954, 'ppl': 1.7484, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4573.06, 'total_tokens': 12236170, 'epoch': 0.35}
- 12%|█████████████▏                                                                                                   | 293/2499 [35:00<3:51:26,  6.29s/it] 12%|█████████████▎                                                                                                   | 294/2499 [35:06<3:51:16,  6.29s/it]                                                                                                                                                           {'loss': 0.6296, 'grad_norm': 0.16413316130638123, 'learning_rate': 0.00019368795326317326, 'ppl': 1.8769, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4740.96, 'total_tokens': 12265971, 'epoch': 0.35}
- 12%|█████████████▎                                                                                                   | 294/2499 [35:06<3:51:16,  6.29s/it] 12%|█████████████▎                                                                                                   | 295/2499 [35:13<3:51:01,  6.29s/it]                                                                                                                                                           {'loss': 0.5648, 'grad_norm': 0.14326909184455872, 'learning_rate': 0.0001936437458565421, 'ppl': 1.7591, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4746.91, 'total_tokens': 12295770, 'epoch': 0.35}
- 12%|█████████████▎                                                                                                   | 295/2499 [35:13<3:51:01,  6.29s/it] 12%|█████████████▍                                                                                                   | 296/2499 [35:19<3:50:57,  6.29s/it]                                                                                                                                                           {'loss': 0.5588, 'grad_norm': 0.14970144629478455, 'learning_rate': 0.000193599389263704, 'ppl': 1.7486, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4777.71, 'total_tokens': 12325825, 'epoch': 0.36}
- 12%|█████████████▍                                                                                                   | 296/2499 [35:19<3:50:57,  6.29s/it] 12%|█████████████▍                                                                                                   | 297/2499 [35:25<3:50:28,  6.28s/it]                                                                                                                                                           {'loss': 0.5853, 'grad_norm': 0.15977391600608826, 'learning_rate': 0.00019355488355532455, 'ppl': 1.7955, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4499.97, 'total_tokens': 12353968, 'epoch': 0.36}
- 12%|█████████████▍                                                                                                   | 297/2499 [35:25<3:50:28,  6.28s/it] 12%|█████████████▍                                                                                                   | 298/2499 [35:31<3:50:17,  6.28s/it]                                                                                                                                                           {'loss': 0.5913, 'grad_norm': 0.15226499736309052, 'learning_rate': 0.00019351022880230694, 'ppl': 1.8063, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4561.15, 'total_tokens': 12382567, 'epoch': 0.36}
- 12%|█████████████▍                                                                                                   | 298/2499 [35:31<3:50:17,  6.28s/it] 12%|█████████████▌                                                                                                   | 299/2499 [35:38<3:50:33,  6.29s/it]                                                                                                                                                           {'loss': 0.5725, 'grad_norm': 0.14446371793746948, 'learning_rate': 0.00019346542507579176, 'ppl': 1.7727, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4527.6, 'total_tokens': 12411134, 'epoch': 0.36}
- 12%|█████████████▌                                                                                                   | 299/2499 [35:38<3:50:33,  6.29s/it] 12%|█████████████▌                                                                                                   | 300/2499 [35:44<3:50:45,  6.30s/it]                                                                                                                                                           {'loss': 0.6065, 'grad_norm': 0.1595160961151123, 'learning_rate': 0.00019342047244715695, 'ppl': 1.834, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4570.99, 'total_tokens': 12439985, 'epoch': 0.36}
- 12%|█████████████▌                                                                                                   | 300/2499 [35:44<3:50:45,  6.30s/it][2025-12-28 11:41:20,692] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:42410] Running evaluation step...
-[2025-12-28 11:41:22,581] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8238303661346436
-[2025-12-28 11:41:23,449] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8675413131713867
-[2025-12-28 11:41:24,254] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.804617166519165
-[2025-12-28 11:41:25,042] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.7866499423980713
-[2025-12-28 11:41:25,042] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
-
-  0%|                                                                                                                               | 0/90 [00:00<?, ?it/s][A
-  2%|██▋                                                                                                                    | 2/90 [00:00<00:36,  2.41it/s][A
-  3%|███▉                                                                                                                   | 3/90 [00:01<00:54,  1.58it/s][A
-  4%|█████▎                                                                                                                 | 4/90 [00:02<01:00,  1.43it/s][A
-  6%|██████▌                                                                                                                | 5/90 [00:03<01:05,  1.30it/s][A
-  7%|███████▉                                                                                                               | 6/90 [00:04<01:05,  1.27it/s][A
-  8%|█████████▎                                                                                                             | 7/90 [00:05<01:08,  1.22it/s][A
-  9%|██████████▌                                                                                                            | 8/90 [00:06<01:07,  1.22it/s][A
- 10%|███████████▉                                                                                                           | 9/90 [00:06<01:08,  1.18it/s][A
- 11%|█████████████                                                                                                         | 10/90 [00:07<01:06,  1.20it/s][A
- 12%|██████████████▍                                                                                                       | 11/90 [00:08<01:07,  1.17it/s][A
- 13%|███████████████▋                                                                                                      | 12/90 [00:09<01:05,  1.18it/s][A
- 14%|█████████████████                                                                                                     | 13/90 [00:10<01:06,  1.16it/s][A
- 16%|██████████████████▎                                                                                                   | 14/90 [00:11<01:04,  1.18it/s][A
- 17%|███████████████████▋                                                                                                  | 15/90 [00:12<01:04,  1.16it/s][A
- 18%|████████████████████▉                                                                                                 | 16/90 [00:12<01:02,  1.18it/s][A
- 19%|██████████████████████▎                                                                                               | 17/90 [00:13<01:03,  1.16it/s][A
- 20%|███████████████████████▌                                                                                              | 18/90 [00:14<01:01,  1.18it/s][A
- 21%|████████████████████████▉                                                                                             | 19/90 [00:15<01:01,  1.16it/s][A
- 22%|██████████████████████████▏                                                                                           | 20/90 [00:16<00:59,  1.17it/s][A
- 23%|███████████████████████████▌                                                                                          | 21/90 [00:17<00:59,  1.16it/s][A
- 24%|████████████████████████████▊                                                                                         | 22/90 [00:18<00:57,  1.18it/s][A
- 26%|██████████████████████████████▏                                                                                       | 23/90 [00:18<00:57,  1.16it/s][A
- 27%|███████████████████████████████▍                                                                                      | 24/90 [00:19<00:56,  1.18it/s][A
- 28%|████████████████████████████████▊                                                                                     | 25/90 [00:20<00:56,  1.15it/s][A
- 29%|██████████████████████████████████                                                                                    | 26/90 [00:21<00:54,  1.18it/s][A
- 30%|███████████████████████████████████▍                                                                                  | 27/90 [00:22<00:54,  1.15it/s][A
- 31%|████████████████████████████████████▋                                                                                 | 28/90 [00:23<00:52,  1.17it/s][A
- 32%|██████████████████████████████████████                                                                                | 29/90 [00:24<00:52,  1.15it/s][A
- 33%|███████████████████████████████████████▎                                                                              | 30/90 [00:24<00:51,  1.17it/s][A
- 34%|████████████████████████████████████████▋                                                                             | 31/90 [00:25<00:51,  1.15it/s][A
- 36%|█████████████████████████████████████████▉                                                                            | 32/90 [00:26<00:49,  1.17it/s][A
- 37%|███████████████████████████████████████████▎                                                                          | 33/90 [00:27<00:54,  1.05it/s][A
- 38%|████████████████████████████████████████████▌                                                                         | 34/90 [00:28<00:47,  1.17it/s][A
- 39%|█████████████████████████████████████████████▉                                                                        | 35/90 [00:29<00:48,  1.13it/s][A
- 40%|███████████████████████████████████████████████▏                                                                      | 36/90 [00:30<00:46,  1.17it/s][A
- 41%|████████████████████████████████████████████████▌                                                                     | 37/90 [00:31<00:46,  1.13it/s][A
- 42%|█████████████████████████████████████████████████▊                                                                    | 38/90 [00:31<00:44,  1.17it/s][A
- 43%|███████████████████████████████████████████████████▏                                                                  | 39/90 [00:32<00:44,  1.13it/s][A
- 44%|████████████████████████████████████████████████████▍                                                                 | 40/90 [00:33<00:42,  1.17it/s][A
- 46%|█████████████████████████████████████████████████████▊                                                                | 41/90 [00:34<00:43,  1.14it/s][A
- 47%|███████████████████████████████████████████████████████                                                               | 42/90 [00:35<00:41,  1.17it/s][A
- 48%|████████████████████████████████████████████████████████▍                                                             | 43/90 [00:36<00:41,  1.12it/s][A
- 49%|█████████████████████████████████████████████████████████▋                                                            | 44/90 [00:37<00:39,  1.16it/s][A
- 50%|███████████████████████████████████████████████████████████                                                           | 45/90 [00:38<00:39,  1.14it/s][A
- 51%|████████████████████████████████████████████████████████████▎                                                         | 46/90 [00:38<00:37,  1.17it/s][A
- 52%|█████████████████████████████████████████████████████████████▌                                                        | 47/90 [00:39<00:37,  1.15it/s][A
- 53%|██████████████████████████████████████████████████████████████▉                                                       | 48/90 [00:40<00:36,  1.16it/s][A
- 54%|████████████████████████████████████████████████████████████████▏                                                     | 49/90 [00:41<00:35,  1.15it/s][A
- 56%|█████████████████████████████████████████████████████████████████▌                                                    | 50/90 [00:42<00:34,  1.17it/s][A
- 57%|██████████████████████████████████████████████████████████████████▊                                                   | 51/90 [00:43<00:34,  1.14it/s][A
- 58%|████████████████████████████████████████████████████████████████████▏                                                 | 52/90 [00:44<00:32,  1.17it/s][A
- 59%|█████████████████████████████████████████████████████████████████████▍                                                | 53/90 [00:44<00:32,  1.15it/s][A
- 60%|██████████████████████████████████████████████████████████████████████▊                                               | 54/90 [00:45<00:30,  1.17it/s][A
- 61%|████████████████████████████████████████████████████████████████████████                                              | 55/90 [00:46<00:30,  1.15it/s][A
- 62%|█████████████████████████████████████████████████████████████████████████▍                                            | 56/90 [00:47<00:29,  1.17it/s][A
- 63%|██████████████████████████████████████████████████████████████████████████▋                                           | 57/90 [00:48<00:28,  1.15it/s][A
- 64%|████████████████████████████████████████████████████████████████████████████                                          | 58/90 [00:49<00:27,  1.17it/s][A
- 66%|█████████████████████████████████████████████████████████████████████████████▎                                        | 59/90 [00:50<00:27,  1.14it/s][A
- 67%|█████��████████████████████████████████████████████████████████████████████████▋                                       | 60/90 [00:50<00:25,  1.16it/s][A
- 68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 61/90 [00:51<00:25,  1.14it/s][A
- 69%|█████████████████████████████████████████████████████████████████████████████████▎                                    | 62/90 [00:52<00:24,  1.16it/s][A
- 70%|██████████████████████████████████████████████████████████████████████████████████▌                                   | 63/90 [00:53<00:23,  1.15it/s][A
- 71%|███████████████████████████████████████████████████████████████████████████████████▉                                  | 64/90 [00:54<00:22,  1.17it/s][A
- 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 65/90 [00:55<00:21,  1.15it/s][A
- 73%|██████████████████████████████████████████████████████████████████████████████████████▌                               | 66/90 [00:56<00:20,  1.17it/s][A
- 74%|███████████████████████████████████████████████████████████████████████████████████████▊                              | 67/90 [00:57<00:20,  1.14it/s][A
- 76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 68/90 [00:57<00:18,  1.16it/s][A
- 77%|██████████████████████████████████████████████████████████████████████████████████████████▍                           | 69/90 [00:58<00:18,  1.15it/s][A
- 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 70/90 [00:59<00:17,  1.17it/s][A
- 79%|█████████████████████████████████████████████████████████████████████████████████████████████                         | 71/90 [01:00<00:16,  1.15it/s][A
- 80%|██████████████████████████████████████████████████████████████████████████████████████████████▍                       | 72/90 [01:01<00:15,  1.17it/s][A
- 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 73/90 [01:02<00:14,  1.15it/s][A
- 82%|█████████████████████████████████████████████████████████████████████████████████████████████████                     | 74/90 [01:03<00:13,  1.17it/s][A
- 83%|█████████████████████████���████████████████████████████████████████████████████████████████████████▎                   | 75/90 [01:03<00:13,  1.15it/s][A
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 76/90 [01:04<00:11,  1.17it/s][A
- 86%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 77/90 [01:05<00:11,  1.16it/s][A
- 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 78/90 [01:06<00:10,  1.17it/s][A
- 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 79/90 [01:07<00:09,  1.16it/s][A
- 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 80/90 [01:08<00:08,  1.18it/s][A
- 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 81/90 [01:09<00:07,  1.16it/s][A
- 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 82/90 [01:09<00:06,  1.18it/s][A
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 83/90 [01:10<00:06,  1.13it/s][A
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 84/90 [01:11<00:05,  1.17it/s][A
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 85/90 [01:12<00:04,  1.14it/s][A
- 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 86/90 [01:13<00:03,  1.17it/s][A
- 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 87/90 [01:14<00:02,  1.14it/s][A
- 98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████���████▍  | 88/90 [01:15<00:01,  1.17it/s][A
- 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 89/90 [01:16<00:00,  1.14it/s][A
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:16<00:00,  1.14it/s][A                                                                                                                                                           
-                                                                                                                                                           [A{'eval_loss': 0.5875148177146912, 'eval_runtime': 79.0999, 'eval_samples_per_second': 9.229, 'eval_steps_per_second': 2.314, 'eval_ppl': 1.7995, 'memory/max_active (GiB)': 12.83, 'memory/max_allocated (GiB)': 6.85, 'memory/device_reserved (GiB)': 20.15, 'epoch': 0.36}
- 12%|█████████████▌                                                                                                   | 300/2499 [37:08<3:50:45,  6.30s/it]
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.14it/s][A
-                                                                                                                                                           [A 12%|█████████████▍                                                                                                  | 301/2499 [37:14<19:08:11, 31.34s/it]                                                                                                                                                           {'loss': 0.5979, 'grad_norm': 0.16208259761333466, 'learning_rate': 0.00019337537098801767, 'ppl': 1.8183, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.11, 'tokens_per_second_per_gpu': 4645.22, 'total_tokens': 13739099, 'epoch': 0.36}
- 12%|█████████████▍                                                                                                  | 301/2499 [37:14<19:08:11, 31.34s/it] 12%|█████████████▌                                                                                                  | 302/2499 [37:20<14:32:27, 23.83s/it]                                                                                                                                                           {'loss': 0.5843, 'grad_norm': 0.16218189895153046, 'learning_rate': 0.00019333012077022622, 'ppl': 1.7937, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4714.28, 'total_tokens': 13768739, 'epoch': 0.36}
- 12%|█████████████▌                                                                                                  | 302/2499 [37:20<14:32:27, 23.83s/it] 12%|█████████████▌                                                                                                  | 303/2499 [37:26<11:19:37, 18.57s/it]                                                                                                                                                           {'loss': 0.584, 'grad_norm': 0.154547318816185, 'learning_rate': 0.00019328472186587185, 'ppl': 1.7932, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4635.54, 'total_tokens': 13797936, 'epoch': 0.36}
- 12%|█████████████▌                                                                                                  | 303/2499 [37:26<11:19:37, 18.57s/it] 12%|█████████████▋                                                                                                   | 304/2499 [37:33<9:04:39, 14.89s/it]                                                                                                                                                           {'loss': 0.6095, 'grad_norm': 0.17508265376091003, 'learning_rate': 0.0001932391743472807, 'ppl': 1.8395, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4645.04, 'total_tokens': 13827176, 'epoch': 0.36}
- 12%|█████████████▋                                                                                                   | 304/2499 [37:33<9:04:39, 14.89s/it] 12%|█████████████▊                                                                                                   | 305/2499 [37:39<7:29:50, 12.30s/it]                                                                                                                                                           {'loss': 0.5736, 'grad_norm': 0.14988955855369568, 'learning_rate': 0.00019319347828701563, 'ppl': 1.7746, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4556.19, 'total_tokens': 13855721, 'epoch': 0.37}
- 12%|█████████████▊                                                                                                   | 305/2499 [37:39<7:29:50, 12.30s/it] 12%|█████████████▊                                                                                                   | 306/2499 [37:45<6:24:12, 10.51s/it]                                                                                                                                                           {'loss': 0.5878, 'grad_norm': 0.16112789511680603, 'learning_rate': 0.0001931476337578762, 'ppl': 1.8, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4654.1, 'total_tokens': 13885195, 'epoch': 0.37}
- 12%|█████████████▊                                                                                                   | 306/2499 [37:45<6:24:12, 10.51s/it] 12%|█████████████▉                                                                                                   | 307/2499 [37:52<5:38:13,  9.26s/it]                                                                                                                                                           {'loss': 0.5895, 'grad_norm': 0.15954813361167908, 'learning_rate': 0.0001931016408328985, 'ppl': 1.8031, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4589.73, 'total_tokens': 13914238, 'epoch': 0.37}
- 12%|█████████████▉                                                                                                   | 307/2499 [37:52<5:38:13,  9.26s/it] 12%|█████████████▉                                                                                                   | 308/2499 [37:58<5:05:36,  8.37s/it]                                                                                                                                                           {'loss': 0.5728, 'grad_norm': 0.1708773374557495, 'learning_rate': 0.000193055499585355, 'ppl': 1.7732, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4591.58, 'total_tokens': 13943121, 'epoch': 0.37}
- 12%|█████████████▉                                                                                                   | 308/2499 [37:58<5:05:36,  8.37s/it] 12%|█████████████▉                                                                                                   | 309/2499 [38:04<4:42:23,  7.74s/it]                                                                                                                                                           {'loss': 0.5704, 'grad_norm': 0.15702755749225616, 'learning_rate': 0.00019300921008875453, 'ppl': 1.769, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4347.24, 'total_tokens': 13970336, 'epoch': 0.37}
- 12%|█████████████▉                                                                                                   | 309/2499 [38:04<4:42:23,  7.74s/it] 12%|██████████████                                                                                                   | 310/2499 [38:11<4:26:25,  7.30s/it]                                                                                                                                                           {'loss': 0.5649, 'grad_norm': 0.14557598531246185, 'learning_rate': 0.00019296277241684194, 'ppl': 1.7593, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4666.71, 'total_tokens': 13999675, 'epoch': 0.37}
- 12%|███████████��██                                                                                                   | 310/2499 [38:11<4:26:25,  7.30s/it] 12%|██████████████                                                                                                   | 311/2499 [38:17<4:15:09,  7.00s/it]                                                                                                                                                           {'loss': 0.5825, 'grad_norm': 0.17242364585399628, 'learning_rate': 0.00019291618664359837, 'ppl': 1.7905, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4605.65, 'total_tokens': 14028606, 'epoch': 0.37}
- 12%|██████████████                                                                                                   | 311/2499 [38:17<4:15:09,  7.00s/it] 12%|██████████████                                                                                                   | 312/2499 [38:23<4:06:59,  6.78s/it]                                                                                                                                                           {'loss': 0.6062, 'grad_norm': 0.17027081549167633, 'learning_rate': 0.00019286945284324074, 'ppl': 1.8335, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4397.97, 'total_tokens': 14056129, 'epoch': 0.37}
- 12%|██████████████                                                                                                   | 312/2499 [38:23<4:06:59,  6.78s/it] 13%|██████████████▏                                                                                                  | 313/2499 [38:29<4:01:45,  6.64s/it]                                                                                                                                                           {'loss': 0.5704, 'grad_norm': 0.15852947533130646, 'learning_rate': 0.00019282257109022182, 'ppl': 1.769, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4571.76, 'total_tokens': 14084955, 'epoch': 0.38}
- 13%|██████████████▏                                                                                                  | 313/2499 [38:29<4:01:45,  6.64s/it] 13%|██████████████▏                                                                                                  | 314/2499 [38:36<3:58:25,  6.55s/it]                                                                                                                                                           {'loss': 0.5697, 'grad_norm': 0.15593717992305756, 'learning_rate': 0.00019277554145923014, 'ppl': 1.7677, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4672.64, 'total_tokens': 14114562, 'epoch': 0.38}
- 13%|██████████████▏                                                                                                  | 314/2499 [38:36<3:58:25,  6.55s/it] 13%|██████████████▏                                                                                                  | 315/2499 [38:42<3:55:28,  6.47s/it]                                                                                                                                                           {'loss': 0.6057, 'grad_norm': 0.1503870040178299, 'learning_rate': 0.0001927283640251898, 'ppl': 1.8325, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4547.99, 'total_tokens': 14143136, 'epoch': 0.38}
- 13%|██████████████▏                                                                                                  | 315/2499 [38:42<3:55:28,  6.47s/it] 13%|██████████████▎                                                                                                  | 316/2499 [38:48<3:53:17,  6.41s/it]                                                                                                                                                           {'loss': 0.608, 'grad_norm': 0.1603906899690628, 'learning_rate': 0.00019268103886326031, 'ppl': 1.8368, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4632.34, 'total_tokens': 14172210, 'epoch': 0.38}
- 13%|██████████████▎                                                                                                  | 316/2499 [38:48<3:53:17,  6.41s/it] 13%|█████████���████▎                                                                                                  | 317/2499 [38:55<3:51:42,  6.37s/it]                                                                                                                                                           {'loss': 0.5695, 'grad_norm': 0.159032940864563, 'learning_rate': 0.00019263356604883663, 'ppl': 1.7674, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4531.06, 'total_tokens': 14200637, 'epoch': 0.38}
- 13%|██████████████▎                                                                                                  | 317/2499 [38:55<3:51:42,  6.37s/it] 13%|██████████████▍                                                                                                  | 318/2499 [39:01<3:50:39,  6.35s/it]                                                                                                                                                           {'loss': 0.5604, 'grad_norm': 0.14921818673610687, 'learning_rate': 0.00019258594565754885, 'ppl': 1.7514, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4684.39, 'total_tokens': 14230071, 'epoch': 0.38}
- 13%|██████████████▍                                                                                                  | 318/2499 [39:01<3:50:39,  6.35s/it] 13%|██████████████▍                                                                                                  | 319/2499 [39:07<3:49:35,  6.32s/it]                                                                                                                                                           {'loss': 0.5661, 'grad_norm': 0.1620176136493683, 'learning_rate': 0.00019253817776526222, 'ppl': 1.7614, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4380.21, 'total_tokens': 14257470, 'epoch': 0.38}
- 13%|██████████████▍                                                                                                  | 319/2499 [39:07<3:49:35,  6.32s/it] 13%|██████████████▍                                                                                                  | 320/2499 [39:13<3:49:31,  6.32s/it]                                                                                                                                                           {'loss': 0.5905, 'grad_norm': 0.18213319778442383, 'learning_rate': 0.00019249026244807702, 'ppl': 1.8049, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4426.57, 'total_tokens': 14285439, 'epoch': 0.38}
- 13%|██████████████▍                                                                                                  | 320/2499 [39:13<3:49:31,  6.32s/it] 13%|██████████████▌                                                                                                  | 321/2499 [39:20<3:49:34,  6.32s/it]                                                                                                                                                           {'loss': 0.6033, 'grad_norm': 0.16348907351493835, 'learning_rate': 0.0001924421997823283, 'ppl': 1.8281, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4607.25, 'total_tokens': 14314609, 'epoch': 0.39}
- 13%|██████████████▌                                                                                                  | 321/2499 [39:20<3:49:34,  6.32s/it] 13%|██████████████▌                                                                                                  | 322/2499 [39:26<3:48:57,  6.31s/it]                                                                                                                                                           {'loss': 0.5923, 'grad_norm': 0.17127369344234467, 'learning_rate': 0.00019239398984458587, 'ppl': 1.8081, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4518.62, 'total_tokens': 14342958, 'epoch': 0.39}
- 13%|██████████████▌                                                                                                  | 322/2499 [39:26<3:48:57,  6.31s/it] 13%|██████████████▌                                                                                                  | 323/2499 [39:32<3:48:21,  6.30s/it]                                                                                                                                                           {'loss': 0.6389, 'grad_norm': 0.16117724776268005, 'learning_rate': 0.00019234563271165427, 'ppl': 1.8944, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4450.13, 'total_tokens': 14370831, 'epoch': 0.39}
- 13%|██████████████▌                                                                                                  | 323/2499 [39:32<3:48:21,  6.30s/it] 13%|██████████████▋                                                                                                  | 324/2499 [39:39<3:47:59,  6.29s/it]                                                                                                                                                           {'loss': 0.5963, 'grad_norm': 0.1653064787387848, 'learning_rate': 0.0001922971284605724, 'ppl': 1.8154, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4532.05, 'total_tokens': 14399248, 'epoch': 0.39}
- 13%|██████████████▋                                                                                                  | 324/2499 [39:39<3:47:59,  6.29s/it] 13%|██████████████▋                                                                                                  | 325/2499 [39:45<3:47:47,  6.29s/it]                                                                                                                                                           {'loss': 0.6196, 'grad_norm': 0.1635480523109436, 'learning_rate': 0.00019224847716861368, 'ppl': 1.8582, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4648.34, 'total_tokens': 14428429, 'epoch': 0.39}
- 13%|██████████████▋                                                                                                  | 325/2499 [39:45<3:47:47,  6.29s/it] 13%|██████████████▋                                                                                                  | 326/2499 [39:51<3:47:35,  6.28s/it]                                                                                                                                                           {'loss': 0.6349, 'grad_norm': 0.16426773369312286, 'learning_rate': 0.00019219967891328564, 'ppl': 1.8868, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4478.02, 'total_tokens': 14456533, 'epoch': 0.39}
- 13%|██████████████▋                                                                                                  | 326/2499 [39:51<3:47:35,  6.28s/it] 13%|██████████████▊                                                                                                  | 327/2499 [39:57<3:47:52,  6.29s/it]                                                                                                                                                           {'loss': 0.5799, 'grad_norm': 0.16964776813983917, 'learning_rate': 0.00019215073377233002, 'ppl': 1.7859, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4515.9, 'total_tokens': 14485063, 'epoch': 0.39}
- 13%|██████████████▊                                                                                                  | 327/2499 [39:57<3:47:52,  6.29s/it] 13%|██████████████▊                                                                                                  | 328/2499 [40:04<3:47:44,  6.29s/it]                                                                                                                                                           {'loss': 0.5549, 'grad_norm': 0.16128554940223694, 'learning_rate': 0.00019210164182372256, 'ppl': 1.7418, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4576.6, 'total_tokens': 14513839, 'epoch': 0.39}
- 13%|██████████████▊                                                                                                  | 328/2499 [40:04<3:47:44,  6.29s/it] 13%|██████████████▉                                                                                                  | 329/2499 [40:10<3:47:23,  6.29s/it]                                                                                                                                                           {'loss': 0.5898, 'grad_norm': 0.17319965362548828, 'learning_rate': 0.0001920524031456729, 'ppl': 1.8036, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4489.45, 'total_tokens': 14541984, 'epoch': 0.39}
- 13%|██████████████▉                                                                                                  | 329/2499 [40:10<3:47:23,  6.29s/it] 13%|██████████████▉                                                                                                  | 330/2499 [40:16<3:47:13,  6.29s/it]                                                                                                                                                           {'loss': 0.5479, 'grad_norm': 0.15397316217422485, 'learning_rate': 0.00019200301781662437, 'ppl': 1.7296, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4650.57, 'total_tokens': 14571189, 'epoch': 0.4}
- 13%|██████████████▉                                                                                                  | 330/2499 [40:16<3:47:13,  6.29s/it] 13%|██████████████▉                                                                                                  | 331/2499 [40:23<3:47:08,  6.29s/it]                                                                                                                                                           {'loss': 0.5794, 'grad_norm': 0.16392205655574799, 'learning_rate': 0.00019195348591525402, 'ppl': 1.785, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4661.49, 'total_tokens': 14600485, 'epoch': 0.4}
- 13%|██████████████▉                                                                                                  | 331/2499 [40:23<3:47:08,  6.29s/it] 13%|███████████████                                                                                                  | 332/2499 [40:29<3:46:50,  6.28s/it]                                                                                                                                                           {'loss': 0.5789, 'grad_norm': 0.15939205884933472, 'learning_rate': 0.00019190380752047233, 'ppl': 1.7841, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4511.16, 'total_tokens': 14628748, 'epoch': 0.4}
- 13%|███████████████                                                                                                  | 332/2499 [40:29<3:46:50,  6.28s/it] 13%|███████████████                                                                                                  | 333/2499 [40:35<3:46:42,  6.28s/it]                                                                                                                                                           {'loss': 0.6088, 'grad_norm': 0.13913695514202118, 'learning_rate': 0.00019185398271142327, 'ppl': 1.8382, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4650.63, 'total_tokens': 14657935, 'epoch': 0.4}
- 13%|███████████████                                                                                                  | 333/2499 [40:35<3:46:42,  6.28s/it] 13%|███████████████                                                                                                  | 334/2499 [40:41<3:47:09,  6.30s/it]                                                                                                                                                           {'loss': 0.6075, 'grad_norm': 0.16204483807086945, 'learning_rate': 0.00019180401156748396, 'ppl': 1.8358, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4602.41, 'total_tokens': 14687062, 'epoch': 0.4}
- 13%|███████████████                                                                                                  | 334/2499 [40:41<3:47:09,  6.30s/it] 13%|███████████████▏                                                                                                 | 335/2499 [40:48<3:47:07,  6.30s/it]                                                                                                                                                           {'loss': 0.5733, 'grad_norm': 0.1686972677707672, 'learning_rate': 0.00019175389416826462, 'ppl': 1.7741, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4672.53, 'total_tokens': 14716493, 'epoch': 0.4}
- 13%|███████████████▏                                                                                                 | 335/2499 [40:48<3:47:07,  6.30s/it] 13%|███████████████▏                                                                                                 | 336/2499 [40:54<3:47:04,  6.30s/it]                                                                                                                                                           {'loss': 0.5534, 'grad_norm': 0.1636599749326706, 'learning_rate': 0.00019170363059360863, 'ppl': 1.7392, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4694.41, 'total_tokens': 14746072, 'epoch': 0.4}
- 13%|███████████████▏                                                                                                 | 336/2499 [40:54<3:47:04,  6.30s/it] 13%|███████████████▏                                                                                                 | 337/2499 [41:00<3:46:38,  6.29s/it]                                                                                                                                                           {'loss': 0.5535, 'grad_norm': 0.14456257224082947, 'learning_rate': 0.00019165322092359213, 'ppl': 1.7393, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4609.38, 'total_tokens': 14774955, 'epoch': 0.4}
- 13%|███████████████▏                                                                                                 | 337/2499 [41:00<3:46:38,  6.29s/it] 14%|███████████████▎                                                                                                 | 338/2499 [41:07<3:46:34,  6.29s/it]                                                                                                                                                           {'loss': 0.596, 'grad_norm': 0.160542830824852, 'learning_rate': 0.00019160266523852402, 'ppl': 1.8148, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4724.33, 'total_tokens': 14804675, 'epoch': 0.41}
- 14%|███████████████▎                                                                                                 | 338/2499 [41:07<3:46:34,  6.29s/it] 14%|███████████████▎                                                                                                 | 339/2499 [41:13<3:46:08,  6.28s/it]                                                                                                                                                           {'loss': 0.543, 'grad_norm': 0.15767574310302734, 'learning_rate': 0.00019155196361894582, 'ppl': 1.7212, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4489.42, 'total_tokens': 14832767, 'epoch': 0.41}
- 14%|███████████████▎                                                                                                 | 339/2499 [41:13<3:46:08,  6.28s/it] 14%|███████████████▎                                                                                                 | 340/2499 [41:19<3:45:58,  6.28s/it]                                                                                                                                                           {'loss': 0.5923, 'grad_norm': 0.16006726026535034, 'learning_rate': 0.00019150111614563161, 'ppl': 1.8081, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4385.16, 'total_tokens': 14860277, 'epoch': 0.41}
- 14%|███████████████▎                                                                                                 | 340/2499 [41:19<3:45:58,  6.28s/it] 14%|███████████████▍                                                                                                 | 341/2499 [41:25<3:46:15,  6.29s/it]                                                                                                                                                           {'loss': 0.6217, 'grad_norm': 0.15745171904563904, 'learning_rate': 0.00019145012289958772, 'ppl': 1.8621, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4424.68, 'total_tokens': 14888207, 'epoch': 0.41}
- 14%|██████████████���▍                                                                                                 | 341/2499 [41:25<3:46:15,  6.29s/it] 14%|███████████████▍                                                                                                 | 342/2499 [41:32<3:45:48,  6.28s/it]                                                                                                                                                           {'loss': 0.63, 'grad_norm': 0.18214435875415802, 'learning_rate': 0.0001913989839620528, 'ppl': 1.8776, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4404.68, 'total_tokens': 14915755, 'epoch': 0.41}
- 14%|███████████████▍                                                                                                 | 342/2499 [41:32<3:45:48,  6.28s/it] 14%|███████████████▌                                                                                                 | 343/2499 [41:38<3:45:26,  6.27s/it]                                                                                                                                                           {'loss': 0.5884, 'grad_norm': 0.17168237268924713, 'learning_rate': 0.00019134769941449756, 'ppl': 1.8011, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4431.31, 'total_tokens': 14943470, 'epoch': 0.41}
- 14%|███████████████▌                                                                                                 | 343/2499 [41:38<3:45:26,  6.27s/it] 14%|███████████████▌                                                                                                 | 344/2499 [41:44<3:45:20,  6.27s/it]                                                                                                                                                           {'loss': 0.6061, 'grad_norm': 0.17049424350261688, 'learning_rate': 0.00019129626933862473, 'ppl': 1.8333, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4507.98, 'total_tokens': 14971748, 'epoch': 0.41}
- 14%|███████████████▌                                                                                                 | 344/2499 [41:44<3:45:20,  6.27s/it] 14%|███████████████▌                                                                                                 | 345/2499 [41:51<3:45:15,  6.27s/it]                                                                                                                                                           {'loss': 0.5698, 'grad_norm': 0.14557531476020813, 'learning_rate': 0.00019124469381636886, 'ppl': 1.7679, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4549.13, 'total_tokens': 15000282, 'epoch': 0.41}
- 14%|███████████████▌                                                                                                 | 345/2499 [41:51<3:45:15,  6.27s/it] 14%|███████████████▋                                                                                                 | 346/2499 [41:57<3:45:37,  6.29s/it]                                                                                                                                                           {'loss': 0.5226, 'grad_norm': 0.14654414355754852, 'learning_rate': 0.0001911929729298962, 'ppl': 1.6864, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4599.13, 'total_tokens': 15029331, 'epoch': 0.42}
- 14%|███████████████▋                                                                                                 | 346/2499 [41:57<3:45:37,  6.29s/it] 14%|███████████████▋                                                                                                 | 347/2499 [42:03<3:46:10,  6.31s/it]                                                                                                                                                           {'loss': 0.5269, 'grad_norm': 0.14888443052768707, 'learning_rate': 0.00019114110676160455, 'ppl': 1.6937, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4587.79, 'total_tokens': 15058447, 'epoch': 0.42}
- 14%|███████████████▋                                                                                                 | 347/2499 [42:03<3:46:10,  6.31s/it] 14%|███████████████▋                                                                                                 | 348/2499 [42:10<3:46:38,  6.32s/it]                                                                                                                                                           {'loss': 0.5954, 'grad_norm': 0.17817890644073486, 'learning_rate': 0.0001910890953941233, 'ppl': 1.8138, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4546.01, 'total_tokens': 15087338, 'epoch': 0.42}
- 14%|███████████████▋                                                                                                 | 348/2499 [42:10<3:46:38,  6.32s/it] 14%|███████████████▊                                                                                                 | 349/2499 [42:16<3:46:01,  6.31s/it]                                                                                                                                                           {'loss': 0.608, 'grad_norm': 0.16011007130146027, 'learning_rate': 0.00019103693891031295, 'ppl': 1.8368, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4504.66, 'total_tokens': 15115585, 'epoch': 0.42}
- 14%|███████████████▊                                                                                                 | 349/2499 [42:16<3:46:01,  6.31s/it] 14%|███████████████▊                                                                                                 | 350/2499 [42:22<3:45:24,  6.29s/it]                                                                                                                                                           {'loss': 0.5941, 'grad_norm': 0.1592024266719818, 'learning_rate': 0.00019098463739326542, 'ppl': 1.8114, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4487.29, 'total_tokens': 15143669, 'epoch': 0.42}
- 14%|███████████████▊                                                                                                 | 350/2499 [42:22<3:45:24,  6.29s/it] 14%|███████████████▊                                                                                                 | 351/2499 [42:28<3:45:02,  6.29s/it]                                                                                                                                                           {'loss': 0.6043, 'grad_norm': 0.15884292125701904, 'learning_rate': 0.00019093219092630352, 'ppl': 1.83, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4541.37, 'total_tokens': 15172129, 'epoch': 0.42}
- 14%|███████████████▊                                                                                                 | 351/2499 [42:28<3:45:02,  6.29s/it] 14%|███████████████▉                                                                                                 | 352/2499 [42:35<3:44:53,  6.28s/it]                                                                                                                                                           {'loss': 0.6089, 'grad_norm': 0.162332221865654, 'learning_rate': 0.00019087959959298103, 'ppl': 1.8384, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4552.12, 'total_tokens': 15200710, 'epoch': 0.42}
- 14%|███████████████▉                                                                                                 | 352/2499 [42:35<3:44:53,  6.28s/it] 14%|███████████████▉                                                                                                 | 353/2499 [42:41<3:44:46,  6.28s/it]                                                                                                                                                           {'loss': 0.5484, 'grad_norm': 0.14525768160820007, 'learning_rate': 0.00019082686347708254, 'ppl': 1.7305, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4662.96, 'total_tokens': 15230000, 'epoch': 0.42}
- 14%|███████████████▉                                                                                                 | 353/2499 [42:41<3:44:46,  6.28s/it] 14%|████████████████                                                                                                 | 354/2499 [42:47<3:44:58,  6.29s/it]                                                                                                                                                           {'loss': 0.6355, 'grad_norm': 0.14745378494262695, 'learning_rate': 0.0001907739826626233, 'ppl': 1.888, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4550.69, 'total_tokens': 15258721, 'epoch': 0.42}
- 14%|████████████████                                                                                                 | 354/2499 [42:47<3:44:58,  6.29s/it] 14%|████████████████                                                                                                 | 355/2499 [42:54<3:44:56,  6.30s/it]                                                                                                                                                           {'loss': 0.5874, 'grad_norm': 0.1704423427581787, 'learning_rate': 0.00019072095723384903, 'ppl': 1.7993, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4349.01, 'total_tokens': 15286100, 'epoch': 0.43}
- 14%|████████████████                                                                                                 | 355/2499 [42:54<3:44:56,  6.30s/it] 14%|████████████████                                                                                                 | 356/2499 [43:00<3:44:38,  6.29s/it]                                                                                                                                                           {'loss': 0.569, 'grad_norm': 0.15435314178466797, 'learning_rate': 0.00019066778727523586, 'ppl': 1.7665, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4527.29, 'total_tokens': 15314498, 'epoch': 0.43}
- 14%|████████████████                                                                                                 | 356/2499 [43:00<3:44:38,  6.29s/it] 14%|████████████████▏                                                                                                | 357/2499 [43:06<3:44:36,  6.29s/it]                                                                                                                                                           {'loss': 0.5769, 'grad_norm': 0.15472789108753204, 'learning_rate': 0.00019061447287149026, 'ppl': 1.7805, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4474.29, 'total_tokens': 15342655, 'epoch': 0.43}
- 14%|████████████████▏                                                                                                | 357/2499 [43:06<3:44:36,  6.29s/it] 14%|████████████████▏                                                                                                | 358/2499 [43:12<3:44:16,  6.29s/it]                                                                                                                                                           {'loss': 0.5835, 'grad_norm': 0.160075843334198, 'learning_rate': 0.0001905610141075487, 'ppl': 1.7923, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4471.53, 'total_tokens': 15370684, 'epoch': 0.43}
- 14%|████████████████▏                                                                                                | 358/2499 [43:12<3:44:16,  6.29s/it] 14%|████████████████▏                                                                                                | 359/2499 [43:19<3:44:07,  6.28s/it]                                                                                                                                                           {'loss': 0.6181, 'grad_norm': 0.18926472961902618, 'learning_rate': 0.00019050741106857767, 'ppl': 1.8554, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4563.78, 'total_tokens': 15399336, 'epoch': 0.43}
- 14%|████████████████▏                                                                                                | 359/2499 [43:19<3:44:07,  6.28s/it] 14%|████████████████▎                                                                                                | 360/2499 [43:25<3:43:51,  6.28s/it]                                                                                                                                                           {'loss': 0.5702, 'grad_norm': 0.14512301981449127, 'learning_rate': 0.00019045366383997354, 'ppl': 1.7686, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4667.64, 'total_tokens': 15428588, 'epoch': 0.43}
- 14%|████████████████▎                                                                                                | 360/2499 [43:25<3:43:51,  6.28s/it] 14%|████████████████▎                                                                                                | 361/2499 [43:31<3:44:06,  6.29s/it]                                                                                                                                                           {'loss': 0.5866, 'grad_norm': 0.1660764068365097, 'learning_rate': 0.0001903997725073624, 'ppl': 1.7979, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4457.92, 'total_tokens': 15456714, 'epoch': 0.43}
- 14%|████████████████▎                                                                                                | 361/2499 [43:31<3:44:06,  6.29s/it] 14%|████████████████▎                                                                                                | 362/2499 [43:38<3:44:08,  6.29s/it]                                                                                                                                                           {'loss': 0.5781, 'grad_norm': 0.15140269696712494, 'learning_rate': 0.0001903457371565998, 'ppl': 1.7826, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4605.76, 'total_tokens': 15485721, 'epoch': 0.43}
- 14%|████████████████▎                                                                                                | 362/2499 [43:38<3:44:08,  6.29s/it] 15%|████████████████▍                                                                                                | 363/2499 [43:44<3:43:58,  6.29s/it]                                                                                                                                                           {'loss': 0.5577, 'grad_norm': 0.15968385338783264, 'learning_rate': 0.0001902915578737709, 'ppl': 1.7467, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4660.53, 'total_tokens': 15515013, 'epoch': 0.44}
- 15%|████████████████▍                                                                                                | 363/2499 [43:44<3:43:58,  6.29s/it] 15%|████████████████▍                                                                                                | 364/2499 [43:50<3:43:44,  6.29s/it]                                                                                                                                                           {'loss': 0.5382, 'grad_norm': 0.14655247330665588, 'learning_rate': 0.00019023723474519003, 'ppl': 1.7129, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4668.13, 'total_tokens': 15544312, 'epoch': 0.44}
- 15%|████████████████▍                                                                                                | 364/2499 [43:50<3:43:44,  6.29s/it] 15%|████████████████▌                                                                                                | 365/2499 [43:56<3:43:26,  6.28s/it]                                                                                                                                                           {'loss': 0.5903, 'grad_norm': 0.16471044719219208, 'learning_rate': 0.00019018276785740077, 'ppl': 1.8045, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4603.6, 'total_tokens': 15573163, 'epoch': 0.44}
- 15%|████████████████▌                                                                                                | 365/2499 [43:56<3:43:26,  6.28s/it] 15%|████████████████▌                                                                                                | 366/2499 [44:03<3:43:08,  6.28s/it]                                                                                                                                                           {'loss': 0.6285, 'grad_norm': 0.16121886670589447, 'learning_rate': 0.00019012815729717568, 'ppl': 1.8748, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4528.92, 'total_tokens': 15601521, 'epoch': 0.44}
- 15%|████████████████▌                                                                                                | 366/2499 [44:03<3:43:08,  6.28s/it] 15%|████████████████▌                                                                                                | 367/2499 [44:09<3:42:38,  6.27s/it]                                                                                                                                                           {'loss': 0.5723, 'grad_norm': 0.15570220351219177, 'learning_rate': 0.0001900734031515162, 'ppl': 1.7723, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4270.92, 'total_tokens': 15628162, 'epoch': 0.44}
- 15%|████████████████▌                                                                                                | 367/2499 [44:09<3:42:38,  6.27s/it] 15%|████████████████▋                                                                                                | 368/2499 [44:15<3:42:57,  6.28s/it]                                                                                                                                                           {'loss': 0.5747, 'grad_norm': 0.1494811475276947, 'learning_rate': 0.00019001850550765258, 'ppl': 1.7766, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4639.58, 'total_tokens': 15657404, 'epoch': 0.44}
- 15%|████████████████▋                                                                                                | 368/2499 [44:15<3:42:57,  6.28s/it] 15%|████████████████▋                                                                                                | 369/2499 [44:21<3:42:47,  6.28s/it]                                                                                                                                                           {'loss': 0.5729, 'grad_norm': 0.15576674044132233, 'learning_rate': 0.00018996346445304357, 'ppl': 1.7734, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4490.94, 'total_tokens': 15685549, 'epoch': 0.44}
- 15%|████████████████▋                                                                                                | 369/2499 [44:21<3:42:47,  6.28s/it] 15%|████████████████▋                                                                                                | 370/2499 [44:28<3:42:24,  6.27s/it]                                                                                                                                                           {'loss': 0.568, 'grad_norm': 0.16379213333129883, 'learning_rate': 0.00018990828007537646, 'ppl': 1.7647, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4541.16, 'total_tokens': 15713920, 'epoch': 0.44}
- 15%|████████████████▋                                                                                                | 370/2499 [44:28<3:42:24,  6.27s/it] 15%|████████████████▊                                                                                                | 371/2499 [44:34<3:42:25,  6.27s/it]                                                                                                                                                           {'loss': 0.5741, 'grad_norm': 0.15409880876541138, 'learning_rate': 0.00018985295246256694, 'ppl': 1.7755, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4750.89, 'total_tokens': 15743743, 'epoch': 0.45}
- 15%|████████████████▊                                                                                                | 371/2499 [44:34<3:42:25,  6.27s/it] 15%|████████████████▊                                                                                                | 372/2499 [44:40<3:42:16,  6.27s/it]                                                                                                                                                           {'loss': 0.6448, 'grad_norm': 0.16626456379890442, 'learning_rate': 0.0001897974817027588, 'ppl': 1.9056, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4482.9, 'total_tokens': 15771824, 'epoch': 0.45}
- 15%|████████████████▊                                                                                                | 372/2499 [44:40<3:42:16,  6.27s/it] 15%|████████████████▊                                                                                                | 373/2499 [44:47<3:42:05,  6.27s/it]                                                                                                                                                           {'loss': 0.6312, 'grad_norm': 0.17316874861717224, 'learning_rate': 0.00018974186788432384, 'ppl': 1.8799, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4500.96, 'total_tokens': 15800000, 'epoch': 0.45}
- 15%|████████████████▊                                                                                                | 373/2499 [44:47<3:42:05,  6.27s/it] 15%|████████████████▉                                                                                                | 374/2499 [44:53<3:42:08,  6.27s/it]                                                                                                                                                           {'loss': 0.5917, 'grad_norm': 0.16619497537612915, 'learning_rate': 0.00018968611109586192, 'ppl': 1.8071, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4609.35, 'total_tokens': 15828947, 'epoch': 0.45}
- 15%|████████████████▉                                                                                                | 374/2499 [44:53<3:42:08,  6.27s/it] 15%|████████████████▉                                                                                                | 375/2499 [44:59<3:42:18,  6.28s/it]                                                                                                                                                           {'loss': 0.6261, 'grad_norm': 0.15712764859199524, 'learning_rate': 0.00018963021142620053, 'ppl': 1.8703, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4563.22, 'total_tokens': 15857673, 'epoch': 0.45}
- 15%|████████████████▉                                                                                                | 375/2499 [44:59<3:42:18,  6.28s/it] 15%|█████████████████                                                                                                | 376/2499 [45:05<3:42:40,  6.29s/it]                                                                                                                                                           {'loss': 0.6129, 'grad_norm': 0.16614432632923126, 'learning_rate': 0.00018957416896439483, 'ppl': 1.8458, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4639.79, 'total_tokens': 15887003, 'epoch': 0.45}
- 15%|█████████████████                                                                                                | 376/2499 [45:05<3:42:40,  6.29s/it] 15%|█████████████████                                                                                                | 377/2499 [45:12<3:42:52,  6.30s/it]                                                                                                                                                           {'loss': 0.6212, 'grad_norm': 0.15233156085014343, 'learning_rate': 0.0001895179837997275, 'ppl': 1.8612, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4427.06, 'total_tokens': 15914974, 'epoch': 0.45}
- 15%|█████████████████                                                                                                | 377/2499 [45:12<3:42:52,  6.30s/it] 15%|█████████████████                                                                                                | 378/2499 [45:18<3:42:39,  6.30s/it]                                                                                                                                                           {'loss': 0.6029, 'grad_norm': 0.16825121641159058, 'learning_rate': 0.00018946165602170856, 'ppl': 1.8274, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4614.83, 'total_tokens': 15943986, 'epoch': 0.45}
- 15%|█████████████████                                                                                                | 378/2499 [45:18<3:42:39,  6.30s/it] 15%|█████████████████▏                                                                                               | 379/2499 [45:24<3:42:26,  6.30s/it]                                                                                                                                                           {'loss': 0.5672, 'grad_norm': 0.1466662883758545, 'learning_rate': 0.00018940518572007516, 'ppl': 1.7633, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4758.72, 'total_tokens': 15973898, 'epoch': 0.45}
- 15%|█████████████████▏                                                                                               | 379/2499 [45:24<3:42:26,  6.30s/it] 15%|█████████████████▏                                                                                               | 380/2499 [45:31<3:41:59,  6.29s/it]                                                                                                                                                           {'loss': 0.6395, 'grad_norm': 0.16290511190891266, 'learning_rate': 0.0001893485729847916, 'ppl': 1.8955, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4498.14, 'total_tokens': 16002060, 'epoch': 0.46}
- 15%|█████████████████▏                                                                                               | 380/2499 [45:31<3:41:59,  6.29s/it] 15%|█████████████████▏                                                                                               | 381/2499 [45:37<3:41:35,  6.28s/it]                                                                                                                                                           {'loss': 0.5917, 'grad_norm': 0.1727246642112732, 'learning_rate': 0.00018929181790604903, 'ppl': 1.8071, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4368.8, 'total_tokens': 16029392, 'epoch': 0.46}
- 15%|█████████████████▏                                                                                               | 381/2499 [45:37<3:41:35,  6.28s/it] 15%|█████████████████▎                                                                                               | 382/2499 [45:43<3:41:27,  6.28s/it]                                                                                                                                                           {'loss': 0.5887, 'grad_norm': 0.1509438455104828, 'learning_rate': 0.0001892349205742654, 'ppl': 1.8016, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4618.89, 'total_tokens': 16058358, 'epoch': 0.46}
- 15%|█████████████████▎                                                                                               | 382/2499 [45:43<3:41:27,  6.28s/it] 15%|█████████████████▎                                                                                               | 383/2499 [45:49<3:41:24,  6.28s/it]                                                                                                                                                           {'loss': 0.5796, 'grad_norm': 0.15395300090312958, 'learning_rate': 0.00018917788108008528, 'ppl': 1.7853, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4309.92, 'total_tokens': 16085426, 'epoch': 0.46}
- 15%|█████████████████▎                                                                                               | 383/2499 [45:49<3:41:24,  6.28s/it] 15%|█████████████████▎                                                                                               | 384/2499 [45:56<3:41:13,  6.28s/it]                                                                                                                                                           {'loss': 0.5248, 'grad_norm': 0.13965602219104767, 'learning_rate': 0.00018912069951437972, 'ppl': 1.6901, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4440.01, 'total_tokens': 16113248, 'epoch': 0.46}
- 15%|█████████████████▎                                                                                               | 384/2499 [45:56<3:41:13,  6.28s/it] 15%|█████████████████▍                                                                                               | 385/2499 [46:02<3:40:54,  6.27s/it]                                                                                                                                                           {'loss': 0.6001, 'grad_norm': 0.1578795462846756, 'learning_rate': 0.00018906337596824612, 'ppl': 1.8223, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4435.44, 'total_tokens': 16140981, 'epoch': 0.46}
- 15%|█████████████████▍                                                                                               | 385/2499 [46:02<3:40:54,  6.27s/it] 15%|█████████████████▍                                                                                               | 386/2499 [46:08<3:40:36,  6.26s/it]                                                                                                                                                           {'loss': 0.4905, 'grad_norm': 0.14027678966522217, 'learning_rate': 0.00018900591053300805, 'ppl': 1.6331, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4402.48, 'total_tokens': 16168495, 'epoch': 0.46}
- 15%|█████████████████▍                                                                                               | 386/2499 [46:08<3:40:36,  6.26s/it] 15%|█████████████████▍                                                                                               | 387/2499 [46:14<3:40:28,  6.26s/it]                                                                                                                                                           {'loss': 0.6212, 'grad_norm': 0.16160684823989868, 'learning_rate': 0.00018894830330021516, 'ppl': 1.8612, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4488.09, 'total_tokens': 16196583, 'epoch': 0.46}
- 15%|█████████████████▍                                                                                               | 387/2499 [46:14<3:40:28,  6.26s/it] 16%|█████████████████▌                                                                                               | 388/2499 [46:21<3:40:20,  6.26s/it]                                                                                                                                                           {'loss': 0.6166, 'grad_norm': 0.1768082231283188, 'learning_rate': 0.00018889055436164295, 'ppl': 1.8526, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4527.83, 'total_tokens': 16224926, 'epoch': 0.47}
- 16%|█████████████████▌                                                                                               | 388/2499 [46:21<3:40:20,  6.26s/it] 16%|█████████████████▌                                                                                               | 389/2499 [46:27<3:40:30,  6.27s/it]                                                                                                                                                           {'loss': 0.581, 'grad_norm': 0.16775575280189514, 'learning_rate': 0.00018883266380929271, 'ppl': 1.7878, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4346.76, 'total_tokens': 16252245, 'epoch': 0.47}
- 16%|█████████████████▌                                                                                               | 389/2499 [46:27<3:40:30,  6.27s/it] 16%|█████████████████▋                                                                                               | 390/2499 [46:33<3:40:47,  6.28s/it]                                                                                                                                                           {'loss': 0.5907, 'grad_norm': 0.1857319474220276, 'learning_rate': 0.00018877463173539138, 'ppl': 1.8053, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4364.59, 'total_tokens': 16279755, 'epoch': 0.47}
- 16%|█████████████████▋                                                                                               | 390/2499 [46:33<3:40:47,  6.28s/it] 16%|█████████████████▋                                                                                               | 391/2499 [46:40<3:40:38,  6.28s/it]                                                                                                                                                           {'loss': 0.5743, 'grad_norm': 0.19177928566932678, 'learning_rate': 0.00018871645823239128, 'ppl': 1.7759, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4530.49, 'total_tokens': 16308173, 'epoch': 0.47}
- 16%|█████████████████▋                                                                                               | 391/2499 [46:40<3:40:38,  6.28s/it] 16%|█████████████████▋                                                                                               | 392/2499 [46:46<3:40:19,  6.27s/it]                                                                                                                                                           {'loss': 0.6016, 'grad_norm': 0.16839760541915894, 'learning_rate': 0.0001886581433929701, 'ppl': 1.825, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4453.3, 'total_tokens': 16336041, 'epoch': 0.47}
- 16%|█████████████████▋                                                                                               | 392/2499 [46:46<3:40:19,  6.27s/it] 16%|█████████████████▊                                                                                               | 393/2499 [46:52<3:40:09,  6.27s/it]                                                                                                                                                           {'loss': 0.5647, 'grad_norm': 0.1491001546382904, 'learning_rate': 0.00018859968731003063, 'ppl': 1.7589, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4608.54, 'total_tokens': 16364916, 'epoch': 0.47}
- 16%|█████████████████▊                                                                                               | 393/2499 [46:52<3:40:09,  6.27s/it] 16%|█████████████████▊                                                                                               | 394/2499 [46:58<3:39:48,  6.27s/it]                                                                                                                                                           {'loss': 0.5319, 'grad_norm': 0.14710378646850586, 'learning_rate': 0.0001885410900767008, 'ppl': 1.7022, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4340.71, 'total_tokens': 16392033, 'epoch': 0.47}
- 16%|█████████████████▊                                                                                               | 394/2499 [46:58<3:39:48,  6.27s/it] 16%|█████████████████▊                                                                                               | 395/2499 [47:05<3:39:50,  6.27s/it]                                                                                                                                                           {'loss': 0.5727, 'grad_norm': 0.16849607229232788, 'learning_rate': 0.00018848235178633326, 'ppl': 1.773, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4629.61, 'total_tokens': 16421090, 'epoch': 0.47}
- 16%|█████████████████▊                                                                                               | 395/2499 [47:05<3:39:50,  6.27s/it] 16%|█████████████████▉                                                                                               | 396/2499 [47:11<3:40:01,  6.28s/it]                                                                                                                                                           {'loss': 0.5808, 'grad_norm': 0.16942906379699707, 'learning_rate': 0.00018842347253250554, 'ppl': 1.7875, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4589.99, 'total_tokens': 16449981, 'epoch': 0.48}
- 16%|█████████████████▉                                                                                               | 396/2499 [47:11<3:40:01,  6.28s/it] 16%|█████████████████▉                                                                                               | 397/2499 [47:17<3:40:09,  6.28s/it]                                                                                                                                                           {'loss': 0.5571, 'grad_norm': 0.1529962718486786, 'learning_rate': 0.00018836445240901956, 'ppl': 1.7456, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4469.78, 'total_tokens': 16478120, 'epoch': 0.48}
- 16%|█████████████████▉                                                                                               | 397/2499 [47:17<3:40:09,  6.28s/it] 16%|█████████████████▉                                                                                               | 398/2499 [47:23<3:39:44,  6.28s/it]                                                                                                                                                           {'loss': 0.6531, 'grad_norm': 0.16236943006515503, 'learning_rate': 0.00018830529150990185, 'ppl': 1.9215, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4429.27, 'total_tokens': 16505806, 'epoch': 0.48}
- 16%|█████████████████▉                                                                                               | 398/2499 [47:23<3:39:44,  6.28s/it] 16%|██████████████████                                                                                               | 399/2499 [47:30<3:39:33,  6.27s/it]                                                                                                                                                           {'loss': 0.5702, 'grad_norm': 0.15536250174045563, 'learning_rate': 0.00018824598992940312, 'ppl': 1.7686, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4621.37, 'total_tokens': 16534759, 'epoch': 0.48}
- 16%|██████████████████                                                                                               | 399/2499 [47:30<3:39:33,  6.27s/it] 16%|██████████████████                                                                                               | 400/2499 [47:36<3:39:25,  6.27s/it]                                                                                                                                                           {'loss': 0.5201, 'grad_norm': 0.15856070816516876, 'learning_rate': 0.00018818654776199816, 'ppl': 1.6822, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4552.77, 'total_tokens': 16563296, 'epoch': 0.48}
- 16%|██████████████████                                                                                               | 400/2499 [47:36<3:39:25,  6.27s/it][2025-12-28 11:53:12,658] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:42410] Running evaluation step...
-[2025-12-28 11:53:14,405] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8942761421203613
-[2025-12-28 11:53:15,270] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8648979663848877
-[2025-12-28 11:53:16,140] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8690180778503418
-[2025-12-28 11:53:16,993] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8520760536193848
-[2025-12-28 11:53:16,993] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
-
-  0%|                                                                                                                               | 0/90 [00:00<?, ?it/s][A
-  2%|██▋                                                                                                                    | 2/90 [00:00<00:36,  2.41it/s][A
-  3%|███▉                                                                                                                   | 3/90 [00:01<00:55,  1.58it/s][A
-  4%|█████▎                                                                                                                 | 4/90 [00:02<01:00,  1.42it/s][A
-  6%|██████▌                                                                                                                | 5/90 [00:03<01:05,  1.30it/s][A
-  7%|███████▉                                                                                                               | 6/90 [00:04<01:06,  1.27it/s][A
-  8%|█████████▎                                                                                                             | 7/90 [00:05<01:08,  1.21it/s][A
-  9%|██████████▌                                                                                                            | 8/90 [00:06<01:07,  1.22it/s][A
- 10%|███████████▉                                                                                                           | 9/90 [00:06<01:08,  1.19it/s][A
- 11%|█████████████                                                                                                         | 10/90 [00:07<01:06,  1.20it/s][A
- 12%|██████████████▍                                                                                                       | 11/90 [00:08<01:07,  1.17it/s][A
- 13%|███████████████▋                                                                                                      | 12/90 [00:09<01:05,  1.19it/s][A
- 14%|█████████████████                                                                                                     | 13/90 [00:10<01:06,  1.16it/s][A
- 16%|██████████████████▎                                                                                                   | 14/90 [00:11<01:04,  1.18it/s][A
- 17%|███████████████████▋                                                                                                  | 15/90 [00:12<01:04,  1.16it/s][A
- 18%|████████████████████▉                                                                                                 | 16/90 [00:12<01:02,  1.18it/s][A
- 19%|██████████████████████▎                                                                                               | 17/90 [00:13<01:05,  1.11it/s][A
- 20%|███████████████████████▌                                                                                              | 18/90 [00:14<01:02,  1.15it/s][A
- 21%|████████████████████████▉                                                                                             | 19/90 [00:15<01:02,  1.13it/s][A
- 22%|██████████████████████████▏                                                                                           | 20/90 [00:16<01:00,  1.16it/s][A
- 23%|███████████████████████████▌                                                                                          | 21/90 [00:17<01:00,  1.14it/s][A
- 24%|████████████████████████████▊                                                                                         | 22/90 [00:18<00:58,  1.16it/s][A
- 26%|██████████████████████████████▏                                                                                       | 23/90 [00:19<00:59,  1.13it/s][A
- 27%|███████████████████████████████▍                                                                                      | 24/90 [00:19<00:56,  1.16it/s][A
- 28%|████████████████████████████████▊                                                                                     | 25/90 [00:20<00:56,  1.14it/s][A
- 29%|██████████████████████████████████                                                                                    | 26/90 [00:21<00:54,  1.17it/s][A
- 30%|███████████████████████████████████▍                                                                                  | 27/90 [00:22<00:54,  1.15it/s][A
- 31%|████████████████████████████████████▋                                                                                 | 28/90 [00:23<00:52,  1.17it/s][A
- 32%|██████████████████████████████████████                                                                                | 29/90 [00:24<00:53,  1.15it/s][A
- 33%|███████████████████████████████████████▎                                                                              | 30/90 [00:25<00:51,  1.17it/s][A
- 34%|████████████████████████████████████████▋                                                                             | 31/90 [00:25<00:51,  1.15it/s][A
- 36%|█████████████████████████████████████████▉                                                                            | 32/90 [00:26<00:49,  1.17it/s][A
- 37%|███████████████████████████████████████████▎                                                                          | 33/90 [00:27<00:49,  1.16it/s][A
- 38%|████████████████████████████████████████████▌                                                                         | 34/90 [00:28<00:47,  1.17it/s][A
- 39%|█████████████████████████████████████████████▉                                                                        | 35/90 [00:29<00:47,  1.15it/s][A
- 40%|███████████████████████████████████████████████▏                                                                      | 36/90 [00:30<00:46,  1.17it/s][A
- 41%|████████████████████████████████████████████████▌                                                                     | 37/90 [00:31<00:46,  1.15it/s][A
- 42%|█████████████████████████████████████████████████▊                                                                    | 38/90 [00:31<00:44,  1.17it/s][A
- 43%|███████████████████████████████████████████████████▏                                                                  | 39/90 [00:33<00:50,  1.02it/s][A
- 44%|████████████████████████████████████████████████████▍                                                                 | 40/90 [00:33<00:41,  1.21it/s][A
- 46%|█████████████████████████████████████████████████████▊                                                                | 41/90 [00:34<00:41,  1.18it/s][A
- 47%|███████████████████████████████████████████████████████                                                               | 42/90 [00:35<00:40,  1.19it/s][A
- 48%|████████████████████████████████████████████████████████▍                                                             | 43/90 [00:36<00:40,  1.17it/s][A
- 49%|█████████████████████████████████████████████████████████▋                                                            | 44/90 [00:37<00:38,  1.18it/s][A
- 50%|███████████████████████████████████████████████████████████                                                           | 45/90 [00:38<00:38,  1.16it/s][A
- 51%|████████████████████████████████████████████████████████████▎                                                         | 46/90 [00:38<00:37,  1.18it/s][A
- 52%|█████████████████████████████████████████████████████████████▌                                                        | 47/90 [00:39<00:37,  1.16it/s][A
- 53%|██████████████████████████████████████████████████████████████▉                                                       | 48/90 [00:40<00:35,  1.18it/s][A
- 54%|████████████████████████████████████████████████████████████████▏                                                     | 49/90 [00:41<00:35,  1.16it/s][A
- 56%|██████████████████████████████████████████████████████████████��██▌                                                    | 50/90 [00:42<00:33,  1.18it/s][A
- 57%|██████████████████████████████████████████████████████████████████▊                                                   | 51/90 [00:43<00:33,  1.16it/s][A
- 58%|████████████████████████████████████████████████████████████████████▏                                                 | 52/90 [00:43<00:32,  1.18it/s][A
- 59%|█████████████████████████████████████████████████████████████████████▍                                                | 53/90 [00:44<00:31,  1.16it/s][A
- 60%|██████████████████████████████████████████████████████████████████████▊                                               | 54/90 [00:45<00:30,  1.18it/s][A
- 61%|████████████████████████████████████████████████████████████████████████                                              | 55/90 [00:46<00:30,  1.15it/s][A
- 62%|█████████████████████████████████████████████████████████████████████████▍                                            | 56/90 [00:47<00:29,  1.17it/s][A
- 63%|██████████████████████████████████████████████████████████████████████████▋                                           | 57/90 [00:48<00:28,  1.15it/s][A
- 64%|████████████████████████████████████████████████████████████████████████████                                          | 58/90 [00:49<00:27,  1.17it/s][A
- 66%|█████████████████████████████████████████████████████████████████████████████▎                                        | 59/90 [00:50<00:26,  1.15it/s][A
- 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 60/90 [00:50<00:25,  1.17it/s][A
- 68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 61/90 [00:51<00:25,  1.15it/s][A
- 69%|█████████████████████████████████████████████████████████████████████████████████▎                                    | 62/90 [00:52<00:23,  1.17it/s][A
- 70%|██████████████████████████████████████████████████████████████████████████████████▌                                   | 63/90 [00:53<00:23,  1.14it/s][A
- 71%|███████████████████████████████████████████████████████████████████████████████████▉                                  | 64/90 [00:54<00:22,  1.17it/s][A
- 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 65/90 [00:55<00:21,  1.14it/s][A
- 73%|██████████████████████████████████████████████████████████████████████████████████████▌                               | 66/90 [00:56<00:20,  1.16it/s][A
- 74%|███████████████████████████████████████████████████████████████████████████████████████▊                              | 67/90 [00:57<00:20,  1.14it/s][A
- 76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 68/90 [00:57<00:18,  1.16it/s][A
- 77%|██████████████████████████████████████████████████████████████████████████████████████████▍                           | 69/90 [00:58<00:18,  1.14it/s][A
- 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 70/90 [00:59<00:17,  1.17it/s][A
- 79%|█████████████████████████████████████████████████████████████████████████████████████████████                         | 71/90 [01:00<00:16,  1.14it/s][A
- 80%|██████████████████████████████████████████████████████████████████████████████████████████████▍                       | 72/90 [01:01<00:15,  1.16it/s][A
- 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 73/90 [01:02<00:14,  1.14it/s][A
- 82%|█████████████████████████████████████████████████████████████████████████████████████████████████                     | 74/90 [01:03<00:13,  1.17it/s][A
- 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 75/90 [01:03<00:13,  1.15it/s][A
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 76/90 [01:04<00:11,  1.17it/s][A
- 86%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 77/90 [01:05<00:11,  1.15it/s][A
- 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 78/90 [01:06<00:10,  1.18it/s][A
- 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 79/90 [01:07<00:09,  1.15it/s][A
- 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 80/90 [01:08<00:08,  1.17it/s][A
- 90%|███████████████████████████████████████████��██████████████████████████████████████████████████████████████▏           | 81/90 [01:09<00:07,  1.15it/s][A
- 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 82/90 [01:09<00:06,  1.18it/s][A
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 83/90 [01:10<00:06,  1.16it/s][A
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 84/90 [01:11<00:05,  1.18it/s][A
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 85/90 [01:12<00:04,  1.16it/s][A
- 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 86/90 [01:13<00:03,  1.18it/s][A
- 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 87/90 [01:14<00:02,  1.16it/s][A
- 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 88/90 [01:15<00:01,  1.18it/s][A
- 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 89/90 [01:15<00:00,  1.16it/s][A
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:16<00:00,  1.15it/s][A                                                                                                                                                           
-                                                                                                                                                           [A{'eval_loss': 0.5707286596298218, 'eval_runtime': 78.7514, 'eval_samples_per_second': 9.27, 'eval_steps_per_second': 2.324, 'eval_ppl': 1.7696, 'memory/max_active (GiB)': 12.83, 'memory/max_allocated (GiB)': 6.85, 'memory/device_reserved (GiB)': 20.25, 'epoch': 0.48}
- 16%|██████████████████                                                                                               | 400/2499 [48:59<3:39:25,  6.27s/it]
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.15it/s][A
-                                                                                                                                                           [A[2025-12-28 11:54:39,612] [INFO] [axolotl.core.trainers.base._save:692] [PID:42410] Saving model checkpoint to ./outputs/luau-codellama-h200/checkpoint-400
- 16%|█████████████████▉                                                                                              | 401/2499 [49:10<19:00:44, 32.62s/it]                                                                                                                                                           {'loss': 0.6189, 'grad_norm': 0.16039417684078217, 'learning_rate': 0.0001881269651023858, 'ppl': 1.8569, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.01, 'tokens_per_second_per_gpu': 4650.7, 'total_tokens': 17862360, 'epoch': 0.48}
- 16%|█████████████████▉                                                                                              | 401/2499 [49:10<19:00:44, 32.62s/it] 16%|██████████████████                                                                                              | 402/2499 [49:16<14:23:47, 24.72s/it]                                                                                                                                                           {'loss': 0.5702, 'grad_norm': 0.15665364265441895, 'learning_rate': 0.0001880672420454887, 'ppl': 1.7686, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.03, 'tokens_per_second_per_gpu': 4577.65, 'total_tokens': 17891015, 'epoch': 0.48}
- 16%|██████████████████                                                                                              | 402/2499 [49:16<14:23:47, 24.72s/it] 16%|██████████████████                                                                                              | 403/2499 [49:23<11:10:17, 19.19s/it]                                                                                                                                                           {'loss': 0.5665, 'grad_norm': 0.15146903693675995, 'learning_rate': 0.00018800737868645312, 'ppl': 1.7621, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.03, 'tokens_per_second_per_gpu': 4635.76, 'total_tokens': 17920165, 'epoch': 0.48}
- 16%|██████████████████                                                                                              | 403/2499 [49:23<11:10:17, 19.19s/it] 16%|██████████████████▎                                                                                              | 404/2499 [49:29<8:54:38, 15.31s/it]                                                                                                                                                           {'loss': 0.6125, 'grad_norm': 0.1600656360387802, 'learning_rate': 0.0001879473751206489, 'ppl': 1.845, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4530.87, 'total_tokens': 17948550, 'epoch': 0.48}
- 16%|██████████████████▎                                                                                              | 404/2499 [49:29<8:54:38, 15.31s/it] 16%|██████████████████▎                                                                                              | 405/2499 [49:35<7:19:31, 12.59s/it]                                                                                                                                                           {'loss': 0.5991, 'grad_norm': 0.17024600505828857, 'learning_rate': 0.00018788723144366927, 'ppl': 1.8205, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4537.43, 'total_tokens': 17976903, 'epoch': 0.49}
- 16%|██████████████████▎                                                                                              | 405/2499 [49:35<7:19:31, 12.59s/it] 16%|██████████████████▎                                                                                              | 406/2499 [49:41<6:13:03, 10.69s/it]                                                                                                                                                           {'loss': 0.5744, 'grad_norm': 0.17297804355621338, 'learning_rate': 0.00018782694775133058, 'ppl': 1.7761, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4652.34, 'total_tokens': 18006026, 'epoch': 0.49}
- 16%|██████████████████▎                                                                                              | 406/2499 [49:41<6:13:03, 10.69s/it] 16%|██████████████████▍                                                                                              | 407/2499 [49:48<5:26:30,  9.36s/it]                                                                                                                                                           {'loss': 0.5972, 'grad_norm': 0.17486798763275146, 'learning_rate': 0.00018776652413967236, 'ppl': 1.817, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4501.88, 'total_tokens': 18034203, 'epoch': 0.49}
- 16%|██████████████████▍                                                                                              | 407/2499 [49:48<5:26:30,  9.36s/it] 16%|██████████████████▍                                                                                              | 408/2499 [49:54<4:53:56,  8.43s/it]                                                                                                                                                           {'loss': 0.4842, 'grad_norm': 0.14348573982715607, 'learning_rate': 0.0001877059607049569, 'ppl': 1.6229, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4636.87, 'total_tokens': 18063240, 'epoch': 0.49}
- 16%|██████████████████▍                                                                                              | 408/2499 [49:54<4:53:56,  8.43s/it] 16%|██████████████████▍                                                                                              | 409/2499 [50:00<4:31:29,  7.79s/it]                                                                                                                                                           {'loss': 0.5476, 'grad_norm': 0.14626961946487427, 'learning_rate': 0.00018764525754366937, 'ppl': 1.7291, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4564.52, 'total_tokens': 18091984, 'epoch': 0.49}
- 16%|██████████████████▍                                                                                              | 409/2499 [50:00<4:31:29,  7.79s/it] 16%|██████████████████▌                                                                                              | 410/2499 [50:07<4:15:24,  7.34s/it]                                                                                                                                                           {'loss': 0.5608, 'grad_norm': 0.18620796501636505, 'learning_rate': 0.00018758441475251754, 'ppl': 1.7521, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4481.57, 'total_tokens': 18120048, 'epoch': 0.49}
- 16%|██████████████████▌                                                                                              | 410/2499 [50:07<4:15:24,  7.34s/it] 16%|██████████████████▌                                                                                              | 411/2499 [50:13<4:04:07,  7.02s/it]                                                                                                                                                           {'loss': 0.5314, 'grad_norm': 0.15043221414089203, 'learning_rate': 0.00018752343242843154, 'ppl': 1.7013, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4554.39, 'total_tokens': 18148581, 'epoch': 0.49}
- 16%|██████████████████▌                                                                                              | 411/2499 [50:13<4:04:07,  7.02s/it] 16%|██████████████████▋                                                                                              | 412/2499 [50:19<3:56:08,  6.79s/it]                                                                                                                                                           {'loss': 0.6299, 'grad_norm': 0.15692859888076782, 'learning_rate': 0.00018746231066856387, 'ppl': 1.8774, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4626.86, 'total_tokens': 18177538, 'epoch': 0.49}
- 16%|██████████████████▋                                                                                              | 412/2499 [50:19<3:56:08,  6.79s/it] 17%|██████████████████▋                                                                                              | 413/2499 [50:25<3:50:31,  6.63s/it]                                                                                                                                                           {'loss': 0.6237, 'grad_norm': 0.15896819531917572, 'learning_rate': 0.00018740104957028913, 'ppl': 1.8658, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4577.2, 'total_tokens': 18206187, 'epoch': 0.5}
- 17%|██████████████████▋                                                                                              | 413/2499 [50:25<3:50:31,  6.63s/it] 17%|██████████████████▋                                                                                              | 414/2499 [50:32<3:46:30,  6.52s/it]                                                                                                                                                           {'loss': 0.65, 'grad_norm': 0.18454909324645996, 'learning_rate': 0.00018733964923120392, 'ppl': 1.9155, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4508.93, 'total_tokens': 18234384, 'epoch': 0.5}
- 17%|██████████████████▋                                                                                              | 414/2499 [50:32<3:46:30,  6.52s/it] 17%|██████████████████▊                                                                                              | 415/2499 [50:38<3:44:02,  6.45s/it]                                                                                                                                                           {'loss': 0.5645, 'grad_norm': 0.15952667593955994, 'learning_rate': 0.0001872781097491267, 'ppl': 1.7586, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4557.17, 'total_tokens': 18263045, 'epoch': 0.5}
- 17%|██████████████████▊                                                                                              | 415/2499 [50:38<3:44:02,  6.45s/it] 17%|██████████████████▊                                                                                              | 416/2499 [50:44<3:41:57,  6.39s/it]                                                                                                                                                           {'loss': 0.567, 'grad_norm': 0.15676908195018768, 'learning_rate': 0.0001872164312220975, 'ppl': 1.763, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4339.73, 'total_tokens': 18290199, 'epoch': 0.5}
- 17%|██████████████████▊                                                                                              | 416/2499 [50:44<3:41:57,  6.39s/it] 17%|██████████████████▊                                                                                              | 417/2499 [50:50<3:40:27,  6.35s/it]                                                                                                                                                           {'loss': 0.5373, 'grad_norm': 0.16627971827983856, 'learning_rate': 0.000187154613748378, 'ppl': 1.7114, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4461.35, 'total_tokens': 18318111, 'epoch': 0.5}
- 17%|██████████████████▊                                                                                              | 417/2499 [50:50<3:40:27,  6.35s/it] 17%|██████████████████▉                                                                                              | 418/2499 [50:57<3:39:31,  6.33s/it]                                                                                                                                                           {'loss': 0.5771, 'grad_norm': 0.15211078524589539, 'learning_rate': 0.0001870926574264511, 'ppl': 1.7809, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4570.21, 'total_tokens': 18346773, 'epoch': 0.5}
- 17%|██████████████████▉                                                                                              | 418/2499 [50:57<3:39:31,  6.33s/it] 17%|██████████████████▉                                                                                              | 419/2499 [51:03<3:38:46,  6.31s/it]                                                                                                                                                           {'loss': 0.5499, 'grad_norm': 0.15301309525966644, 'learning_rate': 0.00018703056235502103, 'ppl': 1.7331, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4536.51, 'total_tokens': 18375194, 'epoch': 0.5}
- 17%|██████████████████▉                                                                                              | 419/2499 [51:03<3:38:46,  6.31s/it] 17%|██████████████████▉                                                                                              | 420/2499 [51:09<3:38:10,  6.30s/it]                                                                                                                                                           {'loss': 0.5583, 'grad_norm': 0.14875005185604095, 'learning_rate': 0.000186968328633013, 'ppl': 1.7477, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4548.16, 'total_tokens': 18403674, 'epoch': 0.5}
- 17%|██████████████████▉                                                                                              | 420/2499 [51:09<3:38:10,  6.30s/it] 17%|███████████████████                                                                                              | 421/2499 [51:16<3:37:58,  6.29s/it]                                                                                                                                                           {'loss': 0.5516, 'grad_norm': 0.16316725313663483, 'learning_rate': 0.00018690595635957312, 'ppl': 1.736, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4436.18, 'total_tokens': 18431553, 'epoch': 0.51}
- 17%|███████████████████                                                                                              | 421/2499 [51:16<3:37:58,  6.29s/it] 17%|███████████████████                                                                                              | 422/2499 [51:22<3:38:26,  6.31s/it]                                                                                                                                                           {'loss': 0.5639, 'grad_norm': 0.15915672481060028, 'learning_rate': 0.0001868434456340682, 'ppl': 1.7575, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4741.62, 'total_tokens': 18461634, 'epoch': 0.51}
- 17%|███████████████████                                                                                              | 422/2499 [51:22<3:38:26,  6.31s/it] 17%|███████████████████▏                                                                                             | 423/2499 [51:28<3:37:56,  6.30s/it]                                                                                                                                                           {'loss': 0.623, 'grad_norm': 0.15488934516906738, 'learning_rate': 0.00018678079655608568, 'ppl': 1.8645, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4564.65, 'total_tokens': 18490250, 'epoch': 0.51}
- 17%|███████████████████▏                                                                                             | 423/2499 [51:28<3:37:56,  6.30s/it] 17%|███████████████████▏                                                                                             | 424/2499 [51:34<3:37:33,  6.29s/it]                                                                                                                                                           {'loss': 0.5389, 'grad_norm': 0.16349388659000397, 'learning_rate': 0.00018671800922543338, 'ppl': 1.7141, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4610.8, 'total_tokens': 18519157, 'epoch': 0.51}
- 17%|███████████████████▏                                                                                             | 424/2499 [51:34<3:37:33,  6.29s/it] 17%|███████████████████▏                                                                                             | 425/2499 [51:41<3:37:23,  6.29s/it]                                                                                                                                                           {'loss': 0.5917, 'grad_norm': 0.17400610446929932, 'learning_rate': 0.00018665508374213937, 'ppl': 1.8071, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4723.73, 'total_tokens': 18548836, 'epoch': 0.51}
- 17%|███████████████████▏                                                                                             | 425/2499 [51:41<3:37:23,  6.29s/it] 17%|███████████████████▎                                                                                             | 426/2499 [51:47<3:37:05,  6.28s/it]                                                                                                                                                           {'loss': 0.5805, 'grad_norm': 0.15097637474536896, 'learning_rate': 0.00018659202020645182, 'ppl': 1.7869, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4556.88, 'total_tokens': 18577399, 'epoch': 0.51}
- 17%|███████████████████▎                                                                                             | 426/2499 [51:47<3:37:05,  6.28s/it] 17%|███████████████████▎                                                                                             | 427/2499 [51:53<3:36:57,  6.28s/it]                                                                                                                                                           {'loss': 0.476, 'grad_norm': 0.13820724189281464, 'learning_rate': 0.0001865288187188388, 'ppl': 1.6096, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4660.43, 'total_tokens': 18606658, 'epoch': 0.51}
- 17%|███████████████████▎                                                                                             | 427/2499 [51:53<3:36:57,  6.28s/it] 17%|███████████████████▎                                                                                             | 428/2499 [52:00<3:36:59,  6.29s/it]                                                                                                                                                           {'loss': 0.5665, 'grad_norm': 0.1509668529033661, 'learning_rate': 0.00018646547937998826, 'ppl': 1.7621, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4493.09, 'total_tokens': 18634930, 'epoch': 0.51}
- 17%|███████████████████▎                                                                                             | 428/2499 [52:00<3:36:59,  6.29s/it] 17%|███████████████████▍                                                                                             | 429/2499 [52:06<3:37:16,  6.30s/it]                                                                                                                                                           {'loss': 0.6098, 'grad_norm': 0.16413377225399017, 'learning_rate': 0.00018640200229080763, 'ppl': 1.8401, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4687.87, 'total_tokens': 18664562, 'epoch': 0.52}
- 17%|███████████████████▍                                                                                             | 429/2499 [52:06<3:37:16,  6.30s/it] 17%|███████████████████▍                                                                                             | 430/2499 [52:12<3:37:06,  6.30s/it]                                                                                                                                                           {'loss': 0.5941, 'grad_norm': 0.15067212283611298, 'learning_rate': 0.00018633838755242389, 'ppl': 1.8114, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4641.44, 'total_tokens': 18693744, 'epoch': 0.52}
- 17%|███████████████████▍                                                                                             | 430/2499 [52:12<3:37:06,  6.30s/it] 17%|███████████████████▍                                                                                             | 431/2499 [52:18<3:36:44,  6.29s/it]                                                                                                                                                           {'loss': 0.6031, 'grad_norm': 0.16875723004341125, 'learning_rate': 0.00018627463526618327, 'ppl': 1.8278, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4484.05, 'total_tokens': 18721853, 'epoch': 0.52}
- 17%|███████████████████▍                                                                                             | 431/2499 [52:18<3:36:44,  6.29s/it] 17%|███████████████████▌                                                                                             | 432/2499 [52:25<3:36:23,  6.28s/it]                                                                                                                                                           {'loss': 0.5569, 'grad_norm': 0.16489025950431824, 'learning_rate': 0.00018621074553365117, 'ppl': 1.7453, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4513.86, 'total_tokens': 18750119, 'epoch': 0.52}
- 17%|███████████████████▌                                                                                             | 432/2499 [52:25<3:36:23,  6.28s/it] 17%|███████████████████▌                                                                                             | 433/2499 [52:31<3:36:14,  6.28s/it]                                                                                                                                                           {'loss': 0.6399, 'grad_norm': 0.16152667999267578, 'learning_rate': 0.0001861467184566119, 'ppl': 1.8963, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4645.4, 'total_tokens': 18779267, 'epoch': 0.52}
- 17%|███████████████████▌                                                                                             | 433/2499 [52:31<3:36:14,  6.28s/it] 17%|███████████████████▌                                                                                             | 434/2499 [52:37<3:36:01,  6.28s/it]                                                                                                                                                           {'loss': 0.5099, 'grad_norm': 0.15479077398777008, 'learning_rate': 0.0001860825541370686, 'ppl': 1.6651, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4642.91, 'total_tokens': 18808360, 'epoch': 0.52}
- 17%|███████████████████▌                                                                                             | 434/2499 [52:37<3:36:01,  6.28s/it] 17%|███████████████████▋                                                                                             | 435/2499 [52:44<3:36:14,  6.29s/it]                                                                                                                                                           {'loss': 0.5588, 'grad_norm': 0.14588800072669983, 'learning_rate': 0.00018601825267724307, 'ppl': 1.7486, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4598.14, 'total_tokens': 18837352, 'epoch': 0.52}
- 17%|███████████████████▋                                                                                             | 435/2499 [52:44<3:36:14,  6.29s/it] 17%|███████████████████▋                                                                                             | 436/2499 [52:50<3:36:24,  6.29s/it]                                                                                                                                                           {'loss': 0.5802, 'grad_norm': 0.14621266722679138, 'learning_rate': 0.00018595381417957558, 'ppl': 1.7864, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4486.83, 'total_tokens': 18865660, 'epoch': 0.52}
- 17%|███████████████████▋                                                                                             | 436/2499 [52:50<3:36:24,  6.29s/it] 17%|███████████████████▊                                                                                             | 437/2499 [52:56<3:36:07,  6.29s/it]                                                                                                                                                           {'loss': 0.5689, 'grad_norm': 0.1723642498254776, 'learning_rate': 0.00018588923874672474, 'ppl': 1.7663, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4501.25, 'total_tokens': 18893893, 'epoch': 0.52}
- 17%|███████████████████▊                                                                                             | 437/2499 [52:56<3:36:07,  6.29s/it] 18%|███████████████████▊                                                                                             | 438/2499 [53:02<3:35:50,  6.28s/it]                                                                                                                                                           {'loss': 0.5598, 'grad_norm': 0.14782671630382538, 'learning_rate': 0.00018582452648156726, 'ppl': 1.7503, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4625.08, 'total_tokens': 18922889, 'epoch': 0.53}
- 18%|███████████████████▊                                                                                             | 438/2499 [53:02<3:35:50,  6.28s/it] 18%|███████████████████▊                                                                                             | 439/2499 [53:09<3:35:38,  6.28s/it]                                                                                                                                                           {'loss': 0.6162, 'grad_norm': 0.16162589192390442, 'learning_rate': 0.0001857596774871979, 'ppl': 1.8519, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4605.11, 'total_tokens': 18951769, 'epoch': 0.53}
- 18%|███████████████████▊                                                                                             | 439/2499 [53:09<3:35:38,  6.28s/it] 18%|███████████████████▉                                                                                             | 440/2499 [53:15<3:35:36,  6.28s/it]                                                                                                                                                           {'loss': 0.5212, 'grad_norm': 0.15044647455215454, 'learning_rate': 0.00018569469186692925, 'ppl': 1.684, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4708.11, 'total_tokens': 18981362, 'epoch': 0.53}
- 18%|███████████████████▉                                                                                             | 440/2499 [53:15<3:35:36,  6.28s/it] 18%|███████████████████▉                                                                                             | 441/2499 [53:21<3:35:23,  6.28s/it]                                                                                                                                                           {'loss': 0.5599, 'grad_norm': 0.1452936828136444, 'learning_rate': 0.0001856295697242915, 'ppl': 1.7505, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4647.74, 'total_tokens': 19010504, 'epoch': 0.53}
- 18%|███████████████████▉                                                                                             | 441/2499 [53:21<3:35:23,  6.28s/it] 18%|███████████████████▉                                                                                             | 442/2499 [53:28<3:35:26,  6.28s/it]                                                                                                                                                           {'loss': 0.5611, 'grad_norm': 0.1456039994955063, 'learning_rate': 0.0001855643111630324, 'ppl': 1.7526, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4472.27, 'total_tokens': 19038640, 'epoch': 0.53}
- 18%|███████████████████▉                                                                                             | 442/2499 [53:28<3:35:26,  6.28s/it] 18%|████████████████████                                                                                             | 443/2499 [53:34<3:35:20,  6.28s/it]                                                                                                                                                           {'loss': 0.5572, 'grad_norm': 0.15803247690200806, 'learning_rate': 0.00018549891628711696, 'ppl': 1.7458, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4579.12, 'total_tokens': 19067400, 'epoch': 0.53}
- 18%|████████████████████                                                                                             | 443/2499 [53:34<3:35:20,  6.28s/it] 18%|████████████████████                                                                                             | 444/2499 [53:40<3:35:01,  6.28s/it]                                                                                                                                                           {'loss': 0.5711, 'grad_norm': 0.15013474225997925, 'learning_rate': 0.00018543338520072745, 'ppl': 1.7702, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4475.98, 'total_tokens': 19095424, 'epoch': 0.53}
- 18%|████████████████████                                                                                             | 444/2499 [53:40<3:35:01,  6.28s/it] 18%|████████████████████                                                                                             | 445/2499 [53:46<3:34:47,  6.27s/it]                                                                                                                                                           {'loss': 0.5748, 'grad_norm': 0.16678114235401154, 'learning_rate': 0.00018536771800826304, 'ppl': 1.7768, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4595.63, 'total_tokens': 19124207, 'epoch': 0.53}
- 18%|████████████████████                                                                                             | 445/2499 [53:46<3:34:47,  6.27s/it] 18%|████████████████████▏                                                                                            | 446/2499 [53:53<3:34:34,  6.27s/it]                                                                                                                                                           {'loss': 0.5822, 'grad_norm': 0.15794029831886292, 'learning_rate': 0.00018530191481433986, 'ppl': 1.79, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4661.59, 'total_tokens': 19153399, 'epoch': 0.54}
- 18%|████████████████████▏                                                                                            | 446/2499 [53:53<3:34:34,  6.27s/it] 18%|████████████████████▏                                                                                            | 447/2499 [53:59<3:34:22,  6.27s/it]                                                                                                                                                           {'loss': 0.5633, 'grad_norm': 0.15021128952503204, 'learning_rate': 0.0001852359757237906, 'ppl': 1.7565, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4615.87, 'total_tokens': 19182290, 'epoch': 0.54}
- 18%|████████████████████▏                                                                                            | 447/2499 [53:59<3:34:22,  6.27s/it] 18%|████████████████████▎                                                                                            | 448/2499 [54:05<3:34:36,  6.28s/it]                                                                                                                                                           {'loss': 0.5825, 'grad_norm': 0.16197733581066132, 'learning_rate': 0.00018516990084166442, 'ppl': 1.7905, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4640.39, 'total_tokens': 19211516, 'epoch': 0.54}
- 18%|████████████████████▎                                                                                            | 448/2499 [54:05<3:34:36,  6.28s/it] 18%|████████████████████▎                                                                                            | 449/2499 [54:11<3:34:56,  6.29s/it]                                                                                                                                                           {'loss': 0.6094, 'grad_norm': 0.1648341864347458, 'learning_rate': 0.000185103690273227, 'ppl': 1.8393, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4526.22, 'total_tokens': 19240112, 'epoch': 0.54}
- 18%|████████████████████▎                                                                                            | 449/2499 [54:11<3:34:56,  6.29s/it] 18%|████████████████████▎                                                                                            | 450/2499 [54:18<3:34:49,  6.29s/it]                                                                                                                                                           {'loss': 0.5692, 'grad_norm': 0.15157613158226013, 'learning_rate': 0.00018503734412395994, 'ppl': 1.7669, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4723.23, 'total_tokens': 19269798, 'epoch': 0.54}
- 18%|████████████████████▎                                                                                            | 450/2499 [54:18<3:34:49,  6.29s/it] 18%|████████████████████▍                                                                                            | 451/2499 [54:24<3:34:38,  6.29s/it]                                                                                                                                                           {'loss': 0.5899, 'grad_norm': 0.15227428078651428, 'learning_rate': 0.00018497086249956107, 'ppl': 1.8038, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4752.62, 'total_tokens': 19299647, 'epoch': 0.54}
- 18%|████████████████████▍                                                                                            | 451/2499 [54:24<3:34:38,  6.29s/it] 18%|████████████████████▍                                                                                            | 452/2499 [54:30<3:34:18,  6.28s/it]                                                                                                                                                           {'loss': 0.5725, 'grad_norm': 0.18285728991031647, 'learning_rate': 0.00018490424550594384, 'ppl': 1.7727, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4465.02, 'total_tokens': 19327610, 'epoch': 0.54}
- 18%|████████████████████▍                                                                                            | 452/2499 [54:30<3:34:18,  6.28s/it] 18%|████████████████████▍                                                                                            | 453/2499 [54:37<3:34:07,  6.28s/it]                                                                                                                                                           {'loss': 0.5944, 'grad_norm': 0.1537967026233673, 'learning_rate': 0.00018483749324923752, 'ppl': 1.8119, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4686.13, 'total_tokens': 19357004, 'epoch': 0.54}
- 18%|████████████████████▍                                                                                            | 453/2499 [54:37<3:34:07,  6.28s/it] 18%|████████████████████▌                                                                                            | 454/2499 [54:43<3:33:52,  6.28s/it]                                                                                                                                                           {'loss': 0.605, 'grad_norm': 0.16797775030136108, 'learning_rate': 0.00018477060583578676, 'ppl': 1.8313, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4550.85, 'total_tokens': 19385505, 'epoch': 0.55}
- 18%|████████████████████▌                                                                                            | 454/2499 [54:43<3:33:52,  6.28s/it] 18%|████████████████████▌                                                                                            | 455/2499 [54:49<3:33:56,  6.28s/it]                                                                                                                                                           {'loss': 0.621, 'grad_norm': 0.1565423309803009, 'learning_rate': 0.00018470358337215162, 'ppl': 1.8608, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4593.26, 'total_tokens': 19414395, 'epoch': 0.55}
- 18%|████████████████████▌                                                                                            | 455/2499 [54:49<3:33:56,  6.28s/it] 18%|████████████████████▌                                                                                            | 456/2499 [54:55<3:34:10,  6.29s/it]                                                                                                                                                           {'loss': 0.5541, 'grad_norm': 0.15655626356601715, 'learning_rate': 0.0001846364259651073, 'ppl': 1.7404, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4694.8, 'total_tokens': 19444018, 'epoch': 0.55}
- 18%|████████████████████▌                                                                                            | 456/2499 [54:55<3:34:10,  6.29s/it] 18%|████████████████████▋                                                                                            | 457/2499 [55:02<3:33:47,  6.28s/it]                                                                                                                                                           {'loss': 0.5553, 'grad_norm': 0.15646992623806, 'learning_rate': 0.00018456913372164388, 'ppl': 1.7425, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4453.86, 'total_tokens': 19471900, 'epoch': 0.55}
- 18%|████████████████████▋                                                                                            | 457/2499 [55:02<3:33:47,  6.28s/it] 18%|████████████████████▋                                                                                            | 458/2499 [55:08<3:33:26,  6.27s/it]                                                                                                                                                           {'loss': 0.5948, 'grad_norm': 0.1484660506248474, 'learning_rate': 0.0001845017067489664, 'ppl': 1.8127, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4470.62, 'total_tokens': 19499866, 'epoch': 0.55}
- 18%|████████████████████▋                                                                                            | 458/2499 [55:08<3:33:26,  6.27s/it] 18%|████████████████████▊                                                                                            | 459/2499 [55:14<3:33:14,  6.27s/it]                                                                                                                                                           {'loss': 0.5839, 'grad_norm': 0.1672670543193817, 'learning_rate': 0.00018443414515449438, 'ppl': 1.793, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4569.68, 'total_tokens': 19528485, 'epoch': 0.55}
- 18%|████████████████████▊                                                                                            | 459/2499 [55:14<3:33:14,  6.27s/it] 18%|████████████████████▊                                                                                            | 460/2499 [55:21<3:33:01,  6.27s/it]                                                                                                                                                           {'loss': 0.6341, 'grad_norm': 0.1631045639514923, 'learning_rate': 0.00018436644904586198, 'ppl': 1.8853, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4502.65, 'total_tokens': 19556666, 'epoch': 0.55}
- 18%|████████████████████▊                                                                                            | 460/2499 [55:21<3:33:01,  6.27s/it] 18%|████████████████████▊                                                                                            | 461/2499 [55:27<3:32:52,  6.27s/it]                                                                                                                                                           {'loss': 0.5554, 'grad_norm': 0.15775103867053986, 'learning_rate': 0.00018429861853091754, 'ppl': 1.7426, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4483.55, 'total_tokens': 19584739, 'epoch': 0.55}
- 18%|████████████████████▊                                                                                            | 461/2499 [55:27<3:32:52,  6.27s/it] 18%|████████████████████▉                                                                                            | 462/2499 [55:33<3:33:02,  6.27s/it]                                                                                                                                                           {'loss': 0.5995, 'grad_norm': 0.16724328696727753, 'learning_rate': 0.00018423065371772355, 'ppl': 1.8212, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4399.67, 'total_tokens': 19612415, 'epoch': 0.55}
- 18%|████████████████████▉                                                                                            | 462/2499 [55:33<3:33:02,  6.27s/it] 19%|████████████████████▉                                                                                            | 463/2499 [55:39<3:33:01,  6.28s/it]                                                                                                                                                           {'loss': 0.5533, 'grad_norm': 0.14767299592494965, 'learning_rate': 0.00018416255471455646, 'ppl': 1.739, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4603.33, 'total_tokens': 19641326, 'epoch': 0.56}
- 19%|████████████████████▉                                                                                            | 463/2499 [55:39<3:33:01,  6.28s/it] 19%|████████████████████▉                                                                                            | 464/2499 [55:46<3:32:50,  6.28s/it]                                                                                                                                                           {'loss': 0.5469, 'grad_norm': 0.16348305344581604, 'learning_rate': 0.0001840943216299065, 'ppl': 1.7279, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4562.37, 'total_tokens': 19669924, 'epoch': 0.56}
- 19%|████████████████████▉                                                                                            | 464/2499 [55:46<3:32:50,  6.28s/it] 19%|█████████████████████                                                                                            | 465/2499 [55:52<3:32:48,  6.28s/it]                                                                                                                                                           {'loss': 0.5275, 'grad_norm': 0.15997561812400818, 'learning_rate': 0.00018402595457247758, 'ppl': 1.6947, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4670.61, 'total_tokens': 19699254, 'epoch': 0.56}
- 19%|█████████████████████                                                                                            | 465/2499 [55:52<3:32:48,  6.28s/it] 19%|█████████████████████                                                                                            | 466/2499 [55:58<3:32:25,  6.27s/it]                                                                                                                                                           {'loss': 0.5625, 'grad_norm': 0.16886287927627563, 'learning_rate': 0.00018395745365118687, 'ppl': 1.7551, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4419.59, 'total_tokens': 19726868, 'epoch': 0.56}
- 19%|█████████████████████                                                                                            | 466/2499 [55:58<3:32:25,  6.27s/it] 19%|█████████████████████                                                                                            | 467/2499 [56:04<3:32:19,  6.27s/it]                                                                                                                                                           {'loss': 0.5631, 'grad_norm': 0.14943641424179077, 'learning_rate': 0.000183888818975165, 'ppl': 1.7561, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4526.6, 'total_tokens': 19755240, 'epoch': 0.56}
- 19%|█████████████████████                                                                                            | 467/2499 [56:04<3:32:19,  6.27s/it] 19%|█████████████████████▏                                                                                           | 468/2499 [56:11<3:32:39,  6.28s/it]                                                                                                                                                           {'loss': 0.5527, 'grad_norm': 0.1644650548696518, 'learning_rate': 0.0001838200506537556, 'ppl': 1.7379, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4594.43, 'total_tokens': 19784231, 'epoch': 0.56}
- 19%|█████████████████████▏                                                                                           | 468/2499 [56:11<3:32:39,  6.28s/it] 19%|█████████████████████▏                                                                                           | 469/2499 [56:17<3:32:52,  6.29s/it]                                                                                                                                                           {'loss': 0.5602, 'grad_norm': 0.21660394966602325, 'learning_rate': 0.0001837511487965151, 'ppl': 1.751, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4405.97, 'total_tokens': 19812033, 'epoch': 0.56}
- 19%|█████████████████████▏                                                                                           | 469/2499 [56:17<3:32:52,  6.29s/it] 19%|█████████████████████▎                                                                                           | 470/2499 [56:23<3:32:19,  6.28s/it]                                                                                                                                                           {'loss': 0.5774, 'grad_norm': 0.16006816923618317, 'learning_rate': 0.00018368211351321294, 'ppl': 1.7814, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4336.95, 'total_tokens': 19839111, 'epoch': 0.56}
- 19%|█████████████████████▎                                                                                           | 470/2499 [56:23<3:32:19,  6.28s/it] 19%|█████████████████████▎                                                                                           | 471/2499 [56:30<3:32:05,  6.27s/it]                                                                                                                                                           {'loss': 0.6026, 'grad_norm': 0.15922212600708008, 'learning_rate': 0.00018361294491383085, 'ppl': 1.8269, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4576.39, 'total_tokens': 19867776, 'epoch': 0.57}
- 19%|█████████████████████▎                                                                                           | 471/2499 [56:30<3:32:05,  6.27s/it] 19%|█████████████████████▎                                                                                           | 472/2499 [56:36<3:32:01,  6.28s/it]                                                                                                                                                           {'loss': 0.5705, 'grad_norm': 0.15619011223316193, 'learning_rate': 0.0001835436431085631, 'ppl': 1.7692, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4555.67, 'total_tokens': 19896367, 'epoch': 0.57}
- 19%|█████████████████████▎                                                                                           | 472/2499 [56:36<3:32:01,  6.28s/it] 19%|█████████████████████▍                                                                                           | 473/2499 [56:42<3:31:52,  6.27s/it]                                                                                                                                                           {'loss': 0.5242, 'grad_norm': 0.16088345646858215, 'learning_rate': 0.00018347420820781618, 'ppl': 1.6891, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4618.23, 'total_tokens': 19925320, 'epoch': 0.57}
- 19%|█████████████████████▍                                                                                           | 473/2499 [56:42<3:31:52,  6.27s/it] 19%|█████████████████████▍                                                                                           | 474/2499 [56:48<3:31:43,  6.27s/it]                                                                                                                                                           {'loss': 0.5705, 'grad_norm': 0.14945322275161743, 'learning_rate': 0.0001834046403222085, 'ppl': 1.7692, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4559.94, 'total_tokens': 19953900, 'epoch': 0.57}
- 19%|█████████████████████▍                                                                                           | 474/2499 [56:48<3:31:43,  6.27s/it] 19%|█████████████████████▍                                                                                           | 475/2499 [56:55<3:31:55,  6.28s/it]                                                                                                                                                           {'loss': 0.5825, 'grad_norm': 0.16998130083084106, 'learning_rate': 0.0001833349395625705, 'ppl': 1.7905, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4578.29, 'total_tokens': 19982746, 'epoch': 0.57}
- 19%|█████████████████████▍                                                                                           | 475/2499 [56:55<3:31:55,  6.28s/it] 19%|█████████████████████▌                                                                                           | 476/2499 [57:01<3:32:08,  6.29s/it]                                                                                                                                                           {'loss': 0.5645, 'grad_norm': 0.16215763986110687, 'learning_rate': 0.00018326510603994408, 'ppl': 1.7586, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4533.6, 'total_tokens': 20011356, 'epoch': 0.57}
- 19%|█████████████████████▌                                                                                           | 476/2499 [57:01<3:32:08,  6.29s/it] 19%|█████████████████████▌                                                                                           | 477/2499 [57:07<3:31:57,  6.29s/it]                                                                                                                                                           {'loss': 0.517, 'grad_norm': 0.1561872959136963, 'learning_rate': 0.0001831951398655829, 'ppl': 1.677, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4588.7, 'total_tokens': 20040170, 'epoch': 0.57}
- 19%|█████████████████████▌                                                                                           | 477/2499 [57:07<3:31:57,  6.29s/it] 19%|█████████████████████▌                                                                                           | 478/2499 [57:14<3:31:45,  6.29s/it]                                                                                                                                                           {'loss': 0.5762, 'grad_norm': 0.14602787792682648, 'learning_rate': 0.00018312504115095183, 'ppl': 1.7793, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4743.0, 'total_tokens': 20069945, 'epoch': 0.57}
- 19%|█████████████████████▌                                                                                           | 478/2499 [57:14<3:31:45,  6.29s/it] 19%|█████████████████████▋                                                                                           | 479/2499 [57:20<3:31:22,  6.28s/it]                                                                                                                                                           {'loss': 0.5952, 'grad_norm': 0.15776875615119934, 'learning_rate': 0.0001830548100077268, 'ppl': 1.8134, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4432.95, 'total_tokens': 20097685, 'epoch': 0.58}
- 19%|█████████████████████▋                                                                                           | 479/2499 [57:20<3:31:22,  6.28s/it] 19%|█████████████████████▋                                                                                           | 480/2499 [57:26<3:31:12,  6.28s/it]                                                                                                                                                           {'loss': 0.5511, 'grad_norm': 0.17158068716526031, 'learning_rate': 0.00018298444654779494, 'ppl': 1.7352, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4570.76, 'total_tokens': 20126338, 'epoch': 0.58}
- 19%|█████████████████████▋                                                                                           | 480/2499 [57:26<3:31:12,  6.28s/it] 19%|█████████████████████▋                                                                                           | 481/2499 [57:32<3:30:57,  6.27s/it]                                                                                                                                                           {'loss': 0.5418, 'grad_norm': 0.16042540967464447, 'learning_rate': 0.00018291395088325393, 'ppl': 1.7191, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4549.64, 'total_tokens': 20154820, 'epoch': 0.58}
- 19%|█████████████████████▋                                                                                           | 481/2499 [57:32<3:30:57,  6.27s/it] 19%|█████████████████████▊                                                                                           | 482/2499 [57:39<3:31:05,  6.28s/it]                                                                                                                                                           {'loss': 0.5878, 'grad_norm': 0.15308934450149536, 'learning_rate': 0.00018284332312641226, 'ppl': 1.8, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4432.0, 'total_tokens': 20182711, 'epoch': 0.58}
- 19%|█████████████████████▊                                                                                           | 482/2499 [57:39<3:31:05,  6.28s/it] 19%|█████████████████████▊                                                                                           | 483/2499 [57:45<3:31:21,  6.29s/it]                                                                                                                                                           {'loss': 0.571, 'grad_norm': 0.1654343158006668, 'learning_rate': 0.00018277256338978875, 'ppl': 1.77, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4780.75, 'total_tokens': 20212891, 'epoch': 0.58}
- 19%|█████████████████████▊                                                                                           | 483/2499 [57:45<3:31:21,  6.29s/it] 19%|█████████████████████▉                                                                                           | 484/2499 [57:51<3:31:13,  6.29s/it]                                                                                                                                                           {'loss': 0.62, 'grad_norm': 0.15104906260967255, 'learning_rate': 0.00018270167178611254, 'ppl': 1.8589, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4787.43, 'total_tokens': 20242973, 'epoch': 0.58}
- 19%|█████████████████████▉                                                                                           | 484/2499 [57:51<3:31:13,  6.29s/it] 19%|█████████████████████▉                                                                                           | 485/2499 [57:58<3:30:54,  6.28s/it]                                                                                                                                                           {'loss': 0.5792, 'grad_norm': 0.15305499732494354, 'learning_rate': 0.00018263064842832281, 'ppl': 1.7846, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4599.65, 'total_tokens': 20271797, 'epoch': 0.58}
- 19%|█████████████████████▉                                                                                           | 485/2499 [57:58<3:30:54,  6.28s/it] 19%|█████████████████████▉                                                                                           | 486/2499 [58:04<3:30:32,  6.28s/it]                                                                                                                                                           {'loss': 0.6147, 'grad_norm': 0.16085773706436157, 'learning_rate': 0.00018255949342956863, 'ppl': 1.8491, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4499.19, 'total_tokens': 20299936, 'epoch': 0.58}
- 19%|█████████████████████▉                                                                                           | 486/2499 [58:04<3:30:32,  6.28s/it] 19%|██████████████████████                                                                                           | 487/2499 [58:10<3:30:11,  6.27s/it]                                                                                                                                                           {'loss': 0.6101, 'grad_norm': 0.18756824731826782, 'learning_rate': 0.00018248820690320889, 'ppl': 1.8406, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4454.08, 'total_tokens': 20327766, 'epoch': 0.58}
- 19%|██████████████████████                                                                                           | 487/2499 [58:10<3:30:11,  6.27s/it] 20%|██████████████████████                                                                                           | 488/2499 [58:16<3:30:03,  6.27s/it]                                                                                                                                                           {'loss': 0.6178, 'grad_norm': 0.17079570889472961, 'learning_rate': 0.00018241678896281188, 'ppl': 1.8548, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4494.52, 'total_tokens': 20355914, 'epoch': 0.59}
- 20%|██████████████████████                                                                                           | 488/2499 [58:16<3:30:03,  6.27s/it] 20%|██████████████████████                                                                                           | 489/2499 [58:23<3:30:06,  6.27s/it]                                                                                                                                                           {'loss': 0.6194, 'grad_norm': 0.16470293700695038, 'learning_rate': 0.00018234523972215536, 'ppl': 1.8578, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4335.83, 'total_tokens': 20383145, 'epoch': 0.59}
- 20%|██████████████████████                                                                                           | 489/2499 [58:23<3:30:06,  6.27s/it] 20%|██████████████████████▏                                                                                          | 490/2499 [58:29<3:30:02,  6.27s/it]                                                                                                                                                           {'loss': 0.5485, 'grad_norm': 0.16623155772686005, 'learning_rate': 0.00018227355929522623, 'ppl': 1.7307, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4540.41, 'total_tokens': 20411623, 'epoch': 0.59}
- 20%|██████████████████████▏                                                                                          | 490/2499 [58:29<3:30:02,  6.27s/it] 20%|██████████████████████▏                                                                                          | 491/2499 [58:35<3:30:05,  6.28s/it]                                                                                                                                                           {'loss': 0.5823, 'grad_norm': 0.18991202116012573, 'learning_rate': 0.00018220174779622034, 'ppl': 1.7902, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4712.78, 'total_tokens': 20441243, 'epoch': 0.59}
- 20%|██████████████████████▏                                                                                          | 491/2499 [58:35<3:30:05,  6.28s/it] 20%|██████████████████████▏                                                                                          | 492/2499 [58:41<3:29:51,  6.27s/it]                                                                                                                                                           {'loss': 0.567, 'grad_norm': 0.16380782425403595, 'learning_rate': 0.00018212980533954243, 'ppl': 1.763, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4455.55, 'total_tokens': 20469147, 'epoch': 0.59}
- 20%|██████████████████████▏                                                                                          | 492/2499 [58:41<3:29:51,  6.27s/it] 20%|██████████████████████▎                                                                                          | 493/2499 [58:48<3:29:39,  6.27s/it]                                                                                                                                                           {'loss': 0.5529, 'grad_norm': 0.15777407586574554, 'learning_rate': 0.00018205773203980582, 'ppl': 1.7383, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4500.07, 'total_tokens': 20497328, 'epoch': 0.59}
- 20%|██████████████████████▎                                                                                          | 493/2499 [58:48<3:29:39,  6.27s/it] 20%|██████████████████████▎                                                                                          | 494/2499 [58:54<3:29:43,  6.28s/it]                                                                                                                                                           {'loss': 0.5155, 'grad_norm': 0.15534964203834534, 'learning_rate': 0.0001819855280118323, 'ppl': 1.6745, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4716.79, 'total_tokens': 20526972, 'epoch': 0.59}
- 20%|██████████████████████▎                                                                                          | 494/2499 [58:54<3:29:43,  6.28s/it] 20%|██████████████████████▍                                                                                          | 495/2499 [59:00<3:29:32,  6.27s/it]                                                                                                                                                           {'loss': 0.575, 'grad_norm': 0.1571529060602188, 'learning_rate': 0.00018191319337065195, 'ppl': 1.7771, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4597.26, 'total_tokens': 20555776, 'epoch': 0.59}
- 20%|██████████████████████▍                                                                                          | 495/2499 [59:00<3:29:32,  6.27s/it] 20%|██████████████████████▍                                                                                          | 496/2499 [59:07<3:29:34,  6.28s/it]                                                                                                                                                           {'loss': 0.5403, 'grad_norm': 0.15741947293281555, 'learning_rate': 0.00018184072823150283, 'ppl': 1.7165, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4368.14, 'total_tokens': 20583232, 'epoch': 0.6}
- 20%|██████████████████████▍                                                                                          | 496/2499 [59:07<3:29:34,  6.28s/it] 20%|██████████████████████▍                                                                                          | 497/2499 [59:13<3:29:42,  6.28s/it]                                                                                                                                                           {'loss': 0.598, 'grad_norm': 0.15272513031959534, 'learning_rate': 0.00018176813270983107, 'ppl': 1.8185, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4795.9, 'total_tokens': 20613435, 'epoch': 0.6}
- 20%|██████████████████████▍                                                                                          | 497/2499 [59:13<3:29:42,  6.28s/it] 20%|██████████████████████▌                                                                                          | 498/2499 [59:19<3:29:15,  6.27s/it]                                                                                                                                                           {'loss': 0.5788, 'grad_norm': 0.17274294793605804, 'learning_rate': 0.00018169540692129034, 'ppl': 1.7839, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4501.35, 'total_tokens': 20641562, 'epoch': 0.6}
- 20%|██████████████████████▌                                                                                          | 498/2499 [59:19<3:29:15,  6.27s/it] 20%|██████████████████████▌                                                                                          | 499/2499 [59:25<3:29:06,  6.27s/it]                                                                                                                                                           {'loss': 0.5548, 'grad_norm': 0.1560908406972885, 'learning_rate': 0.000181622550981742, 'ppl': 1.7416, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4626.44, 'total_tokens': 20670558, 'epoch': 0.6}
- 20%|██████████████████████▌                                                                                          | 499/2499 [59:25<3:29:06,  6.27s/it] 20%|██████████████████████▌                                                                                          | 500/2499 [59:32<3:28:52,  6.27s/it]                                                                                                                                                           {'loss': 0.5454, 'grad_norm': 0.15503084659576416, 'learning_rate': 0.0001815495650072546, 'ppl': 1.7253, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.15, 'tokens_per_second_per_gpu': 4517.68, 'total_tokens': 20698829, 'epoch': 0.6}
- 20%|██████████████████████▌                                                                                          | 500/2499 [59:32<3:28:52,  6.27s/it][2025-12-28 12:05:08,249] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:42410] Running evaluation step...
-[2025-12-28 12:05:09,958] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8499741554260254
-[2025-12-28 12:05:10,798] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8398079872131348
-[2025-12-28 12:05:11,648] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.847926139831543
-[2025-12-28 12:05:12,486] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8376157283782959
-[2025-12-28 12:05:12,486] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
+[2025-12-29 02:49:33,870] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:3751] after adapters 0.000GB ()
+[2025-12-29 02:49:42,405] [INFO] [axolotl.train.save_initial_configs:413] [PID:3751] Pre-saving adapter config to ./outputs/luau-codellama-h200-fast...
+[2025-12-29 02:49:42,405] [INFO] [axolotl.train.save_initial_configs:417] [PID:3751] Pre-saving tokenizer to ./outputs/luau-codellama-h200-fast...
+[2025-12-29 02:49:42,407] [INFO] [axolotl.train.save_initial_configs:422] [PID:3751] Pre-saving model config to ./outputs/luau-codellama-h200-fast...
+[2025-12-29 02:49:42,409] [INFO] [axolotl.train.execute_training:212] [PID:3751] Starting trainer...
+[2025-12-29 02:49:43,888] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.4409146308898926
+[2025-12-29 02:49:44,338] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.4499988555908203
+[2025-12-29 02:49:44,786] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.44726085662841797
+[2025-12-29 02:49:45,191] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.40509533882141113
+[2025-12-29 02:49:45,192] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:3751] gather_len_batches: [1333]
+  0%|                                                                                                                             | 0/3996 [00:00<?, ?it/s][2025-12-29 02:49:45,254] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:3751] Running evaluation step...
+[2025-12-29 02:49:46,094] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.42073726654052734
+[2025-12-29 02:49:46,520] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.4251554012298584
+[2025-12-29 02:49:46,891] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.37137746810913086
+[2025-12-29 02:49:47,274] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.38274621963500977
+[2025-12-29 02:49:47,274] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:3751] gather_len_batches: [72]
 
-  0%|                                                                                                                               | 0/90 [00:00<?, ?it/s][A
-  2%|██▋                                                                                                                    | 2/90 [00:00<00:36,  2.40it/s][A
-  3%|███▉                                                                                                                   | 3/90 [00:01<00:54,  1.59it/s][A
-  4%|█████▎                                                                                                                 | 4/90 [00:02<01:00,  1.43it/s][A
-  6%|██████▌                                                                                                                | 5/90 [00:03<01:05,  1.30it/s][A
-  7%|███████▉                                                                                                               | 6/90 [00:04<01:06,  1.27it/s][A
-  8%|█████████▎                                                                                                             | 7/90 [00:05<01:08,  1.21it/s][A
-  9%|██████████▌                                                                                                            | 8/90 [00:06<01:07,  1.21it/s][A
- 10%|███████████▉                                                                                                           | 9/90 [00:06<01:09,  1.16it/s][A
- 11%|█████████████                                                                                                         | 10/90 [00:07<01:08,  1.18it/s][A
- 12%|██████████████▍                                                                                                       | 11/90 [00:08<01:08,  1.15it/s][A
- 13%|███████████████▋                                                                                                      | 12/90 [00:09<01:06,  1.17it/s][A
- 14%|█████████████████                                                                                                     | 13/90 [00:10<01:07,  1.14it/s][A
- 16%|██████████████████▎                                                                                                   | 14/90 [00:11<01:05,  1.17it/s][A
- 17%|███████████████████▋                                                                                                  | 15/90 [00:12<01:06,  1.12it/s][A
- 18%|████████████████████▉                                                                                                 | 16/90 [00:13<01:03,  1.17it/s][A
- 19%|██████████████████████▎                                                                                               | 17/90 [00:13<01:04,  1.14it/s][A
- 20%|███████████████████████▌                                                                                              | 18/90 [00:14<01:02,  1.16it/s][A
- 21%|████████████████████████▉                                                                                             | 19/90 [00:15<01:02,  1.13it/s][A
- 22%|██████████████████████████▏                                                                                           | 20/90 [00:16<01:00,  1.16it/s][A
- 23%|███████████████████████████▌                                                                                          | 21/90 [00:17<00:59,  1.15it/s][A
- 24%|████████████████████████████▊                                                                                         | 22/90 [00:18<00:58,  1.17it/s][A
- 26%|██████████████████████████████▏                                                                                       | 23/90 [00:19<00:58,  1.15it/s][A
- 27%|███████████████████████████████▍                                                                                      | 24/90 [00:19<00:56,  1.18it/s][A
- 28%|████████████████████████████████▊                                                                                     | 25/90 [00:20<00:56,  1.15it/s][A
- 29%|██████████████████████████████████                                                                                    | 26/90 [00:21<00:54,  1.18it/s][A
- 30%|███████████████████████████████████▍                                                                                  | 27/90 [00:22<00:54,  1.16it/s][A
- 31%|████████████████████████████████████▋                                                                                 | 28/90 [00:23<00:52,  1.18it/s][A
- 32%|██████████████████████████████████████                                                                                | 29/90 [00:24<00:52,  1.16it/s][A
- 33%|███████████████████████████████████████▎                                                                              | 30/90 [00:25<00:51,  1.18it/s][A
- 34%|████████████████████████████████████████▋                                                                             | 31/90 [00:25<00:51,  1.15it/s][A
- 36%|█████████████████████████████████████████▉                                                                            | 32/90 [00:26<00:49,  1.18it/s][A
- 37%|███████████████████████████████████████████▎                                                                          | 33/90 [00:27<00:49,  1.15it/s][A
- 38%|████████████████████████████████████████████▌                                                                         | 34/90 [00:28<00:47,  1.17it/s][A
- 39%|█████████████████████████████████████████████▉                                                                        | 35/90 [00:29<00:47,  1.16it/s][A
- 40%|███████████████████████████████████████████████▏                                                                      | 36/90 [00:30<00:45,  1.18it/s][A
- 41%|████████████████████████████████████████████████▌                                                                     | 37/90 [00:31<00:45,  1.16it/s][A
- 42%|█████████████████████████████████████████████████▊                                                                    | 38/90 [00:31<00:44,  1.18it/s][A
- 43%|███████████████████████████████████████████████████▏                                                                  | 39/90 [00:32<00:43,  1.16it/s][A
- 44%|████████████████████████████████████████████████████▍                                                                 | 40/90 [00:33<00:42,  1.18it/s][A
- 46%|█████████████████████████████████████████████████████▊                                                                | 41/90 [00:34<00:42,  1.16it/s][A
- 47%|███████████████████████████████████████████████████████                                                               | 42/90 [00:35<00:40,  1.18it/s][A
- 48%|████████████████████████████████████████████████████████▍                                                             | 43/90 [00:36<00:40,  1.15it/s][A
- 49%|█████████████████████████████████████████████████████████▋                                                            | 44/90 [00:37<00:39,  1.17it/s][A
- 50%|███████████████████████████████████████████████████████████                                                           | 45/90 [00:37<00:38,  1.16it/s][A
- 51%|████████████████████████████████████████████████████████████▎                                                         | 46/90 [00:38<00:37,  1.18it/s][A
- 52%|█████████████████████████████████████████████████████████████▌                                                        | 47/90 [00:39<00:37,  1.16it/s][A
- 53%|██████████████████████████████████████████████████████████████▉                                                       | 48/90 [00:40<00:35,  1.18it/s][A
- 54%|████████████████████████████████████████████████████████████████▏                                                     | 49/90 [00:41<00:35,  1.16it/s][A
- 56%|█████████████████████████████████████████████████████████████████▌                                                    | 50/90 [00:42<00:33,  1.18it/s][A
- 57%|██████████████████████████████████████████████████████████████████▊                                                   | 51/90 [00:43<00:33,  1.16it/s][A
- 58%|████████████████████████████████████████████████████████████████████▏                                                 | 52/90 [00:43<00:32,  1.18it/s][A
- 59%|█████████████████████████████████████████████████████████████████████▍                                                | 53/90 [00:44<00:31,  1.16it/s][A
- 60%|██████████████████████████████████████████████████████████████████████▊                                               | 54/90 [00:45<00:30,  1.18it/s][A
- 61%|████████████████████████████████████████████████████████████████████████                                              | 55/90 [00:46<00:30,  1.16it/s][A
- 62%|█████████████████████████████████████████████████████████████████████████▍                                            | 56/90 [00:47<00:28,  1.18it/s][A
- 63%|██████████████████████████████████████████████████████████████████████████▋                                           | 57/90 [00:48<00:28,  1.16it/s][A
- 64%|████████████████████████████████████████████████████████████████████████████                                          | 58/90 [00:49<00:27,  1.18it/s][A
- 66%|█████████████████████████████████████████████████████████████████████████████▎                                        | 59/90 [00:50<00:27,  1.12it/s][A
- 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 60/90 [00:50<00:26,  1.15it/s][A
- 68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 61/90 [00:51<00:25,  1.13it/s][A
- 69%|█████████████████████████████████████████████████████████████████████████████████▎                                    | 62/90 [00:52<00:24,  1.16it/s][A
- 70%|██████████████████████████████████████████████████████████████████████████████████▌                                   | 63/90 [00:53<00:23,  1.14it/s][A
- 71%|███████████████████████████████████████████████████████████████████████████████████▉                                  | 64/90 [00:54<00:22,  1.16it/s][A
- 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 65/90 [00:55<00:22,  1.13it/s][A
- 73%|██████████████████████████████████████████████████████████████████████████████████████▌                               | 66/90 [00:56<00:20,  1.16it/s][A
- 74%|███████████████████████████████████████████████████████████████████████████████████████▊                              | 67/90 [00:57<00:20,  1.12it/s][A
- 76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 68/90 [00:57<00:19,  1.15it/s][A
- 77%|██████████████████████████████████████████████████████████████████████████████████████████▍                           | 69/90 [00:58<00:18,  1.14it/s][A
- 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 70/90 [00:59<00:17,  1.16it/s][A
- 79%|█████████████████████████████████████████████████████████████████████████████████████████████                         | 71/90 [01:00<00:16,  1.15it/s][A
- 80%|██████████████████████████████████████████████████████████████████████████████████████████████▍                       | 72/90 [01:01<00:15,  1.17it/s][A
- 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 73/90 [01:02<00:14,  1.14it/s][A
- 82%|█████████████████████████████████████████████████████████████████████████████████████████████████                     | 74/90 [01:03<00:13,  1.18it/s][A
- 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 75/90 [01:03<00:12,  1.15it/s][A
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 76/90 [01:04<00:11,  1.17it/s][A
- 86%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 77/90 [01:05<00:11,  1.16it/s][A
- 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 78/90 [01:06<00:10,  1.17it/s][A
- 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 79/90 [01:07<00:09,  1.15it/s][A
- 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 80/90 [01:08<00:08,  1.17it/s][A
- 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 81/90 [01:09<00:07,  1.15it/s][A
- 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 82/90 [01:09<00:06,  1.18it/s][A
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 83/90 [01:10<00:06,  1.13it/s][A
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 84/90 [01:11<00:05,  1.16it/s][A
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 85/90 [01:12<00:04,  1.09it/s][A
- 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 86/90 [01:13<00:03,  1.13it/s][A
- 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 87/90 [01:14<00:02,  1.12it/s][A
- 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 88/90 [01:15<00:01,  1.15it/s][A
- 99%|████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████▋ | 89/90 [01:16<00:00,  1.14it/s][A
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.14it/s][A                                                                                                                                                           
-                                                                                                                                                           [A{'eval_loss': 0.558133065700531, 'eval_runtime': 79.3297, 'eval_samples_per_second': 9.202, 'eval_steps_per_second': 2.307, 'eval_ppl': 1.7474, 'memory/max_active (GiB)': 12.83, 'memory/max_allocated (GiB)': 6.85, 'memory/device_reserved (GiB)': 20.15, 'epoch': 0.6}
- 20%|██████████████████████▏                                                                                        | 500/2499 [1:00:55<3:28:52,  6.27s/it]
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.14it/s][A
-                                                                                                                                                           [A 20%|██████████████████████                                                                                        | 501/2499 [1:01:01<17:23:40, 31.34s/it]                                                                                                                                                           {'loss': 0.5576, 'grad_norm': 0.16626505553722382, 'learning_rate': 0.00018147644911410403, 'ppl': 1.7465, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4281.06, 'total_tokens': 21995397, 'epoch': 0.6}
- 20%|██████████████████████                                                                                        | 501/2499 [1:01:01<17:23:40, 31.34s/it] 20%|██████████████████████                                                                                        | 502/2499 [1:01:08<13:12:52, 23.82s/it]                                                                                                                                                           {'loss': 0.5778, 'grad_norm': 0.15038293600082397, 'learning_rate': 0.00018140320341877294, 'ppl': 1.7821, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.09, 'tokens_per_second_per_gpu': 4543.93, 'total_tokens': 22023909, 'epoch': 0.6}
- 20%|██████████████████████                                                                                        | 502/2499 [1:01:08<13:12:52, 23.82s/it] 20%|██████████████████████▏                                                                                       | 503/2499 [1:01:14<10:17:47, 18.57s/it]                                                                                                                                                           {'loss': 0.5623, 'grad_norm': 0.17294828593730927, 'learning_rate': 0.000181329828037951, 'ppl': 1.7547, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4691.37, 'total_tokens': 22053532, 'epoch': 0.6}
- 20%|██████████████████████▏                                                                                       | 503/2499 [1:01:14<10:17:47, 18.57s/it] 20%|██████████████████████▍                                                                                        | 504/2499 [1:01:20<8:14:45, 14.88s/it]                                                                                                                                                           {'loss': 0.6039, 'grad_norm': 0.1541517972946167, 'learning_rate': 0.00018125632308853428, 'ppl': 1.8292, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4649.14, 'total_tokens': 22082656, 'epoch': 0.61}
- 20%|██████████████████████▍                                                                                        | 504/2499 [1:01:20<8:14:45, 14.88s/it] 20%|██████████████████████▍                                                                                        | 505/2499 [1:01:27<6:48:39, 12.30s/it]                                                                                                                                                           {'loss': 0.595, 'grad_norm': 0.1545095294713974, 'learning_rate': 0.00018118268868762546, 'ppl': 1.813, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4657.62, 'total_tokens': 22111841, 'epoch': 0.61}
- 20%|██████████████████████▍                                                                                        | 505/2499 [1:01:27<6:48:39, 12.30s/it] 20%|██████████████████████▍                                                                                        | 506/2499 [1:01:33<5:48:15, 10.48s/it]                                                                                                                                                           {'loss': 0.549, 'grad_norm': 0.16639526188373566, 'learning_rate': 0.0001811089249525333, 'ppl': 1.7315, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4463.92, 'total_tokens': 22139760, 'epoch': 0.61}
- 20%|██████████████████████▍                                                                                        | 506/2499 [1:01:33<5:48:15, 10.48s/it] 20%|██████████████████████▌                                                                                        | 507/2499 [1:01:39<5:05:46,  9.21s/it]                                                                                                                                                           {'loss': 0.5683, 'grad_norm': 0.16104137897491455, 'learning_rate': 0.00018103503200077263, 'ppl': 1.7653, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4327.85, 'total_tokens': 22166738, 'epoch': 0.61}
- 20%|██████████████████████▌                                                                                        | 507/2499 [1:01:39<5:05:46,  9.21s/it] 20%|██████████████████████▌                                                                                        | 508/2499 [1:01:45<4:36:23,  8.33s/it]                                                                                                                                                           {'loss': 0.5331, 'grad_norm': 0.15296021103858948, 'learning_rate': 0.00018096100995006423, 'ppl': 1.7042, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4610.98, 'total_tokens': 22195659, 'epoch': 0.61}
- 20%|██████████████████████▌                                                                                        | 508/2499 [1:01:45<4:36:23,  8.33s/it] 20%|██████████████████████▌                                                                                        | 509/2499 [1:01:52<4:16:06,  7.72s/it]                                                                                                                                                           {'loss': 0.5354, 'grad_norm': 0.1645633429288864, 'learning_rate': 0.0001808868589183345, 'ppl': 1.7081, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4609.55, 'total_tokens': 22224706, 'epoch': 0.61}
- 20%|██████████████████████▌                                                                                        | 509/2499 [1:01:52<4:16:06,  7.72s/it] 20%|██████████████████████▋                                                                                        | 510/2499 [1:01:58<4:01:43,  7.29s/it]                                                                                                                                                           {'loss': 0.5756, 'grad_norm': 0.15640902519226074, 'learning_rate': 0.00018081257902371524, 'ppl': 1.7782, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4596.26, 'total_tokens': 22253596, 'epoch': 0.61}
- 20%|██████████████████████▋                                                                                        | 510/2499 [1:01:58<4:01:43,  7.29s/it] 20%|██████████████████████▋                                                                                        | 511/2499 [1:02:04<3:51:21,  6.98s/it]                                                                                                                                                           {'loss': 0.5518, 'grad_norm': 0.1623287796974182, 'learning_rate': 0.00018073817038454364, 'ppl': 1.7364, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4549.9, 'total_tokens': 22282074, 'epoch': 0.61}
- 20%|██████████████████████▋                                                                                        | 511/2499 [1:02:04<3:51:21,  6.98s/it] 20%|██████████████████████▋                                                                                        | 512/2499 [1:02:10<3:44:01,  6.76s/it]                                                                                                                                                           {'loss': 0.6065, 'grad_norm': 0.162057563662529, 'learning_rate': 0.00018066363311936202, 'ppl': 1.834, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4456.85, 'total_tokens': 22309942, 'epoch': 0.61}
- 20%|██████████████████████▋                                                                                        | 512/2499 [1:02:10<3:44:01,  6.76s/it] 21%|██████████████████████▊                                                                                        | 513/2499 [1:02:17<3:39:09,  6.62s/it]                                                                                                                                                           {'loss': 0.5823, 'grad_norm': 0.153705894947052, 'learning_rate': 0.00018058896734691757, 'ppl': 1.7902, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4708.83, 'total_tokens': 22339534, 'epoch': 0.62}
- 21%|██████████████████████▊                                                                                        | 513/2499 [1:02:17<3:39:09,  6.62s/it] 21%|██████████████████████▊                                                                                        | 514/2499 [1:02:23<3:35:36,  6.52s/it]                                                                                                                                                           {'loss': 0.5846, 'grad_norm': 0.15547023713588715, 'learning_rate': 0.00018051417318616216, 'ppl': 1.7943, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4614.58, 'total_tokens': 22368473, 'epoch': 0.62}
- 21%|██████████████████████▊                                                                                        | 514/2499 [1:02:23<3:35:36,  6.52s/it] 21%|██████████████████████▉                                                                                        | 515/2499 [1:02:29<3:33:12,  6.45s/it]                                                                                                                                                           {'loss': 0.5752, 'grad_norm': 0.1760839819908142, 'learning_rate': 0.00018043925075625228, 'ppl': 1.7775, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4526.63, 'total_tokens': 22396916, 'epoch': 0.62}
- 21%|██████████████████████▉                                                                                        | 515/2499 [1:02:29<3:33:12,  6.45s/it] 21%|██████████████████████▉                                                                                        | 516/2499 [1:02:36<3:31:38,  6.40s/it]                                                                                                                                                           {'loss': 0.5958, 'grad_norm': 0.16130919754505157, 'learning_rate': 0.00018036420017654873, 'ppl': 1.8145, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4500.47, 'total_tokens': 22425258, 'epoch': 0.62}
- 21%|██████████████████████▉                                                                                        | 516/2499 [1:02:36<3:31:38,  6.40s/it] 21%|██████████████████████▉                                                                                        | 517/2499 [1:02:42<3:30:02,  6.36s/it]                                                                                                                                                           {'loss': 0.517, 'grad_norm': 0.16441930830478668, 'learning_rate': 0.0001802890215666165, 'ppl': 1.677, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4414.22, 'total_tokens': 22452848, 'epoch': 0.62}
- 21%|██████████████████████▉                                                                                        | 517/2499 [1:02:42<3:30:02,  6.36s/it] 21%|███████████████████████                                                                                        | 518/2499 [1:02:48<3:28:58,  6.33s/it]                                                                                                                                                           {'loss': 0.5451, 'grad_norm': 0.15389007329940796, 'learning_rate': 0.00018021371504622452, 'ppl': 1.7248, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4508.95, 'total_tokens': 22481068, 'epoch': 0.62}
- 21%|███████████████████████                                                                                        | 518/2499 [1:02:48<3:28:58,  6.33s/it] 21%|███████████████████████                                                                                        | 519/2499 [1:02:54<3:28:11,  6.31s/it]                                                                                                                                                           {'loss': 0.5338, 'grad_norm': 0.1578591912984848, 'learning_rate': 0.00018013828073534547, 'ppl': 1.7054, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4450.28, 'total_tokens': 22508921, 'epoch': 0.62}
- 21%|███████████████████████                                                                                        | 519/2499 [1:02:54<3:28:11,  6.31s/it] 21%|███████████████████████                                                                                        | 520/2499 [1:03:01<3:27:45,  6.30s/it]                                                                                                                                                           {'loss': 0.5422, 'grad_norm': 0.1555330753326416, 'learning_rate': 0.00018006271875415565, 'ppl': 1.7198, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4617.04, 'total_tokens': 22537882, 'epoch': 0.62}
- 21%|███████████████████████                                                                                        | 520/2499 [1:03:01<3:27:45,  6.30s/it] 21%|███████████████████████▏                                                                                       | 521/2499 [1:03:07<3:27:18,  6.29s/it]                                                                                                                                                           {'loss': 0.5466, 'grad_norm': 0.15180836617946625, 'learning_rate': 0.00017998702922303477, 'ppl': 1.7274, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4530.3, 'total_tokens': 22566249, 'epoch': 0.63}
- 21%|███████████████████████▏                                                                                       | 521/2499 [1:03:07<3:27:18,  6.29s/it] 21%|███████████████████████▏                                                                                       | 522/2499 [1:03:13<3:27:28,  6.30s/it]                                                                                                                                                           {'loss': 0.5626, 'grad_norm': 0.1607424020767212, 'learning_rate': 0.00017991121226256573, 'ppl': 1.7552, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4533.77, 'total_tokens': 22594873, 'epoch': 0.63}
- 21%|███████████████████████▏                                                                                       | 522/2499 [1:03:13<3:27:28,  6.30s/it] 21%|███████████████████████▏                                                                                       | 523/2499 [1:03:20<3:27:17,  6.29s/it]                                                                                                                                                           {'loss': 0.5573, 'grad_norm': 0.15108801424503326, 'learning_rate': 0.00017983526799353442, 'ppl': 1.746, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4619.24, 'total_tokens': 22623906, 'epoch': 0.63}
- 21%|███████████████████████▏                                                                                       | 523/2499 [1:03:20<3:27:17,  6.29s/it] 21%|███████████████████████▎                                                                                       | 524/2499 [1:03:26<3:26:46,  6.28s/it]                                                                                                                                                           {'loss': 0.5722, 'grad_norm': 0.16330508887767792, 'learning_rate': 0.0001797591965369296, 'ppl': 1.7722, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4432.07, 'total_tokens': 22651604, 'epoch': 0.63}
- 21%|███████████████████████▎                                                                                       | 524/2499 [1:03:26<3:26:46,  6.28s/it] 21%|███████████████████████▎                                                                                       | 525/2499 [1:03:32<3:26:37,  6.28s/it]                                                                                                                                                           {'loss': 0.5893, 'grad_norm': 0.1627909243106842, 'learning_rate': 0.00017968299801394258, 'ppl': 1.8027, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4696.21, 'total_tokens': 22681077, 'epoch': 0.63}
- 21%|███████████████████████▎                                                                                       | 525/2499 [1:03:32<3:26:37,  6.28s/it] 21%|███████████████████████▎                                                                                       | 526/2499 [1:03:38<3:26:37,  6.28s/it]                                                                                                                                                           {'loss': 0.5747, 'grad_norm': 0.17663459479808807, 'learning_rate': 0.00017960667254596715, 'ppl': 1.7766, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4553.23, 'total_tokens': 22709704, 'epoch': 0.63}
- 21%|███████████████████████▎                                                                                       | 526/2499 [1:03:38<3:26:37,  6.28s/it] 21%|███████████████████████▍                                                                                       | 527/2499 [1:03:45<3:26:30,  6.28s/it]                                                                                                                                                           {'loss': 0.5806, 'grad_norm': 0.163115993142128, 'learning_rate': 0.00017953022025459935, 'ppl': 1.7871, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4494.26, 'total_tokens': 22737926, 'epoch': 0.63}
- 21%|███████████████████████▍                                                                                       | 527/2499 [1:03:45<3:26:30,  6.28s/it] 21%|███████████████████████▍                                                                                       | 528/2499 [1:03:51<3:26:11,  6.28s/it]                                                                                                                                                           {'loss': 0.6016, 'grad_norm': 0.16277560591697693, 'learning_rate': 0.00017945364126163723, 'ppl': 1.825, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4393.03, 'total_tokens': 22765427, 'epoch': 0.63}
- 21%|███████████████████████▍                                                                                       | 528/2499 [1:03:51<3:26:11,  6.28s/it] 21%|███████████████████████▍                                                                                       | 529/2499 [1:03:57<3:26:24,  6.29s/it]                                                                                                                                                           {'loss': 0.5403, 'grad_norm': 0.15362772345542908, 'learning_rate': 0.00017937693568908074, 'ppl': 1.7165, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4542.41, 'total_tokens': 22794074, 'epoch': 0.64}
- 21%|███████████████████████▍                                                                                       | 529/2499 [1:03:57<3:26:24,  6.29s/it] 21%|███████████████████████▌                                                                                       | 530/2499 [1:04:04<3:26:25,  6.29s/it]                                                                                                                                                           {'loss': 0.5604, 'grad_norm': 0.15853963792324066, 'learning_rate': 0.00017930010365913143, 'ppl': 1.7514, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4623.27, 'total_tokens': 22823175, 'epoch': 0.64}
- 21%|███████████████████████▌                                                                                       | 530/2499 [1:04:04<3:26:25,  6.29s/it] 21%|███████████████████████▌                                                                                       | 531/2499 [1:04:10<3:26:10,  6.29s/it]                                                                                                                                                           {'loss': 0.5523, 'grad_norm': 0.1560271829366684, 'learning_rate': 0.00017922314529419237, 'ppl': 1.7372, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4598.04, 'total_tokens': 22852023, 'epoch': 0.64}
- 21%|███████████████████████▌                                                                                       | 531/2499 [1:04:10<3:26:10,  6.29s/it] 21%|███████████████████████▋                                                                                       | 532/2499 [1:04:16<3:26:03,  6.29s/it]                                                                                                                                                           {'loss': 0.6234, 'grad_norm': 0.1705106794834137, 'learning_rate': 0.00017914606071686785, 'ppl': 1.8653, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4721.8, 'total_tokens': 22881681, 'epoch': 0.64}
- 21%|███████████████████████▋                                                                                       | 532/2499 [1:04:16<3:26:03,  6.29s/it] 21%|███████████████████████▋                                                                                       | 533/2499 [1:04:22<3:25:45,  6.28s/it]                                                                                                                                                           {'loss': 0.5503, 'grad_norm': 0.15545393526554108, 'learning_rate': 0.0001790688500499632, 'ppl': 1.7338, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4532.04, 'total_tokens': 22910069, 'epoch': 0.64}
- 21%|███████████████████████▋                                                                                       | 533/2499 [1:04:22<3:25:45,  6.28s/it] 21%|███████████████████████▋                                                                                       | 534/2499 [1:04:29<3:25:34,  6.28s/it]                                                                                                                                                           {'loss': 0.578, 'grad_norm': 0.17963027954101562, 'learning_rate': 0.00017899151341648474, 'ppl': 1.7825, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4564.36, 'total_tokens': 22938685, 'epoch': 0.64}
- 21%|███████████████████████▋                                                                                       | 534/2499 [1:04:29<3:25:34,  6.28s/it] 21%|███████████████████████▊                                                                                       | 535/2499 [1:04:35<3:25:39,  6.28s/it]                                                                                                                                                           {'loss': 0.59, 'grad_norm': 0.1561817079782486, 'learning_rate': 0.00017891405093963938, 'ppl': 1.804, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4383.98, 'total_tokens': 22966271, 'epoch': 0.64}
- 21%|███████████████████████▊                                                                                       | 535/2499 [1:04:35<3:25:39,  6.28s/it] 21%|███████████████████████▊                                                                                       | 536/2499 [1:04:41<3:25:52,  6.29s/it]                                                                                                                                                           {'loss': 0.5487, 'grad_norm': 0.174911230802536, 'learning_rate': 0.00017883646274283454, 'ppl': 1.731, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4498.07, 'total_tokens': 22994666, 'epoch': 0.64}
- 21%|███████████████████████▊                                                                                       | 536/2499 [1:04:41<3:25:52,  6.29s/it] 21%|███████████████████████▊                                                                                       | 537/2499 [1:04:48<3:25:43,  6.29s/it]                                                                                                                                                           {'loss': 0.6081, 'grad_norm': 0.16251260042190552, 'learning_rate': 0.00017875874894967794, 'ppl': 1.8369, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4616.4, 'total_tokens': 23023673, 'epoch': 0.64}
- 21%|███████████████████████▊                                                                                       | 537/2499 [1:04:48<3:25:43,  6.29s/it] 22%|███████████████████████▉                                                                                       | 538/2499 [1:04:54<3:25:12,  6.28s/it]                                                                                                                                                           {'loss': 0.5542, 'grad_norm': 0.15792444348335266, 'learning_rate': 0.00017868090968397736, 'ppl': 1.7405, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4314.14, 'total_tokens': 23050620, 'epoch': 0.65}
- 22%|███████████████████████▉                                                                                       | 538/2499 [1:04:54<3:25:12,  6.28s/it] 22%|███████████████████████▉                                                                                       | 539/2499 [1:05:00<3:25:08,  6.28s/it]                                                                                                                                                           {'loss': 0.5239, 'grad_norm': 0.1523372232913971, 'learning_rate': 0.00017860294506974055, 'ppl': 1.6886, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4679.92, 'total_tokens': 23080008, 'epoch': 0.65}
- 22%|███████████████████████▉                                                                                       | 539/2499 [1:05:00<3:25:08,  6.28s/it] 22%|███████████████████████▉                                                                                       | 540/2499 [1:05:06<3:24:49,  6.27s/it]                                                                                                                                                           {'loss': 0.5764, 'grad_norm': 0.1880243867635727, 'learning_rate': 0.00017852485523117478, 'ppl': 1.7796, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4379.76, 'total_tokens': 23107406, 'epoch': 0.65}
- 22%|███████████████████████▉                                                                                       | 540/2499 [1:05:06<3:24:49,  6.27s/it] 22%|████████████████████████                                                                                       | 541/2499 [1:05:13<3:24:27,  6.27s/it]                                                                                                                                                           {'loss': 0.5599, 'grad_norm': 0.16542772948741913, 'learning_rate': 0.00017844664029268708, 'ppl': 1.7505, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4374.44, 'total_tokens': 23134723, 'epoch': 0.65}
- 22%|████████████████████████                                                                                       | 541/2499 [1:05:13<3:24:27,  6.27s/it] 22%|████████████████████████                                                                                       | 542/2499 [1:05:19<3:24:47,  6.28s/it]                                                                                                                                                           {'loss': 0.5629, 'grad_norm': 0.1714017689228058, 'learning_rate': 0.0001783683003788835, 'ppl': 1.7558, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4514.61, 'total_tokens': 23163201, 'epoch': 0.65}
- 22%|████████████████████████                                                                                       | 542/2499 [1:05:19<3:24:47,  6.28s/it] 22%|████████████████████████                                                                                       | 543/2499 [1:05:25<3:24:46,  6.28s/it]                                                                                                                                                           {'loss': 0.5781, 'grad_norm': 0.1670805811882019, 'learning_rate': 0.00017828983561456941, 'ppl': 1.7826, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4516.32, 'total_tokens': 23191579, 'epoch': 0.65}
- 22%|████████████████████████                                                                                       | 543/2499 [1:05:25<3:24:46,  6.28s/it] 22%|████████████████████████▏                                                                                      | 544/2499 [1:05:31<3:24:30,  6.28s/it]                                                                                                                                                           {'loss': 0.5766, 'grad_norm': 0.17114055156707764, 'learning_rate': 0.00017821124612474903, 'ppl': 1.78, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4499.03, 'total_tokens': 23219753, 'epoch': 0.65}
- 22%|████████████████████████▏                                                                                      | 544/2499 [1:05:31<3:24:30,  6.28s/it] 22%|████████████████████████▏                                                                                      | 545/2499 [1:05:38<3:24:07,  6.27s/it]                                                                                                                                                           {'loss': 0.5891, 'grad_norm': 0.15948644280433655, 'learning_rate': 0.00017813253203462516, 'ppl': 1.8024, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4505.12, 'total_tokens': 23247888, 'epoch': 0.65}
- 22%|████████████████████████▏                                                                                      | 545/2499 [1:05:38<3:24:07,  6.27s/it] 22%|████████████████████████▎                                                                                      | 546/2499 [1:05:44<3:24:05,  6.27s/it]                                                                                                                                                           {'loss': 0.5609, 'grad_norm': 0.15668705105781555, 'learning_rate': 0.00017805369346959925, 'ppl': 1.7522, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4661.63, 'total_tokens': 23277134, 'epoch': 0.66}
- 22%|████████████████████████▎                                                                                      | 546/2499 [1:05:44<3:24:05,  6.27s/it] 22%|████████████████████████▎                                                                                      | 547/2499 [1:05:50<3:24:03,  6.27s/it]                                                                                                                                                           {'loss': 0.5408, 'grad_norm': 0.1964712142944336, 'learning_rate': 0.00017797473055527097, 'ppl': 1.7174, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4663.52, 'total_tokens': 23306393, 'epoch': 0.66}
- 22%|████████████████████████▎                                                                                      | 547/2499 [1:05:50<3:24:03,  6.27s/it] 22%|████████████████████████▎                                                                                      | 548/2499 [1:05:56<3:23:52,  6.27s/it]                                                                                                                                                           {'loss': 0.5684, 'grad_norm': 0.15374480187892914, 'learning_rate': 0.00017789564341743816, 'ppl': 1.7654, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4344.09, 'total_tokens': 23333599, 'epoch': 0.66}
- 22%|████████████████████████▎                                                                                      | 548/2499 [1:05:56<3:23:52,  6.27s/it] 22%|████████████████████████▍                                                                                      | 549/2499 [1:06:03<3:24:11,  6.28s/it]                                                                                                                                                           {'loss': 0.5538, 'grad_norm': 0.15823286771774292, 'learning_rate': 0.00017781643218209653, 'ppl': 1.7399, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4599.04, 'total_tokens': 23362610, 'epoch': 0.66}
- 22%|████████████████████████▍                                                                                      | 549/2499 [1:06:03<3:24:11,  6.28s/it] 22%|████████████████████████▍                                                                                      | 550/2499 [1:06:09<3:24:00,  6.28s/it]                                                                                                                                                           {'loss': 0.5801, 'grad_norm': 0.16051071882247925, 'learning_rate': 0.00017773709697543945, 'ppl': 1.7862, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4632.44, 'total_tokens': 23391660, 'epoch': 0.66}
- 22%|████████████████████████▍                                                                                      | 550/2499 [1:06:09<3:24:00,  6.28s/it] 22%|████████████████████████▍                                                                                      | 551/2499 [1:06:15<3:23:39,  6.27s/it]                                                                                                                                                           {'loss': 0.547, 'grad_norm': 0.14237217605113983, 'learning_rate': 0.00017765763792385787, 'ppl': 1.7281, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4429.86, 'total_tokens': 23419362, 'epoch': 0.66}
- 22%|████████████████████████▍                                                                                      | 551/2499 [1:06:15<3:23:39,  6.27s/it] 22%|████████████████████████▌                                                                                      | 552/2499 [1:06:22<3:23:37,  6.27s/it]                                                                                                                                                           {'loss': 0.6078, 'grad_norm': 0.16329942643642426, 'learning_rate': 0.00017757805515394002, 'ppl': 1.8364, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4671.82, 'total_tokens': 23448687, 'epoch': 0.66}
- 22%|████████████████████████▌                                                                                      | 552/2499 [1:06:22<3:23:37,  6.27s/it] 22%|████████████████████████▌                                                                                      | 553/2499 [1:06:28<3:23:26,  6.27s/it]                                                                                                                                                           {'loss': 0.5276, 'grad_norm': 0.1630595177412033, 'learning_rate': 0.00017749834879247117, 'ppl': 1.6949, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4539.17, 'total_tokens': 23477121, 'epoch': 0.66}
- 22%|████████████████████████▌                                                                                      | 553/2499 [1:06:28<3:23:26,  6.27s/it] 22%|████████████████████████▌                                                                                      | 554/2499 [1:06:34<3:23:12,  6.27s/it]                                                                                                                                                           {'loss': 0.5946, 'grad_norm': 0.16599886119365692, 'learning_rate': 0.0001774185189664335, 'ppl': 1.8123, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4517.7, 'total_tokens': 23505395, 'epoch': 0.67}
- 22%|████████████████████████▌                                                                                      | 554/2499 [1:06:34<3:23:12,  6.27s/it] 22%|████████████████████████▋                                                                                      | 555/2499 [1:06:40<3:23:20,  6.28s/it]                                                                                                                                                           {'loss': 0.557, 'grad_norm': 0.16257159411907196, 'learning_rate': 0.000177338565803006, 'ppl': 1.7454, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4267.3, 'total_tokens': 23532239, 'epoch': 0.67}
- 22%|████████████████████████▋                                                                                      | 555/2499 [1:06:40<3:23:20,  6.28s/it] 22%|████████████████████████▋                                                                                      | 556/2499 [1:06:47<3:23:19,  6.28s/it]                                                                                                                                                           {'loss': 0.5678, 'grad_norm': 0.16005942225456238, 'learning_rate': 0.00017725848942956406, 'ppl': 1.7644, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4605.1, 'total_tokens': 23561162, 'epoch': 0.67}
- 22%|████████████████████████▋                                                                                      | 556/2499 [1:06:47<3:23:19,  6.28s/it] 22%|████████████████████████▋                                                                                      | 557/2499 [1:06:53<3:23:18,  6.28s/it]                                                                                                                                                           {'loss': 0.5562, 'grad_norm': 0.14812323451042175, 'learning_rate': 0.00017717828997367927, 'ppl': 1.744, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4736.45, 'total_tokens': 23590929, 'epoch': 0.67}
- 22%|████████████████████████▋                                                                                      | 557/2499 [1:06:53<3:23:18,  6.28s/it] 22%|████████████████████████▊                                                                                      | 558/2499 [1:06:59<3:23:04,  6.28s/it]                                                                                                                                                           {'loss': 0.6006, 'grad_norm': 0.170892596244812, 'learning_rate': 0.00017709796756311947, 'ppl': 1.8232, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4511.82, 'total_tokens': 23619199, 'epoch': 0.67}
- 22%|████████████████████████▊                                                                                      | 558/2499 [1:06:59<3:23:04,  6.28s/it] 22%|████████████████████████▊                                                                                      | 559/2499 [1:07:06<3:22:51,  6.27s/it]                                                                                                                                                           {'loss': 0.5399, 'grad_norm': 0.15551912784576416, 'learning_rate': 0.0001770175223258483, 'ppl': 1.7158, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4474.15, 'total_tokens': 23647226, 'epoch': 0.67}
- 22%|████████████████████████▊                                                                                      | 559/2499 [1:07:06<3:22:51,  6.27s/it] 22%|████████████████████████▊                                                                                      | 560/2499 [1:07:12<3:22:43,  6.27s/it]                                                                                                                                                           {'loss': 0.5606, 'grad_norm': 0.1615440845489502, 'learning_rate': 0.00017693695439002514, 'ppl': 1.7517, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4531.95, 'total_tokens': 23675631, 'epoch': 0.67}
- 22%|████████████████████████▊                                                                                      | 560/2499 [1:07:12<3:22:43,  6.27s/it] 22%|████████████████████████▉                                                                                      | 561/2499 [1:07:18<3:22:47,  6.28s/it]                                                                                                                                                           {'loss': 0.5892, 'grad_norm': 0.15482234954833984, 'learning_rate': 0.00017685626388400468, 'ppl': 1.8025, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4402.47, 'total_tokens': 23703313, 'epoch': 0.67}
- 22%|████████████████████████▉                                                                                      | 561/2499 [1:07:18<3:22:47,  6.28s/it] 22%|████████████████████████▉                                                                                      | 562/2499 [1:07:24<3:22:56,  6.29s/it]                                                                                                                                                           {'loss': 0.5729, 'grad_norm': 0.15045323967933655, 'learning_rate': 0.00017677545093633713, 'ppl': 1.7734, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4530.74, 'total_tokens': 23731860, 'epoch': 0.67}
- 22%|████████████████████████▉                                                                                      | 562/2499 [1:07:24<3:22:56,  6.29s/it] 23%|█████████████████████████                                                                                      | 563/2499 [1:07:31<3:22:38,  6.28s/it]                                                                                                                                                           {'loss': 0.5675, 'grad_norm': 0.14530088007450104, 'learning_rate': 0.00017669451567576752, 'ppl': 1.7639, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4520.18, 'total_tokens': 23760164, 'epoch': 0.68}
- 23%|█████████████████████████                                                                                      | 563/2499 [1:07:31<3:22:38,  6.28s/it] 23%|█████████████████████████                                                                                      | 564/2499 [1:07:37<3:22:16,  6.27s/it]                                                                                                                                                           {'loss': 0.5739, 'grad_norm': 0.16555465757846832, 'learning_rate': 0.00017661345823123589, 'ppl': 1.7752, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4475.26, 'total_tokens': 23788137, 'epoch': 0.68}
- 23%|█████████████████████████                                                                                      | 564/2499 [1:07:37<3:22:16,  6.27s/it] 23%|█████████████████████████                                                                                      | 565/2499 [1:07:43<3:21:57,  6.27s/it]                                                                                                                                                           {'loss': 0.5543, 'grad_norm': 0.16551339626312256, 'learning_rate': 0.0001765322787318769, 'ppl': 1.7407, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4461.73, 'total_tokens': 23816015, 'epoch': 0.68}
- 23%|█████████████████████████                                                                                      | 565/2499 [1:07:43<3:21:57,  6.27s/it] 23%|█████████████████████████▏                                                                                     | 566/2499 [1:07:49<3:21:45,  6.26s/it]                                                                                                                                                           {'loss': 0.5611, 'grad_norm': 0.14666950702667236, 'learning_rate': 0.00017645097730701966, 'ppl': 1.7526, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4523.64, 'total_tokens': 23844296, 'epoch': 0.68}
- 23%|█████████████████████████▏                                                                                     | 566/2499 [1:07:49<3:21:45,  6.26s/it] 23%|█████████████████████████▏                                                                                     | 567/2499 [1:07:56<3:21:35,  6.26s/it]                                                                                                                                                           {'loss': 0.5476, 'grad_norm': 0.15764540433883667, 'learning_rate': 0.00017636955408618753, 'ppl': 1.7291, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4582.64, 'total_tokens': 23872958, 'epoch': 0.68}
- 23%|█████████████████████████▏                                                                                     | 567/2499 [1:07:56<3:21:35,  6.26s/it] 23%|█████████████████████████▏                                                                                     | 568/2499 [1:08:02<3:21:44,  6.27s/it]                                                                                                                                                           {'loss': 0.599, 'grad_norm': 0.17149189114570618, 'learning_rate': 0.0001762880091990978, 'ppl': 1.8203, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4476.09, 'total_tokens': 23901085, 'epoch': 0.68}
- 23%|█████████████████████████▏                                                                                     | 568/2499 [1:08:02<3:21:44,  6.27s/it] 23%|█████████████████████████▎                                                                                     | 569/2499 [1:08:08<3:21:28,  6.26s/it]                                                                                                                                                           {'loss': 0.569, 'grad_norm': 0.16149137914180756, 'learning_rate': 0.00017620634277566176, 'ppl': 1.7665, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4416.6, 'total_tokens': 23928683, 'epoch': 0.68}
- 23%|█████████████████████████▎                                                                                     | 569/2499 [1:08:08<3:21:28,  6.26s/it] 23%|████████████████████���████▎                                                                                     | 570/2499 [1:08:14<3:21:17,  6.26s/it]                                                                                                                                                           {'loss': 0.5524, 'grad_norm': 0.15485823154449463, 'learning_rate': 0.0001761245549459843, 'ppl': 1.7374, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4413.88, 'total_tokens': 23956279, 'epoch': 0.68}
- 23%|█████████████████████████▎                                                                                     | 570/2499 [1:08:14<3:21:17,  6.26s/it] 23%|█████████████████████████▎                                                                                     | 571/2499 [1:08:21<3:21:19,  6.27s/it]                                                                                                                                                           {'loss': 0.5226, 'grad_norm': 0.1360737830400467, 'learning_rate': 0.0001760426458403635, 'ppl': 1.6864, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4749.99, 'total_tokens': 23986075, 'epoch': 0.69}
- 23%|█████████████████████████▎                                                                                     | 571/2499 [1:08:21<3:21:19,  6.27s/it] 23%|█████████████████████████▍                                                                                     | 572/2499 [1:08:27<3:21:08,  6.26s/it]                                                                                                                                                           {'loss': 0.5439, 'grad_norm': 0.14969180524349213, 'learning_rate': 0.00017596061558929096, 'ppl': 1.7227, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4661.33, 'total_tokens': 24015230, 'epoch': 0.69}
- 23%|█████████████████████████▍                                                                                     | 572/2499 [1:08:27<3:21:08,  6.26s/it] 23%|█████████████████████████▍                                                                                     | 573/2499 [1:08:33<3:21:04,  6.26s/it]                                                                                                                                                           {'loss': 0.5821, 'grad_norm': 0.15753692388534546, 'learning_rate': 0.0001758784643234511, 'ppl': 1.7898, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4587.04, 'total_tokens': 24043965, 'epoch': 0.69}
- 23%|█████████████████████████▍                                                                                     | 573/2499 [1:08:33<3:21:04,  6.26s/it] 23%|█████████████████████████▍                                                                                     | 574/2499 [1:08:40<3:21:18,  6.27s/it]                                                                                                                                                           {'loss': 0.5036, 'grad_norm': 0.14932945370674133, 'learning_rate': 0.00017579619217372115, 'ppl': 1.6547, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4529.01, 'total_tokens': 24072482, 'epoch': 0.69}
- 23%|█████████████████████████▍                                                                                     | 574/2499 [1:08:40<3:21:18,  6.27s/it] 23%|█████████████████████████▌                                                                                     | 575/2499 [1:08:46<3:21:38,  6.29s/it]                                                                                                                                                           {'loss': 0.5811, 'grad_norm': 0.15429732203483582, 'learning_rate': 0.0001757137992711709, 'ppl': 1.788, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4593.01, 'total_tokens': 24101493, 'epoch': 0.69}
- 23%|█████████████████████████▌                                                                                     | 575/2499 [1:08:46<3:21:38,  6.29s/it] 23%|█████████████████████████▌                                                                                     | 576/2499 [1:08:52<3:21:23,  6.28s/it]                                                                                                                                                           {'loss': 0.5526, 'grad_norm': 0.1494465470314026, 'learning_rate': 0.00017563128574706263, 'ppl': 1.7378, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4648.78, 'total_tokens': 24130640, 'epoch': 0.69}
- 23%|█████████████████████████▌                                                                                     | 576/2499 [1:08:52<3:21:23,  6.28s/it] 23%|█████████████████████████▋                                                                                     | 577/2499 [1:08:58<3:21:09,  6.28s/it]                                                                                                                                                           {'loss': 0.583, 'grad_norm': 0.16360746324062347, 'learning_rate': 0.00017554865173285075, 'ppl': 1.7914, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4551.95, 'total_tokens': 24159164, 'epoch': 0.69}
- 23%|█████████████████████████▋                                                                                     | 577/2499 [1:08:58<3:21:09,  6.28s/it] 23%|█████████████████████████▋                                                                                     | 578/2499 [1:09:05<3:20:43,  6.27s/it]                                                                                                                                                           {'loss': 0.5222, 'grad_norm': 0.15340928733348846, 'learning_rate': 0.00017546589736018147, 'ppl': 1.6857, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4430.58, 'total_tokens': 24186825, 'epoch': 0.69}
- 23%|█████████████████████████▋                                                                                     | 578/2499 [1:09:05<3:20:43,  6.27s/it] 23%|█████████████████████████▋                                                                                     | 579/2499 [1:09:11<3:20:19,  6.26s/it]                                                                                                                                                           {'loss': 0.5551, 'grad_norm': 0.15968795120716095, 'learning_rate': 0.0001753830227608929, 'ppl': 1.7421, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4416.18, 'total_tokens': 24214365, 'epoch': 0.7}
- 23%|█████████████████████████▋                                                                                     | 579/2499 [1:09:11<3:20:19,  6.26s/it] 23%|█████████████████████████▊                                                                                     | 580/2499 [1:09:17<3:20:53,  6.28s/it]                                                                                                                                                           {'loss': 0.5779, 'grad_norm': 0.16069112718105316, 'learning_rate': 0.0001753000280670147, 'ppl': 1.7823, 'memory/max_active (GiB)': 17.85, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4409.81, 'total_tokens': 24242271, 'epoch': 0.7}
- 23%|█████████████████████████▊                                                                                     | 580/2499 [1:09:17<3:20:53,  6.28s/it] 23%|█████████████████████████▊                                                                                     | 581/2499 [1:09:24<3:22:34,  6.34s/it]                                                                                                                                                           {'loss': 0.5631, 'grad_norm': 0.156789168715477, 'learning_rate': 0.00017521691341076774, 'ppl': 1.7561, 'memory/max_active (GiB)': 17.43, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4547.78, 'total_tokens': 24271665, 'epoch': 0.7}
- 23%|█████████████████████████▊                                                                                     | 581/2499 [1:09:24<3:22:34,  6.34s/it] 23%|█████████████████████████▊                                                                                     | 582/2499 [1:09:30<3:23:19,  6.36s/it]                                                                                                                                                           {'loss': 0.5613, 'grad_norm': 0.17415142059326172, 'learning_rate': 0.00017513367892456406, 'ppl': 1.7529, 'memory/max_active (GiB)': 13.45, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4414.67, 'total_tokens': 24300005, 'epoch': 0.7}
- 23%|█████████████████████████▊                                                                                     | 582/2499 [1:09:30<3:23:19,  6.36s/it] 23%|█████████████████████████▉                                                                                     | 583/2499 [1:09:37<3:23:19,  6.37s/it]                                                                                                                                                           {'loss': 0.549, 'grad_norm': 0.15976881980895996, 'learning_rate': 0.00017505032474100674, 'ppl': 1.7315, 'memory/max_active (GiB)': 17.32, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4433.8, 'total_tokens': 24328253, 'epoch': 0.7}
- 23%|█████████████████████████▉                                                                                     | 583/2499 [1:09:37<3:23:19,  6.37s/it] 23%|█████████████████████████▉                                                                                     | 584/2499 [1:09:43<3:23:03,  6.36s/it]                                                                                                                                                           {'loss': 0.5844, 'grad_norm': 0.15100276470184326, 'learning_rate': 0.00017496685099288928, 'ppl': 1.7939, 'memory/max_active (GiB)': 17.64, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4370.46, 'total_tokens': 24355986, 'epoch': 0.7}
- 23%|█████████████████████████▉                                                                                     | 584/2499 [1:09:43<3:23:03,  6.36s/it] 23%|█████████████████████████▉                                                                                     | 585/2499 [1:09:49<3:22:55,  6.36s/it]                                                                                                                                                           {'loss': 0.5733, 'grad_norm': 0.16124789416790009, 'learning_rate': 0.00017488325781319587, 'ppl': 1.7741, 'memory/max_active (GiB)': 17.46, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4415.51, 'total_tokens': 24384052, 'epoch': 0.7}
- 23%|█████████████████████████▉                                                                                     | 585/2499 [1:09:49<3:22:55,  6.36s/it] 23%|██████████████████████████                                                                                     | 586/2499 [1:09:56<3:22:59,  6.37s/it]                                                                                                                                                           {'loss': 0.6033, 'grad_norm': 0.15764689445495605, 'learning_rate': 0.00017479954533510087, 'ppl': 1.8281, 'memory/max_active (GiB)': 17.43, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4608.31, 'total_tokens': 24413426, 'epoch': 0.7}
- 23%|██████████████████████████                                                                                     | 586/2499 [1:09:56<3:22:59,  6.37s/it] 23%|██████████████████████████                                                                                     | 587/2499 [1:10:02<3:23:26,  6.38s/it]                                                                                                                                                           {'loss': 0.5235, 'grad_norm': 0.14312417805194855, 'learning_rate': 0.00017471571369196881, 'ppl': 1.6879, 'memory/max_active (GiB)': 17.28, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4291.88, 'total_tokens': 24440985, 'epoch': 0.7}
- 23%|██████████████████████████                                                                                     | 587/2499 [1:10:02<3:23:26,  6.38s/it] 24%|██████████████████████████                                                                                     | 588/2499 [1:10:09<3:24:24,  6.42s/it]                                                                                                                                                           {'loss': 0.5914, 'grad_norm': 0.17255191504955292, 'learning_rate': 0.00017463176301735396, 'ppl': 1.8065, 'memory/max_active (GiB)': 13.95, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4468.74, 'total_tokens': 24469984, 'epoch': 0.71}
- 24%|██████████████████████████                                                                                     | 588/2499 [1:10:09<3:24:24,  6.42s/it] 24%|██████████████████████████▏                                                                                    | 589/2499 [1:10:15<3:23:17,  6.39s/it]                                                                                                                                                           {'loss': 0.5315, 'grad_norm': 0.1607024073600769, 'learning_rate': 0.0001745476934450002, 'ppl': 1.7015, 'memory/max_active (GiB)': 17.28, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4434.69, 'total_tokens': 24497954, 'epoch': 0.71}
- 24%|██████████████████████████▏                                                                                    | 589/2499 [1:10:15<3:23:17,  6.39s/it] 24%|██████████████████████████▏                                                                                    | 590/2499 [1:10:21<3:22:00,  6.35s/it]                                                                                                                                                           {'loss': 0.5643, 'grad_norm': 0.15177768468856812, 'learning_rate': 0.00017446350510884093, 'ppl': 1.7582, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4475.09, 'total_tokens': 24525965, 'epoch': 0.71}
- 24%|██████████████████████████▏                                                                                    | 590/2499 [1:10:21<3:22:00,  6.35s/it] 24%|██████████████████████████▎                                                                                    | 591/2499 [1:10:27<3:21:11,  6.33s/it]                                                                                                                                                           {'loss': 0.5545, 'grad_norm': 0.15134449303150177, 'learning_rate': 0.0001743791981429987, 'ppl': 1.7411, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4533.18, 'total_tokens': 24554401, 'epoch': 0.71}
- 24%|██████████████████████████▎                                                                                    | 591/2499 [1:10:27<3:21:11,  6.33s/it] 24%|██████████████████████████▎                                                                                    | 592/2499 [1:10:34<3:20:29,  6.31s/it]                                                                                                                                                           {'loss': 0.5247, 'grad_norm': 0.1504749059677124, 'learning_rate': 0.00017429477268178503, 'ppl': 1.69, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4499.53, 'total_tokens': 24582574, 'epoch': 0.71}
- 24%|██████████████████████████▎                                                                                    | 592/2499 [1:10:34<3:20:29,  6.31s/it] 24%|██████████████████████████▎                                                                                    | 593/2499 [1:10:40<3:19:49,  6.29s/it]                                                                                                                                                           {'loss': 0.5007, 'grad_norm': 0.14617754518985748, 'learning_rate': 0.0001742102288597003, 'ppl': 1.6499, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4500.48, 'total_tokens': 24610693, 'epoch': 0.71}
- 24%|██████████████████████████▎                                                                                    | 593/2499 [1:10:40<3:19:49,  6.29s/it] 24%|██████████████████████████▍                                                                                    | 594/2499 [1:10:46<3:19:47,  6.29s/it]                                                                                                                                                           {'loss': 0.6026, 'grad_norm': 0.15605376660823822, 'learning_rate': 0.0001741255668114333, 'ppl': 1.8269, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4591.72, 'total_tokens': 24639598, 'epoch': 0.71}
- 24%|██████████████████████████▍                                                                                    | 594/2499 [1:10:46<3:19:47,  6.29s/it] 24%|██████████████████████████▍                                                                                    | 595/2499 [1:10:52<3:19:26,  6.29s/it]                                                                                                                                                           {'loss': 0.5504, 'grad_norm': 0.17370787262916565, 'learning_rate': 0.00017404078667186142, 'ppl': 1.7339, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4447.33, 'total_tokens': 24667454, 'epoch': 0.71}
- 24%|██████████████████████████▍                                                                                    | 595/2499 [1:10:52<3:19:26,  6.29s/it] 24%|██████████████████████████▍                                                                                    | 596/2499 [1:10:59<3:18:57,  6.27s/it]                                                                                                                                                           {'loss': 0.5451, 'grad_norm': 0.1539432853460312, 'learning_rate': 0.0001739558885760499, 'ppl': 1.7248, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4360.5, 'total_tokens': 24694675, 'epoch': 0.72}
- 24%|██████████████████████████▍                                                                                    | 596/2499 [1:10:59<3:18:57,  6.27s/it] 24%|██████████████████████████▌                                                                                    | 597/2499 [1:11:05<3:18:45,  6.27s/it]                                                                                                                                                           {'loss': 0.5394, 'grad_norm': 0.1412273794412613, 'learning_rate': 0.00017387087265925208, 'ppl': 1.715, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4564.48, 'total_tokens': 24723246, 'epoch': 0.72}
- 24%|██████████████████████████▌                                                                                    | 597/2499 [1:11:05<3:18:45,  6.27s/it] 24%|██████████████████████████▌                                                                                    | 598/2499 [1:11:11<3:18:32,  6.27s/it]                                                                                                                                                           {'loss': 0.5957, 'grad_norm': 0.16358250379562378, 'learning_rate': 0.00017378573905690896, 'ppl': 1.8143, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4510.4, 'total_tokens': 24751464, 'epoch': 0.72}
- 24%|██████████████████████████▌                                                                                    | 598/2499 [1:11:11<3:18:32,  6.27s/it] 24%|██████████████████████████▌                                                                                    | 599/2499 [1:11:17<3:18:16,  6.26s/it]                                                                                                                                                           {'loss': 0.4988, 'grad_norm': 0.15359358489513397, 'learning_rate': 0.00017370048790464902, 'ppl': 1.6467, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4345.71, 'total_tokens': 24778614, 'epoch': 0.72}
- 24%|██████████████████████████▌                                                                                    | 599/2499 [1:11:17<3:18:16,  6.26s/it] 24%|██████████████████████████▋                                                                                    | 600/2499 [1:11:24<3:18:31,  6.27s/it]                                                                                                                                                           {'loss': 0.5896, 'grad_norm': 0.1726973056793213, 'learning_rate': 0.00017361511933828801, 'ppl': 1.8033, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.17, 'tokens_per_second_per_gpu': 4595.75, 'total_tokens': 24807549, 'epoch': 0.72}
- 24%|██████████████████████████▋                                                                                    | 600/2499 [1:11:24<3:18:31,  6.27s/it][2025-12-28 12:17:00,390] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:42410] Running evaluation step...
-[2025-12-28 12:17:02,934] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 1.2528719902038574
-[2025-12-28 12:17:04,233] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 1.2981853485107422
-[2025-12-28 12:17:05,552] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 1.319084644317627
-[2025-12-28 12:17:06,805] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 1.2518165111541748
-[2025-12-28 12:17:06,805] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
+  0%|                                                                                                                               | 0/72 [00:00<?, ?it/s][A
+  3%|███▎                                                                                                                   | 2/72 [00:02<01:19,  1.14s/it][A
+  4%|████▉                                                                                                                  | 3/72 [00:04<01:50,  1.61s/it][A
+  6%|██████▌                                                                                                                | 4/72 [00:06<02:06,  1.86s/it][A
+  7%|████████▎                                                                                                              | 5/72 [00:09<02:14,  2.00s/it][A
+  8%|█████████▉                                                                                                             | 6/72 [00:11<02:18,  2.10s/it][A
+ 10%|███████████▌                                                                                                           | 7/72 [00:13<02:19,  2.15s/it][A
+ 11%|█████████████▏                                                                                                         | 8/72 [00:15<02:20,  2.19s/it][A
+ 12%|██████████████▉                                                                                                        | 9/72 [00:18<02:19,  2.22s/it][A
+ 14%|████████████████▍                                                                                                     | 10/72 [00:20<02:18,  2.23s/it][A
+ 15%|██████████████████                                                                                                    | 11/72 [00:22<02:18,  2.27s/it][A
+ 17%|███████████████████▋                                                                                                  | 12/72 [00:25<02:18,  2.30s/it][A
+ 18%|█████████████████████▎                                                                                                | 13/72 [00:27<02:16,  2.31s/it][A
+ 19%|██████████████████████▉                                                                                               | 14/72 [00:29<02:13,  2.30s/it][A
+ 21%|████████████████████████▌                                                                                             | 15/72 [00:32<02:11,  2.30s/it][A
+ 22%|██████████████████████████▏                                                                                           | 16/72 [00:34<02:08,  2.30s/it][A
+ 24%|███████████████████████████▊                                                                                          | 17/72 [00:36<02:06,  2.30s/it][A
+ 25%|█████████████████████████████▌                                                                                        | 18/72 [00:38<02:03,  2.29s/it][A
+ 26%|███████████████████████████████▏                                                                                      | 19/72 [00:41<02:01,  2.29s/it][A
+ 28%|████████████████████████████████▊                                                                                     | 20/72 [00:43<01:58,  2.29s/it][A
+ 29%|██████████████████████████████████▍                                                                                   | 21/72 [00:45<01:56,  2.28s/it][A
+ 31%|████████████████████████████████████                                                                                  | 22/72 [00:48<01:53,  2.28s/it][A
+ 32%|█████████████████████████████████████▋                                                                                | 23/72 [00:50<01:51,  2.28s/it][A
+ 33%|███████████████████████████████████████▎                                                                              | 24/72 [00:52<01:49,  2.28s/it][A
+ 35%|████████████████████████████████████████▉                                                                             | 25/72 [00:54<01:47,  2.29s/it][A
+ 36%|██████████████████████████████████████████▌                                                                           | 26/72 [00:57<01:51,  2.43s/it][A
+ 38%|████████████████████████████████████████████▎                                                                         | 27/72 [00:59<01:47,  2.38s/it][A
+ 39%|█████████████████████████████████████████████▉                                                                        | 28/72 [01:02<01:42,  2.34s/it][A
+ 40%|███████████████████████████████████████████████▌                                                                      | 29/72 [01:04<01:39,  2.30s/it][A
+ 42%|█████████████████████████████████████████████████▏                                                                    | 30/72 [01:06<01:35,  2.28s/it][A
+ 43%|██████████████████████████████████████████████████▊                                                                   | 31/72 [01:08<01:33,  2.28s/it][A
+ 44%|████████████████████████████████████████████████████▍                                                                 | 32/72 [01:11<01:30,  2.27s/it][A
+ 46%|██████████████████████████████████████████████████████                                                                | 33/72 [01:13<01:28,  2.26s/it][A
+ 47%|███████████████████████████████████████████████████████▋                                                              | 34/72 [01:15<01:25,  2.26s/it][A
+ 49%|█████████████████████████████████████████████████████████▎                                                            | 35/72 [01:17<01:23,  2.26s/it][A
+ 50%|███████████████████████████████████████████████████████████                                                           | 36/72 [01:20<01:21,  2.26s/it][A
+ 51%|█████████████████████████████████████████████���██████████████▋                                                         | 37/72 [01:22<01:18,  2.25s/it][A
+ 53%|██████████████████████████████████████████████████████████████▎                                                       | 38/72 [01:24<01:16,  2.24s/it][A
+ 54%|███████████████████████████████████████████████████████████████▉                                                      | 39/72 [01:26<01:14,  2.24s/it][A
+ 56%|█████████████████████████████████████████████████████████████████▌                                                    | 40/72 [01:29<01:11,  2.25s/it][A
+ 57%|███████████████████████████████████████████████████████████████████▏                                                  | 41/72 [01:31<01:09,  2.25s/it][A
+ 58%|████████████████████████████████████████████████████████████████████▊                                                 | 42/72 [01:33<01:07,  2.25s/it][A
+ 60%|██████████████████████████████████████████████████████████████████████▍                                               | 43/72 [01:35<01:05,  2.25s/it][A
+ 61%|████████████████████████████████████████████████████████████████████████                                              | 44/72 [01:38<01:08,  2.45s/it][A
+ 62%|█████████████████████████████████████████████████████████████████████████▊                                            | 45/72 [01:41<01:05,  2.43s/it][A
+ 64%|███████████████████████████████████████████████████████████████████████████▍                                          | 46/72 [01:43<01:01,  2.38s/it][A
+ 65%|█████████████████████████████████████████████████████████████████████████████                                         | 47/72 [01:45<00:58,  2.34s/it][A
+ 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 48/72 [01:48<00:55,  2.32s/it][A
+ 68%|████████████████████████████████████████████████████████████████████████████████▎                                     | 49/72 [01:50<00:53,  2.31s/it][A
+ 69%|█████████████████████████████████████████████████████████████████████████████████▉                                    | 50/72 [01:52<00:50,  2.30s/it][A
+ 71%|███████████████████████████████████████████████████████████████████████████████████▌                                  | 51/72 [01:54<00:48,  2.29s/it][A
+ 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 52/72 [01:57<00:45,  2.29s/it][A
+ 74%|██████████████████████████████████████████████████████████████████████████████████████▊                               | 53/72 [01:59<00:43,  2.28s/it][A
+ 75%|████████████████████████████████████████████████████████████████████████████████████████▌                             | 54/72 [02:01<00:41,  2.28s/it][A
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████▏                           | 55/72 [02:03<00:38,  2.27s/it][A
+ 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 56/72 [02:06<00:36,  2.26s/it][A
+ 79%|█████████████████████████████████████████████████████████████████████████████████████████████▍                        | 57/72 [02:08<00:33,  2.26s/it][A
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████                       | 58/72 [02:10<00:31,  2.27s/it][A
+ 82%|████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 59/72 [02:14<00:34,  2.68s/it][A
+ 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 60/72 [02:16<00:30,  2.56s/it][A
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 61/72 [02:18<00:27,  2.48s/it][A
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 62/72 [02:21<00:24,  2.42s/it][A
+ 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 63/72 [02:23<00:21,  2.37s/it][A
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 64/72 [02:25<00:18,  2.33s/it][A
+ 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 65/72 [02:27<00:16,  2.31s/it][A
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 66/72 [02:30<00:13,  2.30s/it][A
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 67/72 [02:32<00:11,  2.30s/it][A
+ 94%|█████████████████████████��█████████████████████████████████████████████████████████████████████████████████████▍      | 68/72 [02:34<00:09,  2.30s/it][A
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 69/72 [02:37<00:06,  2.29s/it][A
+ 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 70/72 [02:39<00:04,  2.29s/it][A
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 71/72 [02:41<00:02,  2.29s/it][A
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [02:43<00:00,  2.30s/it][A                                                                                                                                                           
+                                                                                                                                                           [A{'eval_loss': 1.6887853145599365, 'eval_runtime': 167.3526, 'eval_samples_per_second': 4.362, 'eval_steps_per_second': 0.872, 'eval_ppl': 5.4129, 'memory/max_active (GiB)': 18.94, 'memory/max_allocated (GiB)': 18.94, 'memory/device_reserved (GiB)': 139.12, 'epoch': 0}
+  0%|                                                                                                                             | 0/3996 [02:49<?, ?it/s]
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [02:44<00:00,  2.30s/it][A
+                                                                                                                                                           [A  0%|                                                                                                                | 1/3996 [02:55<195:12:22, 175.91s/it]  0%|                                                                                                                  | 2/3996 [03:00<83:06:37, 74.91s/it]  0%|                                                                                                                  | 3/3996 [03:04<47:17:31, 42.64s/it]  0%|                                                                                                                  | 4/3996 [03:08<30:28:11, 27.48s/it]  0%|▏                                                                                                                 | 5/3996 [03:13<21:23:10, 19.29s/it]  0%|▏                                                                                                                 | 6/3996 [03:17<15:42:55, 14.18s/it]  0%|▏                                                                                                                 | 7/3996 [03:21<12:06:13, 10.92s/it]  0%|▏                                                                                                                  | 8/3996 [03:26<9:44:18,  8.79s/it]  0%|▎                                                                                                                  | 9/3996 [03:30<8:09:49,  7.37s/it]  0%|▎                                                                                                                 | 10/3996 [03:34<7:05:16,  6.40s/it]  0%|▎                                                                                                                 | 11/3996 [03:39<6:29:39,  5.87s/it]  0%|▎                                                                                                                 | 12/3996 [03:43<6:07:23,  5.53s/it]  0%|▎                                                                                                                 | 13/3996 [03:48<5:41:57,  5.15s/it]  0%|▍                                                                                                                 | 14/3996 [03:52<5:23:28,  4.87s/it]  0%|▍                                                                                                                 | 15/3996 [03:56<5:10:29,  4.68s/it]  0%|▍                                                                                                                 | 16/3996 [04:00<5:01:50,  4.55s/it]  0%|▍                                                                                                                 | 17/3996 [04:05<4:55:19,  4.45s/it]  0%|▌                                                                                                                 | 18/3996 [04:09<4:51:02,  4.39s/it]  0%|▌                                                                                                                 | 19/3996 [04:14<4:58:50,  4.51s/it]  1%|▌                                                                                                                 | 20/3996 [04:18<4:53:38,  4.43s/it]  1%|▌                                                                                                                 | 21/3996 [04:22<4:49:34,  4.37s/it]  1%|▋                                                                                                                 | 22/3996 [04:26<4:46:39,  4.33s/it]  1%|▋                                                                                                                 | 23/3996 [04:31<4:44:50,  4.30s/it]  1%|▋                                                                                                                 | 24/3996 [04:35<4:43:31,  4.28s/it]  1%|▋                                                                                                                 | 25/3996 [04:39<4:42:32,  4.27s/it]                                                                                                                                                           {'loss': 1.6848, 'grad_norm': 1.415561556816101, 'learning_rate': 4.8e-05, 'ppl': 5.3914, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.11, 'tokens_per_second_per_gpu': 16277.76, 'total_tokens': 1723633, 'epoch': 0.02}
+  1%|▋                                                                                                                 | 25/3996 [04:39<4:42:32,  4.27s/it]  1%|▋                                                                                                                 | 26/3996 [04:44<4:52:31,  4.42s/it]  1%|▊                                                                                                                 | 27/3996 [04:48<4:48:56,  4.37s/it]  1%|▊                                                                                                                 | 28/3996 [04:52<4:45:57,  4.32s/it]  1%|▊                                                                                                                 | 29/3996 [04:57<4:44:01,  4.30s/it]  1%|▊                                                                                                                 | 30/3996 [05:01<4:42:52,  4.28s/it]  1%|▉                                                                                                                 | 31/3996 [05:05<4:41:56,  4.27s/it]  1%|▉                                                                                                                 | 32/3996 [05:09<4:41:16,  4.26s/it]  1%|▉                                                                                                                 | 33/3996 [05:14<4:51:21,  4.41s/it]  1%|▉                                                                                                                 | 34/3996 [05:18<4:47:45,  4.36s/it]  1%|▉                                                                                                                 | 35/3996 [05:23<4:45:08,  4.32s/it]  1%|█                                                                                                                 | 36/3996 [05:27<4:42:59,  4.29s/it]  1%|█                                                                                                                 | 37/3996 [05:31<4:41:30,  4.27s/it]  1%|█                                                                                                                 | 38/3996 [05:35<4:40:27,  4.25s/it]  1%|█                                                                                                                 | 39/3996 [05:39<4:40:02,  4.25s/it]  1%|█▏                                                                                                                | 40/3996 [05:44<4:50:09,  4.40s/it]  1%|█▏                                                                                                                | 41/3996 [05:48<4:46:35,  4.35s/it]  1%|█▏                                                                                                                | 42/3996 [05:53<4:43:43,  4.31s/it]  1%|█▏                                                                                                                | 43/3996 [05:57<4:41:52,  4.28s/it]  1%|█▎                                                                                                                | 44/3996 [06:01<4:40:47,  4.26s/it]  1%|█▎                                                                                                                | 45/3996 [06:05<4:39:54,  4.25s/it]  1%|█▎                                                                                                                | 46/3996 [06:10<4:40:37,  4.26s/it]  1%|█▎                                                                                                                | 47/3996 [06:15<4:56:40,  4.51s/it]  1%|█▎                                                                                                                | 48/3996 [06:19<4:50:53,  4.42s/it]  1%|█▍                                                                                                                | 49/3996 [06:23<4:46:26,  4.35s/it]  1%|█▍                                                                                                                | 50/3996 [06:27<4:43:19,  4.31s/it]                                                                                                                                                           {'loss': 0.9839, 'grad_norm': 0.33179354667663574, 'learning_rate': 9.8e-05, 'ppl': 2.6749, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4303.21, 'total_tokens': 2175386, 'epoch': 0.04}
+  1%|█▍                                                                                                                | 50/3996 [06:27<4:43:19,  4.31s/it]  1%|█▍                                                                                                                | 51/3996 [06:32<4:41:34,  4.28s/it]  1%|█▍                                                                                                                | 52/3996 [06:36<4:40:11,  4.26s/it]  1%|█▌                                                                                                                | 53/3996 [06:40<4:39:22,  4.25s/it]  1%|█▌                                                                                                                | 54/3996 [06:45<4:49:56,  4.41s/it]  1%|█▌                                                                                                                | 55/3996 [06:49<4:45:49,  4.35s/it]  1%|█▌                                                                                                                | 56/3996 [06:53<4:42:56,  4.31s/it]  1%|█▋                                                                                                                | 57/3996 [06:57<4:40:54,  4.28s/it]  1%|█▋                                                                                                                | 58/3996 [07:02<4:39:43,  4.26s/it]  1%|█▋                                                                                                                | 59/3996 [07:06<4:38:47,  4.25s/it]  2%|█▋                                                                                                                | 60/3996 [07:10<4:38:14,  4.24s/it]  2%|█▋                                                                                                                | 61/3996 [07:15<4:48:03,  4.39s/it]  2%|█▊                                                                                                                | 62/3996 [07:19<4:44:49,  4.34s/it]  2%|█▊                                                                                                                | 63/3996 [07:23<4:42:22,  4.31s/it]  2%|█▊                                                                                                                | 64/3996 [07:27<4:40:20,  4.28s/it]  2%|█▊                                                                                                                | 65/3996 [07:32<4:42:49,  4.32s/it]  2%|█▉                                                                                                                | 66/3996 [07:36<4:40:56,  4.29s/it]  2%|█▉                                                                                                                | 67/3996 [07:40<4:39:50,  4.27s/it]  2%|█▉                                                                                                                | 68/3996 [07:45<4:49:20,  4.42s/it]  2%|█▉                                                                                                                | 69/3996 [07:49<4:45:27,  4.36s/it]  2%|█▉                                                                                                                | 70/3996 [07:53<4:42:09,  4.31s/it]  2%|██                                                                                                                | 71/3996 [07:58<4:39:53,  4.28s/it]  2%|██                                                                                                                | 72/3996 [08:02<4:38:38,  4.26s/it]  2%|██                                                                                                                | 73/3996 [08:06<4:37:42,  4.25s/it]  2%|██                                                                                                                | 74/3996 [08:10<4:37:29,  4.25s/it]  2%|██▏                                                                                                               | 75/3996 [08:15<4:47:19,  4.40s/it]                                                                                                                                                           {'loss': 0.8002, 'grad_norm': 0.17453454434871674, 'learning_rate': 0.000148, 'ppl': 2.226, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3776.03, 'total_tokens': 2623712, 'epoch': 0.06}
+  2%|██▏                                                                                                               | 75/3996 [08:15<4:47:19,  4.40s/it]  2%|██▏                                                                                                               | 76/3996 [08:19<4:43:59,  4.35s/it]  2%|██▏                                                                                                               | 77/3996 [08:24<4:41:37,  4.31s/it]  2%|██▏                                                                                                               | 78/3996 [08:28<4:39:35,  4.28s/it]  2%|██▎                                                                                                               | 79/3996 [08:32<4:38:38,  4.27s/it]  2%|██▎                                                                                                               | 80/3996 [08:36<4:37:43,  4.26s/it]  2%|██▎                                                                                                               | 81/3996 [08:40<4:37:20,  4.25s/it]  2%|██▎                                                                                                               | 82/3996 [08:46<4:54:33,  4.52s/it]  2%|██▎                                                                                                               | 83/3996 [08:50<4:48:41,  4.43s/it]  2%|██▍                                                                                                               | 84/3996 [08:54<4:44:41,  4.37s/it]  2%|██▍                                                                                                               | 85/3996 [08:58<4:41:24,  4.32s/it]  2%|██▍                                                                                                               | 86/3996 [09:02<4:39:38,  4.29s/it]  2%|██▍                                                                                                               | 87/3996 [09:07<4:38:17,  4.27s/it]  2%|██▌                                                                                                               | 88/3996 [09:11<4:39:34,  4.29s/it]  2%|██▌                                                                                                               | 89/3996 [09:16<4:48:40,  4.43s/it]  2%|██▌                                                                                                               | 90/3996 [09:20<4:44:42,  4.37s/it]  2%|██▌                                                                                                               | 91/3996 [09:24<4:42:08,  4.34s/it]  2%|██▌                                                                                                               | 92/3996 [09:29<4:39:42,  4.30s/it]  2%|██▋                                                                                                               | 93/3996 [09:33<4:38:01,  4.27s/it]  2%|██▋                                                                                                               | 94/3996 [09:37<4:37:00,  4.26s/it]  2%|██▋                                                                                                               | 95/3996 [09:41<4:36:15,  4.25s/it]  2%|██▋                                                                                                               | 96/3996 [09:46<4:46:17,  4.40s/it]  2%|██▊                                                                                                               | 97/3996 [09:50<4:42:25,  4.35s/it]  2%|██▊                                                                                                               | 98/3996 [09:54<4:39:55,  4.31s/it]  2%|██▊                                                                                                               | 99/3996 [09:59<4:37:46,  4.28s/it]  3%|██▊                                                                                                              | 100/3996 [10:03<4:36:38,  4.26s/it]                                                                                                                                                           {'loss': 0.7218, 'grad_norm': 0.19318008422851562, 'learning_rate': 0.00019800000000000002, 'ppl': 2.0581, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4252.49, 'total_tokens': 3072519, 'epoch': 0.08}
+  3%|██▊                                                                                                              | 100/3996 [10:03<4:36:38,  4.26s/it]  3%|██▊                                                                                                              | 101/3996 [10:07<4:35:55,  4.25s/it]  3%|██▉                                                                                                              | 102/3996 [10:11<4:35:32,  4.25s/it]  3%|██▉                                                                                                              | 103/3996 [10:16<4:45:41,  4.40s/it]  3%|██▉                                                                                                              | 104/3996 [10:20<4:42:04,  4.35s/it]  3%|██▉                                                                                                              | 105/3996 [10:24<4:39:28,  4.31s/it]  3%|██▉                                                                                                              | 106/3996 [10:29<4:37:26,  4.28s/it]  3%|███                                                                                                              | 107/3996 [10:33<4:36:09,  4.26s/it]  3%|███                                                                                                              | 108/3996 [10:37<4:34:54,  4.24s/it]  3%|███                                                                                                              | 109/3996 [10:41<4:34:20,  4.23s/it]  3%|███                                                                                                              | 110/3996 [10:46<4:44:18,  4.39s/it]  3%|███▏                                                                                                             | 111/3996 [10:50<4:41:05,  4.34s/it]  3%|███▏                                                                                                             | 112/3996 [10:55<4:38:28,  4.30s/it]  3%|███▏                                                                                                             | 113/3996 [10:59<4:36:31,  4.27s/it]  3%|███▏                                                                                                             | 114/3996 [11:03<4:35:21,  4.26s/it]  3%|███▎                                                                                                             | 115/3996 [11:07<4:34:23,  4.24s/it]  3%|███▎                                                                                                             | 116/3996 [11:11<4:33:49,  4.23s/it]  3%|███▎                                                                                                             | 117/3996 [11:16<4:43:29,  4.39s/it]  3%|███▎                                                                                                             | 118/3996 [11:21<4:47:24,  4.45s/it]  3%|███▎                                                                                                             | 119/3996 [11:25<4:42:25,  4.37s/it]  3%|███▍                                                                                                             | 120/3996 [11:29<4:39:07,  4.32s/it]  3%|███▍                                                                                                             | 121/3996 [11:33<4:37:00,  4.29s/it]  3%|███▍                                                                                                             | 122/3996 [11:38<4:35:18,  4.26s/it]  3%|███▍                                                                                                             | 123/3996 [11:42<4:34:23,  4.25s/it]  3%|███▌                                                                                                             | 124/3996 [11:46<4:43:49,  4.40s/it]  3%|███▌                                                                                                             | 125/3996 [11:51<4:39:51,  4.34s/it]                                                                                                                                                           {'loss': 0.6759, 'grad_norm': 0.18435686826705933, 'learning_rate': 0.00019998127418269004, 'ppl': 1.9658, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4303.31, 'total_tokens': 3523983, 'epoch': 0.09}
+  3%|███▌                                                                                                             | 125/3996 [11:51<4:39:51,  4.34s/it]  3%|███▌                                                                                                             | 126/3996 [11:55<4:37:09,  4.30s/it]  3%|███▌                                                                                                             | 127/3996 [11:59<4:34:51,  4.26s/it]  3%|███▌                                                                                                             | 128/3996 [12:03<4:33:58,  4.25s/it]  3%|███▋                                                                                                             | 129/3996 [12:07<4:32:59,  4.24s/it]  3%|███▋                                                                                                             | 130/3996 [12:12<4:32:32,  4.23s/it]  3%|███▋                                                                                                             | 131/3996 [12:16<4:42:23,  4.38s/it]  3%|███▋                                                                                                             | 132/3996 [12:21<4:38:56,  4.33s/it]  3%|███▊                                                                                                             | 133/3996 [12:25<4:36:21,  4.29s/it]  3%|███▊                                                                                                             | 134/3996 [12:29<4:34:32,  4.27s/it]  3%|███▊                                                                                                             | 135/3996 [12:33<4:33:25,  4.25s/it]  3%|███▊                                                                                                             | 136/3996 [12:37<4:32:35,  4.24s/it]  3%|███▊                                                                                                             | 137/3996 [12:42<4:31:44,  4.23s/it]  3%|███▉                                                                                                             | 138/3996 [12:46<4:41:38,  4.38s/it]  3%|███▉                                                                                                             | 139/3996 [12:51<4:38:06,  4.33s/it]  4%|███▉                                                                                                             | 140/3996 [12:55<4:35:33,  4.29s/it]  4%|███▉                                                                                                             | 141/3996 [12:59<4:33:47,  4.26s/it]  4%|████                                                                                                             | 142/3996 [13:03<4:32:44,  4.25s/it]  4%|████                                                                                                             | 143/3996 [13:07<4:31:48,  4.23s/it]  4%|████                                                                                                             | 144/3996 [13:12<4:31:19,  4.23s/it]  4%|████                                                                                                             | 145/3996 [13:16<4:40:57,  4.38s/it]  4%|████▏                                                                                                            | 146/3996 [13:21<4:37:32,  4.33s/it]  4%|████▏                                                                                                            | 147/3996 [13:25<4:35:15,  4.29s/it]  4%|████▏                                                                                                            | 148/3996 [13:29<4:33:18,  4.26s/it]  4%|████▏                                                                                                            | 149/3996 [13:33<4:32:24,  4.25s/it]  4%|████▏                                                                                                            | 150/3996 [13:37<4:31:47,  4.24s/it]                                                                                                                                                           {'loss': 0.6703, 'grad_norm': 0.19870473444461823, 'learning_rate': 0.00019992195096972548, 'ppl': 1.9548, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4260.86, 'total_tokens': 3973452, 'epoch': 0.11}
+  4%|████▏                                                                                                            | 150/3996 [13:37<4:31:47,  4.24s/it]  4%|████▎                                                                                                            | 151/3996 [13:42<4:31:06,  4.23s/it]  4%|████▎                                                                                                            | 152/3996 [13:46<4:40:51,  4.38s/it]  4%|████▎                                                                                                            | 153/3996 [13:51<4:37:32,  4.33s/it]  4%|████▎                                                                                                            | 154/3996 [13:55<4:35:48,  4.31s/it]  4%|████▍                                                                                                            | 155/3996 [13:59<4:33:54,  4.28s/it]  4%|████▍                                                                                                            | 156/3996 [14:03<4:32:45,  4.26s/it]  4%|████▍                                                                                                            | 157/3996 [14:07<4:31:33,  4.24s/it]  4%|████▍                                                                                                            | 158/3996 [14:12<4:31:00,  4.24s/it]  4%|████▍                                                                                                            | 159/3996 [14:16<4:40:39,  4.39s/it]  4%|████▌                                                                                                            | 160/3996 [14:21<4:37:18,  4.34s/it]  4%|████▌                                                                                                            | 161/3996 [14:25<4:34:43,  4.30s/it]  4%|████▌                                                                                                            | 162/3996 [14:29<4:33:08,  4.27s/it]  4%|████▌                                                                                                            | 163/3996 [14:33<4:31:50,  4.26s/it]  4%|████▋                                                                                                            | 164/3996 [14:37<4:31:02,  4.24s/it]  4%|████▋                                                                                                            | 165/3996 [14:42<4:30:32,  4.24s/it]  4%|████▋                                                                                                            | 166/3996 [14:46<4:40:20,  4.39s/it]  4%|████▋                                                                                                            | 167/3996 [14:51<4:36:50,  4.34s/it]  4%|████▊                                                                                                            | 168/3996 [14:55<4:34:14,  4.30s/it]  4%|████▊                                                                                                            | 169/3996 [14:59<4:32:40,  4.27s/it]  4%|████▊                                                                                                            | 170/3996 [15:03<4:31:39,  4.26s/it]  4%|████▊                                                                                                            | 171/3996 [15:08<4:30:26,  4.24s/it]  4%|████▊                                                                                                            | 172/3996 [15:12<4:30:27,  4.24s/it]  4%|████▉                                                                                                            | 173/3996 [15:17<4:41:49,  4.42s/it]  4%|████▉                                                                                                            | 174/3996 [15:21<4:38:06,  4.37s/it]  4%|████▉                                                                                                            | 175/3996 [15:25<4:34:53,  4.32s/it]                                                                                                                                                           {'loss': 0.6381, 'grad_norm': 0.20499658584594727, 'learning_rate': 0.0001998220219574743, 'ppl': 1.8929, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4288.64, 'total_tokens': 4423763, 'epoch': 0.13}
+  4%|████▉                                                                                                            | 175/3996 [15:25<4:34:53,  4.32s/it]  4%|████▉                                                                                                            | 176/3996 [15:29<4:32:56,  4.29s/it]  4%|█████                                                                                                            | 177/3996 [15:33<4:31:34,  4.27s/it]  4%|█████                                                                                                            | 178/3996 [15:38<4:30:44,  4.25s/it]  4%|█████                                                                                                            | 179/3996 [15:42<4:29:57,  4.24s/it]  5%|█████                                                                                                            | 180/3996 [15:47<4:39:34,  4.40s/it]  5%|█████                                                                                                            | 181/3996 [15:51<4:36:17,  4.35s/it]  5%|█████▏                                                                                                           | 182/3996 [15:55<4:33:32,  4.30s/it]  5%|█████▏                                                                                                           | 183/3996 [15:59<4:31:42,  4.28s/it]  5%|█████▏                                                                                                           | 184/3996 [16:04<4:30:55,  4.26s/it]  5%|█████▏                                                                                                           | 185/3996 [16:08<4:30:05,  4.25s/it]  5%|█████▎                                                                                                           | 186/3996 [16:12<4:29:25,  4.24s/it]  5%|█████▎                                                                                                           | 187/3996 [16:17<4:39:02,  4.40s/it]  5%|█████▎                                                                                                           | 188/3996 [16:21<4:35:58,  4.35s/it]  5%|█████▎                                                                                                           | 189/3996 [16:25<4:33:25,  4.31s/it]  5%|█████▎                                                                                                           | 190/3996 [16:29<4:31:33,  4.28s/it]  5%|█████▍                                                                                                           | 191/3996 [16:34<4:30:28,  4.27s/it]  5%|█████▍                                                                                                           | 192/3996 [16:38<4:29:49,  4.26s/it]  5%|█████▍                                                                                                           | 193/3996 [16:42<4:29:07,  4.25s/it]  5%|█████▍                                                                                                           | 194/3996 [16:47<4:38:42,  4.40s/it]  5%|█████▌                                                                                                           | 195/3996 [16:51<4:35:16,  4.35s/it]  5%|█████▌                                                                                                           | 196/3996 [16:55<4:32:31,  4.30s/it]  5%|█████▌                                                                                                           | 197/3996 [16:59<4:30:32,  4.27s/it]  5%|█████▌                                                                                                           | 198/3996 [17:04<4:29:36,  4.26s/it]  5%|█████▋                                                                                                           | 199/3996 [17:08<4:28:56,  4.25s/it]  5%|█████▋                                                                                                           | 200/3996 [17:12<4:28:27,  4.24s/it]                                                                                                                                                           {'loss': 0.6383, 'grad_norm': 0.18934418261051178, 'learning_rate': 0.00019968152775460537, 'ppl': 1.8933, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4244.79, 'total_tokens': 4872365, 'epoch': 0.15}
+  5%|█████▋                                                                                                           | 200/3996 [17:12<4:28:27,  4.24s/it]  5%|█████▋                                                                                                           | 201/3996 [17:17<4:37:53,  4.39s/it]  5%|█████▋                                                                                                           | 202/3996 [17:21<4:34:51,  4.35s/it]  5%|█████▋                                                                                                           | 203/3996 [17:25<4:32:14,  4.31s/it]  5%|█████▊                                                                                                           | 204/3996 [17:30<4:30:10,  4.28s/it]  5%|█████▊                                                                                                           | 205/3996 [17:34<4:29:15,  4.26s/it]  5%|█████▊                                                                                                           | 206/3996 [17:38<4:28:24,  4.25s/it]  5%|█████▊                                                                                                           | 207/3996 [17:42<4:27:32,  4.24s/it]  5%|█████▉                                                                                                           | 208/3996 [17:47<4:45:05,  4.52s/it]  5%|█████▉                                                                                                           | 209/3996 [17:52<4:39:14,  4.42s/it]  5%|█████▉                                                                                                           | 210/3996 [17:56<4:34:57,  4.36s/it]  5%|█████▉                                                                                                           | 211/3996 [18:00<4:32:02,  4.31s/it]  5%|█████▉                                                                                                           | 212/3996 [18:04<4:30:07,  4.28s/it]  5%|██████                                                                                                           | 213/3996 [18:08<4:28:39,  4.26s/it]  5%|██████                                                                                                           | 214/3996 [18:13<4:27:39,  4.25s/it]  5%|██████                                                                                                           | 215/3996 [18:17<4:37:10,  4.40s/it]  5%|██████                                                                                                           | 216/3996 [18:22<4:33:42,  4.34s/it]  5%|██████▏                                                                                                          | 217/3996 [18:26<4:30:57,  4.30s/it]  5%|██████▏                                                                                                          | 218/3996 [18:30<4:29:09,  4.27s/it]  5%|██████▏                                                                                                          | 219/3996 [18:34<4:27:56,  4.26s/it]  6%|██████▏                                                                                                          | 220/3996 [18:38<4:26:51,  4.24s/it]  6%|██████▏                                                                                                          | 221/3996 [18:43<4:26:29,  4.24s/it]  6%|██████▎                                                                                                          | 222/3996 [18:47<4:36:42,  4.40s/it]  6%|██████▎                                                                                                          | 223/3996 [18:52<4:33:17,  4.35s/it]  6%|██████▎                                                                                                          | 224/3996 [18:56<4:30:36,  4.30s/it]  6%|██████▎                                                                                                          | 225/3996 [19:00<4:28:39,  4.27s/it]                                                                                                                                                           {'loss': 0.6347, 'grad_norm': 0.1827855408191681, 'learning_rate': 0.00019950052545447352, 'ppl': 1.8865, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4252.71, 'total_tokens': 5319322, 'epoch': 0.17}
+  6%|██████▎                                                                                                          | 225/3996 [19:00<4:28:39,  4.27s/it]  6%|██████▍                                                                                                          | 226/3996 [19:04<4:27:44,  4.26s/it]  6%|██████▍                                                                                                          | 227/3996 [19:09<4:26:48,  4.25s/it]  6%|██████▍                                                                                                          | 228/3996 [19:13<4:26:18,  4.24s/it]  6%|██████▍                                                                                                          | 229/3996 [19:18<4:36:07,  4.40s/it]  6%|██████▌                                                                                                          | 230/3996 [19:22<4:32:59,  4.35s/it]  6%|██████▌                                                                                                          | 231/3996 [19:26<4:30:34,  4.31s/it]  6%|██████▌                                                                                                          | 232/3996 [19:30<4:28:25,  4.28s/it]  6%|██████▌                                                                                                          | 233/3996 [19:34<4:27:01,  4.26s/it]  6%|██████▌                                                                                                          | 234/3996 [19:39<4:26:15,  4.25s/it]  6%|██████▋                                                                                                          | 235/3996 [19:43<4:25:41,  4.24s/it]  6%|██████▋                                                                                                          | 236/3996 [19:48<4:35:15,  4.39s/it]  6%|██████▋                                                                                                          | 237/3996 [19:52<4:32:09,  4.34s/it]  6%|██████▋                                                                                                          | 238/3996 [19:56<4:29:22,  4.30s/it]  6%|██████▊                                                                                                          | 239/3996 [20:00<4:27:37,  4.27s/it]  6%|██████▊                                                                                                          | 240/3996 [20:04<4:26:40,  4.26s/it]  6%|██████▊                                                                                                          | 241/3996 [20:09<4:26:01,  4.25s/it]  6%|██████▊                                                                                                          | 242/3996 [20:13<4:25:12,  4.24s/it]  6%|██████▊                                                                                                          | 243/3996 [20:18<4:34:57,  4.40s/it]  6%|██████▉                                                                                                          | 244/3996 [20:22<4:39:40,  4.47s/it]  6%|██████▉                                                                                                          | 245/3996 [20:27<4:34:45,  4.40s/it]  6%|██████▉                                                                                                          | 246/3996 [20:31<4:31:16,  4.34s/it]  6%|██████▉                                                                                                          | 247/3996 [20:35<4:28:48,  4.30s/it]  6%|███████                                                                                                          | 248/3996 [20:39<4:27:20,  4.28s/it]  6%|███████                                                                                                          | 249/3996 [20:43<4:25:51,  4.26s/it]  6%|███████                                                                                                          | 250/3996 [20:48<4:35:18,  4.41s/it]                                                                                                                                                           {'loss': 0.6392, 'grad_norm': 0.16483066976070404, 'learning_rate': 0.00019927908861191827, 'ppl': 1.895, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3772.0, 'total_tokens': 5768644, 'epoch': 0.19}
+  6%|███████                                                                                                          | 250/3996 [20:48<4:35:18,  4.41s/it]  6%|███████                                                                                                          | 251/3996 [20:52<4:31:39,  4.35s/it]  6%|███████▏                                                                                                         | 252/3996 [20:57<4:29:05,  4.31s/it]  6%|███████▏                                                                                                         | 253/3996 [21:01<4:26:53,  4.28s/it]  6%|███████▏                                                                                                         | 254/3996 [21:05<4:25:58,  4.26s/it]  6%|███████▏                                                                                                         | 255/3996 [21:09<4:25:23,  4.26s/it]  6%|███████▏                                                                                                         | 256/3996 [21:13<4:24:51,  4.25s/it]  6%|███████▎                                                                                                         | 257/3996 [21:18<4:34:27,  4.40s/it]  6%|███████▎                                                                                                         | 258/3996 [21:23<4:31:25,  4.36s/it]  6%|███████▎                                                                                                         | 259/3996 [21:27<4:28:53,  4.32s/it]  7%|███████▎                                                                                                         | 260/3996 [21:31<4:26:55,  4.29s/it]  7%|███████▍                                                                                                         | 261/3996 [21:35<4:26:02,  4.27s/it]  7%|███████▍                                                                                                         | 262/3996 [21:39<4:25:00,  4.26s/it]  7%|███████▍                                                                                                         | 263/3996 [21:44<4:24:14,  4.25s/it]  7%|███████▍                                                                                                         | 264/3996 [21:48<4:33:49,  4.40s/it]  7%|███████▍                                                                                                         | 265/3996 [21:53<4:30:28,  4.35s/it]  7%|███████▌                                                                                                         | 266/3996 [21:57<4:27:47,  4.31s/it]  7%|███████▌                                                                                                         | 267/3996 [22:01<4:26:01,  4.28s/it]  7%|███████▌                                                                                                         | 268/3996 [22:05<4:25:24,  4.27s/it]  7%|███████▌                                                                                                         | 269/3996 [22:10<4:24:39,  4.26s/it]  7%|███████▋                                                                                                         | 270/3996 [22:14<4:23:48,  4.25s/it]  7%|███████▋                                                                                                         | 271/3996 [22:19<4:33:10,  4.40s/it]  7%|███████▋                                                                                                         | 272/3996 [22:23<4:30:02,  4.35s/it]  7%|███████▋                                                                                                         | 273/3996 [22:27<4:27:28,  4.31s/it]  7%|███████▋                                                                                                         | 274/3996 [22:31<4:25:45,  4.28s/it]  7%|███████▊                                                                                                         | 275/3996 [22:35<4:24:34,  4.27s/it]                                                                                                                                                           {'loss': 0.614, 'grad_norm': 0.17186357080936432, 'learning_rate': 0.00019901730721337302, 'ppl': 1.8478, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4281.82, 'total_tokens': 6220751, 'epoch': 0.21}
+  7%|███████▊                                                                                                         | 275/3996 [22:35<4:24:34,  4.27s/it]  7%|███████▊                                                                                                         | 276/3996 [22:40<4:23:38,  4.25s/it]  7%|███████▊                                                                                                         | 277/3996 [22:44<4:22:46,  4.24s/it]  7%|███████▊                                                                                                         | 278/3996 [22:49<4:32:26,  4.40s/it]  7%|███████▉                                                                                                         | 279/3996 [22:53<4:29:06,  4.34s/it]  7%|███████▉                                                                                                         | 280/3996 [22:57<4:26:29,  4.30s/it]  7%|███████▉                                                                                                         | 281/3996 [23:01<4:24:48,  4.28s/it]  7%|███████▉                                                                                                         | 282/3996 [23:05<4:23:45,  4.26s/it]  7%|████████                                                                                                         | 283/3996 [23:10<4:23:10,  4.25s/it]  7%|████████                                                                                                         | 284/3996 [23:14<4:22:31,  4.24s/it]  7%|████████                                                                                                         | 285/3996 [23:19<4:31:42,  4.39s/it]  7%|████████                                                                                                         | 286/3996 [23:23<4:28:26,  4.34s/it]  7%|████████                                                                                                         | 287/3996 [23:27<4:26:05,  4.30s/it]  7%|████████▏                                                                                                        | 288/3996 [23:31<4:24:28,  4.28s/it]  7%|████████▏                                                                                                        | 289/3996 [23:36<4:24:14,  4.28s/it]  7%|████████▏                                                                                                        | 290/3996 [23:40<4:22:58,  4.26s/it]  7%|████████▏                                                                                                        | 291/3996 [23:44<4:22:05,  4.24s/it]  7%|████████▎                                                                                                        | 292/3996 [23:49<4:31:22,  4.40s/it]  7%|████████▎                                                                                                        | 293/3996 [23:53<4:28:09,  4.34s/it]  7%|████████▎                                                                                                        | 294/3996 [23:57<4:25:26,  4.30s/it]  7%|████████▎                                                                                                        | 295/3996 [24:01<4:23:41,  4.28s/it]  7%|████████▎                                                                                                        | 296/3996 [24:06<4:22:28,  4.26s/it]  7%|████████▍                                                                                                        | 297/3996 [24:10<4:21:23,  4.24s/it]  7%|████████▍                                                                                                        | 298/3996 [24:14<4:20:30,  4.23s/it]  7%|████████▍                                                                                                        | 299/3996 [24:19<4:30:12,  4.39s/it]  8%|████████▍                                                                                                        | 300/3996 [24:23<4:27:12,  4.34s/it]                                                                                                                                                           {'loss': 0.6196, 'grad_norm': 0.18073013424873352, 'learning_rate': 0.00019871528764029667, 'ppl': 1.8582, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4234.51, 'total_tokens': 6668111, 'epoch': 0.23}
+  8%|████████▍                                                                                                        | 300/3996 [24:23<4:27:12,  4.34s/it]  8%|████████▌                                                                                                        | 301/3996 [24:27<4:24:51,  4.30s/it]  8%|████████▌                                                                                                        | 302/3996 [24:31<4:22:51,  4.27s/it]  8%|████████▌                                                                                                        | 303/3996 [24:36<4:21:40,  4.25s/it]  8%|████████▌                                                                                                        | 304/3996 [24:40<4:20:59,  4.24s/it]  8%|████████▌                                                                                                        | 305/3996 [24:44<4:20:23,  4.23s/it]  8%|████████▋                                                                                                        | 306/3996 [24:49<4:29:50,  4.39s/it]  8%|████████▋                                                                                                        | 307/3996 [24:53<4:26:25,  4.33s/it]  8%|████████▋                                                                                                        | 308/3996 [24:57<4:24:10,  4.30s/it]  8%|████████▋                                                                                                        | 309/3996 [25:01<4:22:30,  4.27s/it]  8%|████████▊                                                                                                        | 310/3996 [25:06<4:21:02,  4.25s/it]  8%|████████▊                                                                                                        | 311/3996 [25:10<4:20:09,  4.24s/it]  8%|████████▊                                                                                                        | 312/3996 [25:14<4:19:28,  4.23s/it]  8%|████████▊                                                                                                        | 313/3996 [25:19<4:29:15,  4.39s/it]  8%|████████▉                                                                                                        | 314/3996 [25:23<4:26:08,  4.34s/it]  8%|████████▉                                                                                                        | 315/3996 [25:27<4:23:42,  4.30s/it]  8%|████████▉                                                                                                        | 316/3996 [25:31<4:22:00,  4.27s/it]  8%|████████▉                                                                                                        | 317/3996 [25:36<4:20:56,  4.26s/it]  8%|████████▉                                                                                                        | 318/3996 [25:40<4:20:10,  4.24s/it]  8%|█████████                                                                                                        | 319/3996 [25:44<4:19:54,  4.24s/it]  8%|█████████                                                                                                        | 320/3996 [25:49<4:29:22,  4.40s/it]  8%|█████████                                                                                                        | 321/3996 [25:53<4:25:53,  4.34s/it]  8%|█████████                                                                                                        | 322/3996 [25:57<4:23:35,  4.30s/it]  8%|█████████▏                                                                                                       | 323/3996 [26:02<4:21:38,  4.27s/it]  8%|█████████▏                                                                                                       | 324/3996 [26:06<4:20:34,  4.26s/it]  8%|█████████▏                                                                                                       | 325/3996 [26:10<4:19:47,  4.25s/it]                                                                                                                                                           {'loss': 0.6181, 'grad_norm': 0.19639697670936584, 'learning_rate': 0.00019837315262594306, 'ppl': 1.8554, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4261.44, 'total_tokens': 7117439, 'epoch': 0.24}
+  8%|█████████▏                                                                                                       | 325/3996 [26:10<4:19:47,  4.25s/it]  8%|█████████▏                                                                                                       | 326/3996 [26:14<4:19:18,  4.24s/it]  8%|█████████▏                                                                                                       | 327/3996 [26:19<4:29:14,  4.40s/it]  8%|█████████▎                                                                                                       | 328/3996 [26:23<4:25:56,  4.35s/it]  8%|█████████▎                                                                                                       | 329/3996 [26:27<4:23:19,  4.31s/it]  8%|█████████▎                                                                                                       | 330/3996 [26:32<4:21:13,  4.28s/it]  8%|█████████▎                                                                                                       | 331/3996 [26:36<4:20:01,  4.26s/it]  8%|█████████▍                                                                                                       | 332/3996 [26:40<4:19:11,  4.24s/it]  8%|█████████▍                                                                                                       | 333/3996 [26:44<4:18:56,  4.24s/it]  8%|█████████▍                                                                                                       | 334/3996 [26:49<4:29:44,  4.42s/it]  8%|█████████▍                                                                                                       | 335/3996 [26:53<4:26:02,  4.36s/it]  8%|█████████▌                                                                                                       | 336/3996 [26:58<4:23:39,  4.32s/it]  8%|█████████▌                                                                                                       | 337/3996 [27:02<4:21:34,  4.29s/it]  8%|█████████▌                                                                                                       | 338/3996 [27:06<4:20:03,  4.27s/it]  8%|█████████▌                                                                                                       | 339/3996 [27:10<4:19:04,  4.25s/it]  9%|█████████▌                                                                                                       | 340/3996 [27:14<4:18:09,  4.24s/it]  9%|█████████▋                                                                                                       | 341/3996 [27:19<4:29:17,  4.42s/it]  9%|█████████▋                                                                                                       | 342/3996 [27:23<4:25:32,  4.36s/it]  9%|█████████▋                                                                                                       | 343/3996 [27:28<4:22:39,  4.31s/it]  9%|█████████▋                                                                                                       | 344/3996 [27:32<4:20:51,  4.29s/it]  9%|█████████▊                                                                                                       | 345/3996 [27:36<4:19:16,  4.26s/it]  9%|█████████▊                                                                                                       | 346/3996 [27:40<4:18:11,  4.24s/it]  9%|█████████▊                                                                                                       | 347/3996 [27:45<4:17:35,  4.24s/it]  9%|█████████▊                                                                                                       | 348/3996 [27:49<4:26:40,  4.39s/it]  9%|█████████▊                                                                                                       | 349/3996 [27:53<4:23:18,  4.33s/it]  9%|█████████▉                                                                                                       | 350/3996 [27:58<4:20:53,  4.29s/it]                                                                                                                                                           {'loss': 0.6141, 'grad_norm': 0.1670486479997635, 'learning_rate': 0.00019799104120548492, 'ppl': 1.848, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4298.97, 'total_tokens': 7569060, 'epoch': 0.26}
+  9%|█████████▉                                                                                                       | 350/3996 [27:58<4:20:53,  4.29s/it]  9%|█████████▉                                                                                                       | 351/3996 [28:02<4:19:04,  4.26s/it]  9%|█████████▉                                                                                                       | 352/3996 [28:06<4:18:06,  4.25s/it]  9%|█████████▉                                                                                                       | 353/3996 [28:10<4:17:22,  4.24s/it]  9%|██████████                                                                                                       | 354/3996 [28:14<4:16:46,  4.23s/it]  9%|██████████                                                                                                       | 355/3996 [28:19<4:26:16,  4.39s/it]  9%|██████████                                                                                                       | 356/3996 [28:23<4:23:11,  4.34s/it]  9%|██████████                                                                                                       | 357/3996 [28:28<4:21:02,  4.30s/it]  9%|██████████                                                                                                       | 358/3996 [28:32<4:19:20,  4.28s/it]  9%|██████████▏                                                                                                      | 359/3996 [28:36<4:17:38,  4.25s/it]  9%|██████████▏                                                                                                      | 360/3996 [28:40<4:16:50,  4.24s/it]  9%|██████████▏                                                                                                      | 361/3996 [28:45<4:16:11,  4.23s/it]  9%|██████████▏                                                                                                      | 362/3996 [28:49<4:25:40,  4.39s/it]  9%|██████████▎                                                                                                      | 363/3996 [28:53<4:22:13,  4.33s/it]  9%|██████████▎                                                                                                      | 364/3996 [28:58<4:19:57,  4.29s/it]  9%|██████████▎                                                                                                      | 365/3996 [29:02<4:18:17,  4.27s/it]  9%|██████████▎                                                                                                      | 366/3996 [29:06<4:17:25,  4.26s/it]  9%|██████████▍                                                                                                      | 367/3996 [29:10<4:16:40,  4.24s/it]  9%|██████████▍                                                                                                      | 368/3996 [29:15<4:16:20,  4.24s/it]  9%|██████████▍                                                                                                      | 369/3996 [29:19<4:25:22,  4.39s/it]  9%|██████████▍                                                                                                      | 370/3996 [29:24<4:29:19,  4.46s/it]  9%|██████████▍                                                                                                      | 371/3996 [29:28<4:24:43,  4.38s/it]  9%|██████████▌                                                                                                      | 372/3996 [29:32<4:21:18,  4.33s/it]  9%|██████████▌                                                                                                      | 373/3996 [29:37<4:19:16,  4.29s/it]  9%|██████████▌                                                                                                      | 374/3996 [29:41<4:17:48,  4.27s/it]  9%|██████████▌                                                                                                      | 375/3996 [29:45<4:16:45,  4.25s/it]                                                                                                                                                           {'loss': 0.6075, 'grad_norm': 0.17752495408058167, 'learning_rate': 0.00019756910865951377, 'ppl': 1.8358, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4256.6, 'total_tokens': 8017630, 'epoch': 0.28}
+  9%|██████████▌                                                                                                      | 375/3996 [29:45<4:16:45,  4.25s/it]  9%|██████████▋                                                                                                      | 376/3996 [29:50<4:25:49,  4.41s/it]  9%|██████████▋                                                                                                      | 377/3996 [29:54<4:22:16,  4.35s/it]  9%|██████████▋                                                                                                      | 378/3996 [29:58<4:19:52,  4.31s/it]  9%|██████████▋                                                                                                      | 379/3996 [30:02<4:17:58,  4.28s/it] 10%|██████████▋                                                                                                      | 380/3996 [30:07<4:16:56,  4.26s/it] 10%|██████████▊                                                                                                      | 381/3996 [30:11<4:16:00,  4.25s/it] 10%|██████████▊                                                                                                      | 382/3996 [30:15<4:15:26,  4.24s/it] 10%|██████████▊                                                                                                      | 383/3996 [30:20<4:25:01,  4.40s/it] 10%|██████████▊                                                                                                      | 384/3996 [30:24<4:21:46,  4.35s/it] 10%|██████████▉                                                                                                      | 385/3996 [30:28<4:19:23,  4.31s/it] 10%|██████████▉                                                                                                      | 386/3996 [30:32<4:17:36,  4.28s/it] 10%|██████████▉                                                                                                      | 387/3996 [30:37<4:16:11,  4.26s/it] 10%|██████████▉                                                                                                      | 388/3996 [30:41<4:15:22,  4.25s/it] 10%|███████████                                                                                                      | 389/3996 [30:45<4:14:56,  4.24s/it] 10%|███████████                                                                                                      | 390/3996 [30:50<4:24:16,  4.40s/it] 10%|███████████                                                                                                      | 391/3996 [30:54<4:20:51,  4.34s/it] 10%|███████████                                                                                                      | 392/3996 [30:58<4:18:32,  4.30s/it] 10%|███████████                                                                                                      | 393/3996 [31:03<4:16:39,  4.27s/it] 10%|███████████▏                                                                                                     | 394/3996 [31:07<4:15:45,  4.26s/it] 10%|███████████▏                                                                                                     | 395/3996 [31:11<4:14:47,  4.25s/it] 10%|███████████▏                                                                                                     | 396/3996 [31:15<4:14:09,  4.24s/it] 10%|███████████▏                                                                                                     | 397/3996 [31:20<4:23:48,  4.40s/it] 10%|███████████▎                                                                                                     | 398/3996 [31:24<4:20:33,  4.35s/it] 10%|███████████▎                                                                                                     | 399/3996 [31:28<4:18:20,  4.31s/it] 10%|███████████▎                                                                                                     | 400/3996 [31:33<4:16:35,  4.28s/it]                                                                                                                                                           {'loss': 0.6108, 'grad_norm': 0.2000180035829544, 'learning_rate': 0.00019710752645093747, 'ppl': 1.8419, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4245.46, 'total_tokens': 8464998, 'epoch': 0.3}
+ 10%|███████████▎                                                                                                     | 400/3996 [31:33<4:16:35,  4.28s/it] 10%|███████████▎                                                                                                     | 401/3996 [31:37<4:15:08,  4.26s/it] 10%|███████████▎                                                                                                     | 402/3996 [31:41<4:14:08,  4.24s/it] 10%|███████████▍                                                                                                     | 403/3996 [31:45<4:13:38,  4.24s/it] 10%|███████████▍                                                                                                     | 404/3996 [31:50<4:23:06,  4.39s/it] 10%|███████████▍                                                                                                     | 405/3996 [31:54<4:19:46,  4.34s/it] 10%|███████████▍                                                                                                     | 406/3996 [31:58<4:17:37,  4.31s/it] 10%|███████████▌                                                                                                     | 407/3996 [32:03<4:15:45,  4.28s/it] 10%|███████████▌                                                                                                     | 408/3996 [32:07<4:14:49,  4.26s/it] 10%|███████████▌                                                                                                     | 409/3996 [32:11<4:13:58,  4.25s/it] 10%|███████████▌                                                                                                     | 410/3996 [32:15<4:13:25,  4.24s/it] 10%|███████████▌                                                                                                     | 411/3996 [32:20<4:22:57,  4.40s/it] 10%|███████████▋                                                                                                     | 412/3996 [32:24<4:19:29,  4.34s/it] 10%|███████████▋                                                                                                     | 413/3996 [32:29<4:17:10,  4.31s/it] 10%|███████████▋                                                                                                     | 414/3996 [32:33<4:15:20,  4.28s/it] 10%|███████████▋                                                                                                     | 415/3996 [32:37<4:14:11,  4.26s/it] 10%|███████████▊                                                                                                     | 416/3996 [32:41<4:13:32,  4.25s/it] 10%|███████████▊                                                                                                     | 417/3996 [32:45<4:12:51,  4.24s/it] 10%|███████████▊                                                                                                     | 418/3996 [32:50<4:22:16,  4.40s/it] 10%|███████████▊                                                                                                     | 419/3996 [32:54<4:18:56,  4.34s/it] 11%|███████████▉                                                                                                     | 420/3996 [32:59<4:16:38,  4.31s/it] 11%|███████████▉                                                                                                     | 421/3996 [33:03<4:15:07,  4.28s/it] 11%|███████████▉                                                                                                     | 422/3996 [33:07<4:14:10,  4.27s/it] 11%|███████████▉                                                                                                     | 423/3996 [33:11<4:13:18,  4.25s/it] 11%|███████████▉                                                                                                     | 424/3996 [33:16<4:13:02,  4.25s/it] 11%|████████████                                                                                                     | 425/3996 [33:20<4:22:32,  4.41s/it]                                                                                                                                                           {'loss': 0.5966, 'grad_norm': 0.17395919561386108, 'learning_rate': 0.00019660648215530206, 'ppl': 1.8159, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3758.92, 'total_tokens': 8914723, 'epoch': 0.32}
+ 11%|████████████                                                                                                     | 425/3996 [33:20<4:22:32,  4.41s/it] 11%|████████████                                                                                                     | 426/3996 [33:25<4:19:17,  4.36s/it] 11%|████████████                                                                                                     | 427/3996 [33:29<4:16:47,  4.32s/it] 11%|████████████                                                                                                     | 428/3996 [33:33<4:14:44,  4.28s/it] 11%|████████████▏                                                                                                    | 429/3996 [33:37<4:13:37,  4.27s/it] 11%|████████████▏                                                                                                    | 430/3996 [33:41<4:12:39,  4.25s/it] 11%|████████████▏                                                                                                    | 431/3996 [33:46<4:11:54,  4.24s/it] 11%|████████████▏                                                                                                    | 432/3996 [33:50<4:20:59,  4.39s/it] 11%|████████████▏                                                                                                    | 433/3996 [33:55<4:17:33,  4.34s/it] 11%|████████████▎                                                                                                    | 434/3996 [33:59<4:15:07,  4.30s/it] 11%|████████████▎                                                                                                    | 435/3996 [34:03<4:13:38,  4.27s/it] 11%|████████████▎                                                                                                    | 436/3996 [34:07<4:12:59,  4.26s/it] 11%|████████████▎                                                                                                    | 437/3996 [34:11<4:12:20,  4.25s/it] 11%|████████████▍                                                                                                    | 438/3996 [34:16<4:11:26,  4.24s/it] 11%|████████████▍                                                                                                    | 439/3996 [34:20<4:20:32,  4.39s/it] 11%|████████████▍                                                                                                    | 440/3996 [34:25<4:17:46,  4.35s/it] 11%|████████████▍                                                                                                    | 441/3996 [34:29<4:15:07,  4.31s/it] 11%|████████████▍                                                                                                    | 442/3996 [34:33<4:13:10,  4.27s/it] 11%|████████████▌                                                                                                    | 443/3996 [34:37<4:12:23,  4.26s/it] 11%|████████████▌                                                                                                    | 444/3996 [34:42<4:11:56,  4.26s/it] 11%|████████████▌                                                                                                    | 445/3996 [34:46<4:11:08,  4.24s/it] 11%|████████████▌                                                                                                    | 446/3996 [34:51<4:20:00,  4.39s/it] 11%|████████████▋                                                                                                    | 447/3996 [34:55<4:17:02,  4.35s/it] 11%|████████████▋                                                                                                    | 448/3996 [34:59<4:14:40,  4.31s/it] 11%|████████████▋                                                                                                    | 449/3996 [35:03<4:12:57,  4.28s/it] 11%|████████████▋                                                                                                    | 450/3996 [35:07<4:12:08,  4.27s/it]                                                                                                                                                           {'loss': 0.6099, 'grad_norm': 0.18785236775875092, 'learning_rate': 0.00019606617938456572, 'ppl': 1.8402, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4200.53, 'total_tokens': 9359638, 'epoch': 0.34}
+ 11%|████████████▋                                                                                                    | 450/3996 [35:07<4:12:08,  4.27s/it] 11%|████████████▊                                                                                                    | 451/3996 [35:12<4:11:11,  4.25s/it] 11%|████████████▊                                                                                                    | 452/3996 [35:16<4:10:15,  4.24s/it] 11%|████████████▊                                                                                                    | 453/3996 [35:21<4:19:24,  4.39s/it] 11%|████████████▊                                                                                                    | 454/3996 [35:25<4:16:37,  4.35s/it] 11%|████████████▊                                                                                                    | 455/3996 [35:29<4:14:21,  4.31s/it] 11%|████████████▉                                                                                                    | 456/3996 [35:33<4:12:15,  4.28s/it] 11%|████████████▉                                                                                                    | 457/3996 [35:37<4:11:34,  4.27s/it] 11%|████████████▉                                                                                                    | 458/3996 [35:42<4:10:45,  4.25s/it] 11%|████████████▉                                                                                                    | 459/3996 [35:46<4:10:04,  4.24s/it] 12%|█████████████                                                                                                    | 460/3996 [35:51<4:23:00,  4.46s/it] 12%|█████████████                                                                                                    | 461/3996 [35:55<4:18:38,  4.39s/it] 12%|█████████████                                                                                                    | 462/3996 [35:59<4:15:29,  4.34s/it] 12%|█████████████                                                                                                    | 463/3996 [36:04<4:13:02,  4.30s/it] 12%|█████████████                                                                                                    | 464/3996 [36:08<4:11:43,  4.28s/it] 12%|█████████████▏                                                                                                   | 465/3996 [36:12<4:10:50,  4.26s/it] 12%|█████████████▏                                                                                                   | 466/3996 [36:16<4:10:00,  4.25s/it] 12%|█████████████▏                                                                                                   | 467/3996 [36:21<4:18:59,  4.40s/it] 12%|█████████████▏                                                                                                   | 468/3996 [36:25<4:15:47,  4.35s/it] 12%|█████████████▎                                                                                                   | 469/3996 [36:29<4:13:21,  4.31s/it] 12%|█████████████▎                                                                                                   | 470/3996 [36:34<4:11:28,  4.28s/it] 12%|█████████████▎                                                                                                   | 471/3996 [36:38<4:10:27,  4.26s/it] 12%|█████████████▎                                                                                                   | 472/3996 [36:42<4:09:49,  4.25s/it] 12%|█████████████▍                                                                                                   | 473/3996 [36:46<4:09:21,  4.25s/it] 12%|█████████████▍                                                                                                   | 474/3996 [36:51<4:18:53,  4.41s/it] 12%|█████████████▍                                                                                                   | 475/3996 [36:55<4:15:40,  4.36s/it]                                                                                                                                                           {'loss': 0.5922, 'grad_norm': 0.17702797055244446, 'learning_rate': 0.0001954868377043559, 'ppl': 1.808, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4265.36, 'total_tokens': 9810837, 'epoch': 0.36}
+ 12%|█████████████▍                                                                                                   | 475/3996 [36:55<4:15:40,  4.36s/it] 12%|█████████████▍                                                                                                   | 476/3996 [37:00<4:13:09,  4.32s/it] 12%|█████████████▍                                                                                                   | 477/3996 [37:04<4:11:27,  4.29s/it] 12%|█████████████▌                                                                                                   | 478/3996 [37:08<4:10:16,  4.27s/it] 12%|█████████████▌                                                                                                   | 479/3996 [37:12<4:09:23,  4.25s/it] 12%|█████████████▌                                                                                                   | 480/3996 [37:16<4:08:39,  4.24s/it] 12%|█████████████▌                                                                                                   | 481/3996 [37:21<4:17:58,  4.40s/it] 12%|█████████████▋                                                                                                   | 482/3996 [37:25<4:14:54,  4.35s/it] 12%|█████████████▋                                                                                                   | 483/3996 [37:30<4:12:45,  4.32s/it] 12%|█████████████▋                                                                                                   | 484/3996 [37:34<4:10:52,  4.29s/it] 12%|█████████████▋                                                                                                   | 485/3996 [37:38<4:09:41,  4.27s/it] 12%|█████████████▋                                                                                                   | 486/3996 [37:42<4:08:52,  4.25s/it] 12%|█████████████▊                                                                                                   | 487/3996 [37:47<4:08:10,  4.24s/it] 12%|█████████████▊                                                                                                   | 488/3996 [37:51<4:17:39,  4.41s/it] 12%|█████████████▊                                                                                                   | 489/3996 [37:56<4:14:47,  4.36s/it] 12%|█████████████▊                                                                                                   | 490/3996 [38:00<4:12:19,  4.32s/it] 12%|█████████████▉                                                                                                   | 491/3996 [38:04<4:10:23,  4.29s/it] 12%|█████████████▉                                                                                                   | 492/3996 [38:08<4:09:24,  4.27s/it] 12%|█████████████▉                                                                                                   | 493/3996 [38:13<4:08:34,  4.26s/it] 12%|█████████████▉                                                                                                   | 494/3996 [38:17<4:07:32,  4.24s/it] 12%|█████████████▉                                                                                                   | 495/3996 [38:21<4:16:39,  4.40s/it] 12%|██████████████                                                                                                   | 496/3996 [38:26<4:18:17,  4.43s/it] 12%|██████████████                                                                                                   | 497/3996 [38:30<4:14:33,  4.37s/it] 12%|██████████████                                                                                                   | 498/3996 [38:34<4:11:48,  4.32s/it] 12%|██████████████                                                                                                   | 499/3996 [38:39<4:09:52,  4.29s/it] 13%|██████████████▏                                                                                                  | 500/3996 [38:43<4:08:33,  4.27s/it]                                                                                                                                                           {'loss': 0.5759, 'grad_norm': 0.19927558302879333, 'learning_rate': 0.00019486869254474337, 'ppl': 1.7787, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4276.25, 'total_tokens': 10261446, 'epoch': 0.38}
+ 13%|██████████████▏                                                                                                  | 500/3996 [38:43<4:08:33,  4.27s/it] 13%|██████████████▏                                                                                                  | 501/3996 [38:47<4:07:39,  4.25s/it] 13%|██████████████▏                                                                                                  | 502/3996 [38:52<4:16:25,  4.40s/it] 13%|██████████████▏                                                                                                  | 503/3996 [38:56<4:13:07,  4.35s/it] 13%|██████████████▎                                                                                                  | 504/3996 [39:00<4:10:59,  4.31s/it] 13%|██████████████▎                                                                                                  | 505/3996 [39:04<4:08:55,  4.28s/it] 13%|██████████████▎                                                                                                  | 506/3996 [39:09<4:08:00,  4.26s/it] 13%|██████████████▎                                                                                                  | 507/3996 [39:13<4:07:02,  4.25s/it] 13%|█���████████████▎                                                                                                  | 508/3996 [39:17<4:06:32,  4.24s/it] 13%|██████████████▍                                                                                                  | 509/3996 [39:22<4:15:31,  4.40s/it] 13%|██████████████▍                                                                                                  | 510/3996 [39:26<4:12:28,  4.35s/it] 13%|██████████████▍                                                                                                  | 511/3996 [39:30<4:10:01,  4.30s/it] 13%|██████████████▍                                                                                                  | 512/3996 [39:35<4:08:21,  4.28s/it] 13%|██████████████▌                                                                                                  | 513/3996 [39:39<4:07:17,  4.26s/it] 13%|██████████████▌                                                                                                  | 514/3996 [39:43<4:06:32,  4.25s/it] 13%|██████████████▌                                                                                                  | 515/3996 [39:47<4:06:01,  4.24s/it] 13%|██████████████▌                                                                                                  | 516/3996 [39:52<4:14:45,  4.39s/it] 13%|██████████████▌                                                                                                  | 517/3996 [39:56<4:11:37,  4.34s/it] 13%|██████████████▋                                                                                                  | 518/3996 [40:00<4:09:19,  4.30s/it] 13%|██████████████▋                                                                                                  | 519/3996 [40:05<4:07:32,  4.27s/it] 13%|██████████████▋                                                                                                  | 520/3996 [40:09<4:06:35,  4.26s/it] 13%|██████████████▋                                                                                                  | 521/3996 [40:13<4:05:33,  4.24s/it] 13%|██████████████▊                                                                                                  | 522/3996 [40:17<4:04:45,  4.23s/it] 13%|██████████████▊                                                                                                  | 523/3996 [40:22<4:14:49,  4.40s/it] 13%|██████████████▊                                                                                                  | 524/3996 [40:26<4:11:11,  4.34s/it] 13%|██████████████▊                                                                                                  | 525/3996 [40:30<4:08:19,  4.29s/it]                                                                                                                                                           {'loss': 0.584, 'grad_norm': 0.1908370852470398, 'learning_rate': 0.0001942119951045692, 'ppl': 1.7932, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4272.28, 'total_tokens': 10707841, 'epoch': 0.39}
+ 13%|██████████████▊                                                                                                  | 525/3996 [40:30<4:08:19,  4.29s/it] 13%|██████████████▊                                                                                                  | 526/3996 [40:35<4:06:23,  4.26s/it] 13%|██████████████▉                                                                                                  | 527/3996 [40:39<4:05:20,  4.24s/it] 13%|██████████████▉                                                                                                  | 528/3996 [40:43<4:04:53,  4.24s/it] 13%|██████████████▉                                                                                                  | 529/3996 [40:47<4:04:17,  4.23s/it] 13%|██████████████▉                                                                                                  | 530/3996 [40:52<4:13:25,  4.39s/it] 13%|███████████████                                                                                                  | 531/3996 [40:56<4:10:23,  4.34s/it] 13%|███████���███████                                                                                                  | 532/3996 [41:00<4:08:02,  4.30s/it] 13%|███████████████                                                                                                  | 533/3996 [41:05<4:06:18,  4.27s/it] 13%|███████████████                                                                                                  | 534/3996 [41:09<4:05:19,  4.25s/it] 13%|███████████████▏                                                                                                 | 535/3996 [41:13<4:04:32,  4.24s/it] 13%|███████████████▏                                                                                                 | 536/3996 [41:17<4:05:28,  4.26s/it] 13%|███████████████▏                                                                                                 | 537/3996 [41:22<4:14:10,  4.41s/it] 13%|███████████████▏                                                                                                 | 538/3996 [41:26<4:10:54,  4.35s/it] 13%|███████████████▏                                                                                                 | 539/3996 [41:31<4:08:30,  4.31s/it] 14%|███████████████▎                                                                                                 | 540/3996 [41:36<4:29:44,  4.68s/it] 14%|███████████████▎                                                                                                 | 541/3996 [41:40<4:21:39,  4.54s/it] 14%|███████████████▎                                                                                                 | 542/3996 [41:44<4:15:39,  4.44s/it] 14%|███████████████▎                                                                                                 | 543/3996 [41:49<4:11:43,  4.37s/it] 14%|███████████████▍                                                                                                 | 544/3996 [41:53<4:18:20,  4.49s/it] 14%|███████████████▍                                                                                                 | 545/3996 [41:58<4:13:28,  4.41s/it] 14%|███████████████▍                                                                                                 | 546/3996 [42:02<4:14:11,  4.42s/it] 14%|███████████████▍                                                                                                 | 547/3996 [42:06<4:10:48,  4.36s/it] 14%|███████████████▍                                                                                                 | 548/3996 [42:11<4:08:39,  4.33s/it] 14%|███████████████▌                                                                                                 | 549/3996 [42:15<4:06:30,  4.29s/it] 14%|███████████████▌                                                                                                 | 550/3996 [42:19<4:05:05,  4.27s/it]                                                                                                                                                           {'loss': 0.5791, 'grad_norm': 0.2064146101474762, 'learning_rate': 0.00019351701224936383, 'ppl': 1.7844, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4250.37, 'total_tokens': 11155384, 'epoch': 0.41}
+ 14%|███████████████▌                                                                                                 | 550/3996 [42:19<4:05:05,  4.27s/it] 14%|███████████████▌                                                                                                 | 551/3996 [42:24<4:13:53,  4.42s/it] 14%|███████████████▌                                                                                                 | 552/3996 [42:28<4:10:22,  4.36s/it] 14%|███████████████▋                                                                                                 | 553/3996 [42:32<4:07:34,  4.31s/it] 14%|███████████████▋                                                                                                 | 554/3996 [42:36<4:05:48,  4.28s/it] 14%|███████████████▋                                                                                                 | 555/3996 [42:41<4:04:36,  4.27s/it] 14%|███████████████▋                                                                                                 | 556/3996 [42:45<4:03:37,  4.25s/it] 14%|███████████████▊                                                                                                 | 557/3996 [42:49<4:02:36,  4.23s/it] 14%|███████████████▊                                                                                                 | 558/3996 [42:54<4:11:11,  4.38s/it] 14%|███████████████▊                                                                                                 | 559/3996 [42:58<4:07:59,  4.33s/it] 14%|███████████████▊                                                                                                 | 560/3996 [43:02<4:05:36,  4.29s/it] 14%|███████████████▊                                                                                                 | 561/3996 [43:06<4:03:42,  4.26s/it] 14%|███████████████▉                                                                                                 | 562/3996 [43:11<4:02:48,  4.24s/it] 14%|███████████████▉                                                                                                 | 563/3996 [43:15<4:01:52,  4.23s/it] 14%|███████████████▉                                                                                                 | 564/3996 [43:19<4:01:13,  4.22s/it] 14%|███████████████▉                                                                                                 | 565/3996 [43:24<4:10:09,  4.37s/it] 14%|████████████████                                                                                                 | 566/3996 [43:28<4:07:11,  4.32s/it] 14%|████████████████                                                                                                 | 567/3996 [43:32<4:05:01,  4.29s/it] 14%|████████████████                                                                                                 | 568/3996 [43:37<4:10:15,  4.38s/it] 14%|████████████████                                                                                                 | 569/3996 [43:41<4:07:06,  4.33s/it] 14%|████████████████                                                                                                 | 570/3996 [43:45<4:04:50,  4.29s/it] 14%|████████████████▏                                                                                                | 571/3996 [43:49<4:03:21,  4.26s/it] 14%|████████████████▏                                                                                                | 572/3996 [43:54<4:11:25,  4.41s/it] 14%|████████████████▏                                                                                                | 573/3996 [43:58<4:08:08,  4.35s/it] 14%|████████████████▏                                                                                                | 574/3996 [44:02<4:05:50,  4.31s/it] 14%|████████████████▎                                                                                                | 575/3996 [44:07<4:03:46,  4.28s/it]                                                                                                                                                           {'loss': 0.5758, 'grad_norm': 0.26748332381248474, 'learning_rate': 0.0001927840264028995, 'ppl': 1.7786, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4256.55, 'total_tokens': 11601192, 'epoch': 0.43}
+ 14%|████████████████▎                                                                                                | 575/3996 [44:07<4:03:46,  4.28s/it] 14%|████████████████▎                                                                                                | 576/3996 [44:11<4:02:51,  4.26s/it] 14%|████████████████▎                                                                                                | 577/3996 [44:15<4:01:37,  4.24s/it] 14%|████████████████▎                                                                                                | 578/3996 [44:19<4:00:59,  4.23s/it] 14%|████████████████▎                                                                                                | 579/3996 [44:24<4:09:44,  4.39s/it] 15%|████████████████▍                                                                                                | 580/3996 [44:28<4:06:46,  4.33s/it] 15%|████████████████▍                                                                                                | 581/3996 [44:32<4:04:45,  4.30s/it] 15%|████████████████▍                                                                                                | 582/3996 [44:37<4:02:37,  4.26s/it] 15%|████████████████▍                                                                                                | 583/3996 [44:41<4:01:42,  4.25s/it] 15%|████████████████▌                                                                                                | 584/3996 [44:45<4:00:59,  4.24s/it] 15%|████████████████▌                                                                                                | 585/3996 [44:49<4:00:32,  4.23s/it] 15%|████████████████▌                                                                                                | 586/3996 [44:54<4:08:59,  4.38s/it] 15%|████████████████▌                                                                                                | 587/3996 [44:58<4:05:54,  4.33s/it] 15%|████████████████▋                                                                                                | 588/3996 [45:02<4:03:29,  4.29s/it] 15%|████████████████▋                                                                                                | 589/3996 [45:07<4:01:48,  4.26s/it] 15%|████████████████▋                                                                                                | 590/3996 [45:11<4:00:56,  4.24s/it] 15%|████████████████▋                                                                                                | 591/3996 [45:15<3:59:55,  4.23s/it] 15%|████████████████▋                                                                                                | 592/3996 [45:19<3:59:29,  4.22s/it] 15%|████████████████▊                                                                                                | 593/3996 [45:24<4:09:23,  4.40s/it] 15%|████████████████▊                                                                                                | 594/3996 [45:28<4:06:22,  4.35s/it] 15%|████████████████▊                                                                                                | 595/3996 [45:32<4:03:40,  4.30s/it] 15%|████████████████▊                                                                                                | 596/3996 [45:37<4:01:42,  4.27s/it] 15%|████████████████▉                                                                                                | 597/3996 [45:41<4:00:32,  4.25s/it] 15%|████████████████▉                                                                                                | 598/3996 [45:45<4:00:01,  4.24s/it] 15%|████████████████▉                                                                                                | 599/3996 [45:49<3:59:27,  4.23s/it] 15%|████████████████▉                                                                                                | 600/3996 [45:54<4:08:09,  4.38s/it]                                                                                                                                                           {'loss': 0.5791, 'grad_norm': 0.17514832317829132, 'learning_rate': 0.00019201333543242036, 'ppl': 1.7844, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3770.83, 'total_tokens': 12048477, 'epoch': 0.45}
+ 15%|████████████████▉                                                                                                | 600/3996 [45:54<4:08:09,  4.38s/it] 15%|████████████████▉                                                                                                | 601/3996 [45:58<4:05:17,  4.34s/it] 15%|█████████████████                                                                                                | 602/3996 [46:02<4:03:25,  4.30s/it] 15%|█████████████████                                                                                                | 603/3996 [46:07<4:01:47,  4.28s/it] 15%|█████████████████                                                                                                | 604/3996 [46:11<4:00:28,  4.25s/it] 15%|█████████████████                                                                                                | 605/3996 [46:15<3:59:51,  4.24s/it] 15%|█████████████████▏                                                                                               | 606/3996 [46:19<4:00:04,  4.25s/it] 15%|█████████████████▏                                                                                               | 607/3996 [46:24<4:08:43,  4.40s/it] 15%|█████████████████▏                                                                                               | 608/3996 [46:28<4:05:26,  4.35s/it] 15%|█████████████████▏                                                                                               | 609/3996 [46:33<4:02:52,  4.30s/it] 15%|█████████████████▏                                                                                               | 610/3996 [46:37<4:00:50,  4.27s/it] 15%|█████████████████▎                                                                                               | 611/3996 [46:41<3:59:50,  4.25s/it] 15%|█████████████████▎                                                                                               | 612/3996 [46:45<3:58:52,  4.24s/it] 15%|█████████████████▎                                                                                               | 613/3996 [46:49<3:58:22,  4.23s/it] 15%|█████████████████▎                                                                                               | 614/3996 [46:54<4:07:22,  4.39s/it] 15%|█████████████████▍                                                                                               | 615/3996 [46:58<4:04:16,  4.33s/it] 15%|█████████████████▍                                                                                               | 616/3996 [47:03<4:03:15,  4.32s/it] 15%|█████████████████▍                                                                                               | 617/3996 [47:07<4:01:02,  4.28s/it] 15%|█████████████████▍                                                                                               | 618/3996 [47:11<3:59:40,  4.26s/it] 15%|█████████████████▌                                                                                               | 619/3996 [47:15<3:58:45,  4.24s/it] 16%|█████████████████▌                                                                                               | 620/3996 [47:19<3:58:18,  4.24s/it] 16%|█████████████████▌                                                                                               | 621/3996 [47:24<4:07:16,  4.40s/it] 16%|█████████████████▌                                                                                               | 622/3996 [47:28<4:04:00,  4.34s/it] 16%|█████████████████▌                                                                                               | 623/3996 [47:33<4:01:24,  4.29s/it] 16%|█████████████████▋                                                                                               | 624/3996 [47:37<3:59:35,  4.26s/it] 16%|█████████████████▋                                                                                               | 625/3996 [47:41<3:58:36,  4.25s/it]                                                                                                                                                           {'loss': 0.5803, 'grad_norm': 0.22069169580936432, 'learning_rate': 0.00019120525252759647, 'ppl': 1.7866, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4179.31, 'total_tokens': 12488141, 'epoch': 0.47}
+ 16%|█████████████████▋                                                                                               | 625/3996 [47:41<3:58:36,  4.25s/it] 16%|█████████████████▋                                                                                               | 626/3996 [47:45<3:57:46,  4.23s/it] 16%|█████████████████▋                                                                                               | 627/3996 [47:49<3:57:40,  4.23s/it] 16%|█████████████████▊                                                                                               | 628/3996 [47:54<4:06:34,  4.39s/it] 16%|█████████████████▊                                                                                               | 629/3996 [47:58<4:03:30,  4.34s/it] 16%|█████████████████▊                                                                                               | 630/3996 [48:03<4:01:03,  4.30s/it] 16%|█████████████████▊                                                                                               | 631/3996 [48:07<3:59:28,  4.27s/it] 16%|█████████████████▊                                                                                               | 632/3996 [48:11<3:58:44,  4.26s/it] 16%|█████████████████▉                                                                                               | 633/3996 [48:15<3:58:08,  4.25s/it] 16%|█████████████████▉                                                                                               | 634/3996 [48:20<3:57:44,  4.24s/it] 16%|█████████████████▉                                                                                               | 635/3996 [48:24<4:06:20,  4.40s/it] 16%|█████████████████▉                                                                                               | 636/3996 [48:28<4:03:30,  4.35s/it] 16%|██████████████████                                                                                               | 637/3996 [48:33<4:01:15,  4.31s/it] 16%|██████████████████                                                                                               | 638/3996 [48:37<3:59:35,  4.28s/it] 16%|██████████████████                                                                                               | 639/3996 [48:41<3:59:19,  4.28s/it] 16%|██████████████████                                                                                               | 640/3996 [48:45<3:58:28,  4.26s/it] 16%|██████████████████▏                                                                                              | 641/3996 [48:50<3:57:44,  4.25s/it] 16%|██████████████████▏                                                                                              | 642/3996 [48:54<4:06:33,  4.41s/it] 16%|██████████████████▏                                                                                              | 643/3996 [48:59<4:03:31,  4.36s/it] 16%|██████████████████▏                                                                                              | 644/3996 [49:03<4:01:15,  4.32s/it] 16%|██████████████████▏                                                                                              | 645/3996 [49:07<3:59:27,  4.29s/it] 16%|██████████████████▎                                                                                              | 646/3996 [49:11<3:58:19,  4.27s/it] 16%|██████████████████▎                                                                                              | 647/3996 [49:16<3:57:38,  4.26s/it] 16%|██████████████████▎                                                                                              | 648/3996 [49:20<3:57:02,  4.25s/it] 16%|██████████████████▎                                                                                              | 649/3996 [49:25<4:05:33,  4.40s/it] 16%|██████████████████▍                                                                                              | 650/3996 [49:29<4:02:47,  4.35s/it]                                                                                                                                                           {'loss': 0.5716, 'grad_norm': 0.20555566251277924, 'learning_rate': 0.00019036010607325138, 'ppl': 1.7711, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4209.96, 'total_tokens': 12934358, 'epoch': 0.49}
+ 16%|██████████████████▍                                                                                              | 650/3996 [49:29<4:02:47,  4.35s/it] 16%|██████████████████▍                                                                                              | 651/3996 [49:33<4:00:31,  4.31s/it] 16%|██████████████████▍                                                                                              | 652/3996 [49:37<3:58:50,  4.29s/it] 16%|██████████████████▍                                                                                              | 653/3996 [49:41<3:57:37,  4.27s/it] 16%|██████████████████▍                                                                                              | 654/3996 [49:46<3:56:55,  4.25s/it] 16%|██████████████████▌                                                                                              | 655/3996 [49:50<3:56:22,  4.24s/it] 16%|██████████████████▌                                                                                              | 656/3996 [49:55<4:04:59,  4.40s/it] 16%|██████████████████▌                                                                                              | 657/3996 [49:59<4:01:56,  4.35s/it] 16%|██████████████████▌                                                                                              | 658/3996 [50:03<4:02:00,  4.35s/it] 16%|██████████████████▋                                                                                              | 659/3996 [50:07<3:59:34,  4.31s/it] 17%|██████████████████▋                                                                                              | 660/3996 [50:12<3:58:03,  4.28s/it] 17%|██████████████████▋                                                                                              | 661/3996 [50:16<3:56:52,  4.26s/it] 17%|██████████████████▋                                                                                              | 662/3996 [50:20<3:56:02,  4.25s/it] 17%|██████████████████▋                                                                                              | 663/3996 [50:25<4:04:30,  4.40s/it] 17%|██████████████████▊                                                                                              | 664/3996 [50:29<4:01:27,  4.35s/it] 17%|██████████████████▊                                                                                              | 665/3996 [50:33<3:58:53,  4.30s/it] 17%|██████████████████▊                                                                                              | 666/3996 [50:37<3:56:47,  4.27s/it] 17%|██████████████████▊                                                                                              | 667/3996 [50:42<3:55:45,  4.25s/it] 17%|██████████████████▉                                                                                              | 668/3996 [50:46<3:55:01,  4.24s/it] 17%|██████████████████▉                                                                                              | 669/3996 [50:50<3:54:46,  4.23s/it] 17%|██████████████████▉                                                                                              | 670/3996 [50:55<4:03:17,  4.39s/it] 17%|██████████████████▉                                                                                              | 671/3996 [50:59<3:59:49,  4.33s/it] 17%|███████████████████                                                                                              | 672/3996 [51:03<3:57:46,  4.29s/it] 17%|███████████████████                                                                                              | 673/3996 [51:07<3:56:06,  4.26s/it] 17%|███████████████████                                                                                              | 674/3996 [51:12<3:55:10,  4.25s/it] 17%|███████████████████                                                                                              | 675/3996 [51:16<3:54:28,  4.24s/it]                                                                                                                                                           {'loss': 0.5608, 'grad_norm': 0.19018156826496124, 'learning_rate': 0.00018947823951591478, 'ppl': 1.7521, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4226.4, 'total_tokens': 13378983, 'epoch': 0.51}
+ 17%|███████████████████                                                                                              | 675/3996 [51:16<3:54:28,  4.24s/it] 17%|███████████████████                                                                                              | 676/3996 [51:20<3:54:05,  4.23s/it] 17%|███████████████████▏                                                                                             | 677/3996 [51:25<4:04:31,  4.42s/it] 17%|███████████████████▏                                                                                             | 678/3996 [51:29<4:01:10,  4.36s/it] 17%|███████████████████▏                                                                                             | 679/3996 [51:33<3:58:47,  4.32s/it] 17%|███████████████████▏                                                                                             | 680/3996 [51:38<3:56:53,  4.29s/it] 17%|███████████████████▎                                                                                             | 681/3996 [51:42<3:55:46,  4.27s/it] 17%|███████████████████▎                                                                                             | 682/3996 [51:46<3:54:52,  4.25s/it] 17%|███████████████████▎                                                                                             | 683/3996 [51:50<3:54:41,  4.25s/it] 17%|███████████████████▎                                                                                             | 684/3996 [51:55<4:02:53,  4.40s/it] 17%|███████████████████▎                                                                                             | 685/3996 [51:59<3:59:35,  4.34s/it] 17%|███████████████████▍                                                                                             | 686/3996 [52:03<3:57:36,  4.31s/it] 17%|███████████████████▍                                                                                             | 687/3996 [52:08<3:56:01,  4.28s/it] 17%|███████████████████▍                                                                                             | 688/3996 [52:12<3:55:07,  4.26s/it] 17%|███████████████████▍                                                                                             | 689/3996 [52:16<3:54:26,  4.25s/it] 17%|███████████████████▌                                                                                             | 690/3996 [52:20<3:53:41,  4.24s/it] 17%|███████████████████▌                                                                                             | 691/3996 [52:25<4:02:20,  4.40s/it] 17%|███████████████████▌                                                                                             | 692/3996 [52:29<3:59:38,  4.35s/it] 17%|███████████████████▌                                                                                             | 693/3996 [52:34<3:57:26,  4.31s/it] 17%|███████████████████▋                                                                                             | 694/3996 [52:38<3:56:26,  4.30s/it] 17%|███████████████████▋                                                                                             | 695/3996 [52:42<3:55:26,  4.28s/it] 17%|███████████████████▋                                                                                             | 696/3996 [52:46<3:54:43,  4.27s/it] 17%|███████████████████▋                                                                                             | 697/3996 [52:51<3:54:16,  4.26s/it] 17%|███████████████████▋                                                                                             | 698/3996 [52:55<4:02:35,  4.41s/it] 17%|███████████████████▊                                                                                             | 699/3996 [53:00<3:59:42,  4.36s/it] 18%|███████████████████▊                                                                                             | 700/3996 [53:04<3:57:23,  4.32s/it]                                                                                                                                                           {'loss': 0.5667, 'grad_norm': 0.17173859477043152, 'learning_rate': 0.00018856001122425416, 'ppl': 1.7624, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4265.57, 'total_tokens': 13829519, 'epoch': 0.53}
+ 18%|███████████████████▊                                                                                             | 700/3996 [53:04<3:57:23,  4.32s/it] 18%|███████████████████▊                                                                                             | 701/3996 [53:08<3:55:37,  4.29s/it] 18%|███████████████████▊                                                                                             | 702/3996 [53:12<3:54:55,  4.28s/it] 18%|███████████████████▉                                                                                             | 703/3996 [53:17<3:54:02,  4.26s/it] 18%|███████████████████▉                                                                                             | 704/3996 [53:21<3:53:24,  4.25s/it] 18%|███████████████████▉                                                                                             | 705/3996 [53:26<4:01:46,  4.41s/it] 18%|███████████████████▉                                                                                             | 706/3996 [53:30<3:58:52,  4.36s/it] 18%|███████████████████▉                                                                                             | 707/3996 [53:34<3:56:16,  4.31s/it] 18%|████████████████████                                                                                             | 708/3996 [53:38<3:54:44,  4.28s/it] 18%|████████████████████                                                                                             | 709/3996 [53:42<3:53:34,  4.26s/it] 18%|████████████████████                                                                                             | 710/3996 [53:47<3:52:49,  4.25s/it] 18%|████████████████████                                                                                             | 711/3996 [53:51<3:52:28,  4.25s/it] 18%|████████████████████▏                                                                                            | 712/3996 [53:56<4:00:53,  4.40s/it] 18%|████████████████████▏                                                                                            | 713/3996 [54:00<3:57:51,  4.35s/it] 18%|████████████████████▏                                                                                            | 714/3996 [54:04<3:55:46,  4.31s/it] 18%|████████████████████▏                                                                                            | 715/3996 [54:08<3:54:13,  4.28s/it] 18%|████████████████████▏                                                                                            | 716/3996 [54:13<3:53:25,  4.27s/it] 18%|████████████████████▎                                                                                            | 717/3996 [54:17<3:52:29,  4.25s/it] 18%|████████████████████▎                                                                                            | 718/3996 [54:21<3:51:54,  4.24s/it] 18%|████████████████████▎                                                                                            | 719/3996 [54:26<4:00:52,  4.41s/it] 18%|████████████████████▎                                                                                            | 720/3996 [54:30<3:58:01,  4.36s/it] 18%|████████████████████▍                                                                                            | 721/3996 [54:34<3:55:40,  4.32s/it] 18%|████████████████████▍                                                                                            | 722/3996 [54:38<3:53:52,  4.29s/it] 18%|████████████████████▍                                                                                            | 723/3996 [54:43<3:52:45,  4.27s/it] 18%|████████████████████▍                                                                                            | 724/3996 [54:47<3:51:59,  4.25s/it] 18%|████████████████████▌                                                                                            | 725/3996 [54:51<3:51:28,  4.25s/it]                                                                                                                                                           {'loss': 0.565, 'grad_norm': 0.17706550657749176, 'learning_rate': 0.0001876057943434428, 'ppl': 1.7594, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4281.61, 'total_tokens': 14281879, 'epoch': 0.54}
+ 18%|████████████████████▌                                                                                            | 725/3996 [54:51<3:51:28,  4.25s/it] 18%|████████████████████▌                                                                                            | 726/3996 [54:56<3:59:55,  4.40s/it] 18%|████████████████████▌                                                                                            | 727/3996 [55:00<3:56:38,  4.34s/it] 18%|████████████████████▌                                                                                            | 728/3996 [55:04<3:54:39,  4.31s/it] 18%|████████████████████▌                                                                                            | 729/3996 [55:09<3:53:07,  4.28s/it] 18%|████████████████████▋                                                                                            | 730/3996 [55:13<3:52:17,  4.27s/it] 18%|████████████████████▋                                                                                            | 731/3996 [55:17<3:51:22,  4.25s/it] 18%|████████████████████▋                                                                                            | 732/3996 [55:21<3:50:37,  4.24s/it] 18%|████████████████████▋                                                                                            | 733/3996 [55:26<3:59:10,  4.40s/it] 18%|████████████████████▊                                                                                            | 734/3996 [55:30<3:56:34,  4.35s/it] 18%|████████████████████▊                                                                                            | 735/3996 [55:34<3:54:23,  4.31s/it] 18%|████████████████████▊                                                                                            | 736/3996 [55:39<3:52:28,  4.28s/it] 18%|████████████████████▊                                                                                            | 737/3996 [55:43<3:51:26,  4.26s/it] 18%|████████████████████▊                                                                                            | 738/3996 [55:47<3:50:33,  4.25s/it] 18%|████████████████████▉                                                                                            | 739/3996 [55:51<3:50:03,  4.24s/it] 19%|████████████████████▉                                                                                            | 740/3996 [55:56<3:58:28,  4.39s/it] 19%|████████████████████▉                                                                                            | 741/3996 [56:00<3:55:26,  4.34s/it] 19%|████████████████████▉                                                                                            | 742/3996 [56:04<3:53:27,  4.30s/it] 19%|█████████████████████                                                                                            | 743/3996 [56:09<3:51:56,  4.28s/it] 19%|████████████████���████                                                                                            | 744/3996 [56:13<3:50:59,  4.26s/it] 19%|█████████████████████                                                                                            | 745/3996 [56:17<3:49:56,  4.24s/it] 19%|█████████████████████                                                                                            | 746/3996 [56:21<3:49:14,  4.23s/it] 19%|█████████████████████                                                                                            | 747/3996 [56:26<3:57:52,  4.39s/it] 19%|█████████████████████▏                                                                                           | 748/3996 [56:30<3:54:56,  4.34s/it] 19%|█████████████████████▏                                                                                           | 749/3996 [56:34<3:52:42,  4.30s/it] 19%|█████████████████████▏                                                                                           | 750/3996 [56:39<3:51:01,  4.27s/it]                                                                                                                                                           {'loss': 0.5666, 'grad_norm': 0.18528586626052856, 'learning_rate': 0.00018661597664352284, 'ppl': 1.7623, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4229.32, 'total_tokens': 14725919, 'epoch': 0.56}
+ 19%|█████████████████████▏                                                                                           | 750/3996 [56:39<3:51:01,  4.27s/it] 19%|█████████████████████▏                                                                                           | 751/3996 [56:43<3:50:03,  4.25s/it] 19%|█████████████████████▎                                                                                           | 752/3996 [56:47<3:49:03,  4.24s/it] 19%|█████████████████████▎                                                                                           | 753/3996 [56:51<3:48:48,  4.23s/it] 19%|█████████████████████▎                                                                                           | 754/3996 [56:56<3:57:12,  4.39s/it] 19%|█████████████████████▎                                                                                           | 755/3996 [57:00<3:54:12,  4.34s/it] 19%|█████████████████████▍                                                                                           | 756/3996 [57:04<3:51:54,  4.29s/it] 19%|█████████████████████▍                                                                                           | 757/3996 [57:09<3:50:24,  4.27s/it] 19%|█████████████████████▍                                                                                           | 758/3996 [57:13<3:49:31,  4.25s/it] 19%|█████████████████████▍                                                                                           | 759/3996 [57:17<3:48:45,  4.24s/it] 19%|█████████████████████▍                                                                                           | 760/3996 [57:21<3:48:18,  4.23s/it] 19%|█████████████████████▌                                                                                           | 761/3996 [57:26<3:56:36,  4.39s/it] 19%|█████████████████████▌                                                                                           | 762/3996 [57:30<3:53:55,  4.34s/it] 19%|█████████████████████▌                                                                                           | 763/3996 [57:35<3:51:37,  4.30s/it] 19%|█████████████████████▌                                                                                           | 764/3996 [57:39<3:50:06,  4.27s/it] 19%|█████████████████████▋                                                                                           | 765/3996 [57:43<3:48:53,  4.25s/it] 19%|█████████████████████▋                                                                                           | 766/3996 [57:47<3:48:07,  4.24s/it] 19%|█████████████████████▋                                                                                           | 767/3996 [57:51<3:47:41,  4.23s/it] 19%|█████████████████████▋                                                                                           | 768/3996 [57:56<3:56:01,  4.39s/it] 19%|█████████████████████▋                                                                                           | 769/3996 [58:00<3:52:56,  4.33s/it] 19%|█████████████████████▊                                                                                           | 770/3996 [58:05<3:50:50,  4.29s/it] 19%|█████████████████████▊                                                                                           | 771/3996 [58:09<3:49:21,  4.27s/it] 19%|█████████████████████▊                                                                                           | 772/3996 [58:13<3:48:27,  4.25s/it] 19%|█████████████████████▊                                                                                           | 773/3996 [58:17<3:47:49,  4.24s/it] 19%|█████████████████████▉                                                                                           | 774/3996 [58:21<3:47:25,  4.23s/it] 19%|█████████████████████▉                                                                                           | 775/3996 [58:26<3:55:48,  4.39s/it]                                                                                                                                                           {'loss': 0.5633, 'grad_norm': 0.16790929436683655, 'learning_rate': 0.00018559096036182516, 'ppl': 1.7565, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3775.0, 'total_tokens': 15175146, 'epoch': 0.58}
+ 19%|█████████████████████▉                                                                                           | 775/3996 [58:26<3:55:48,  4.39s/it] 19%|█████████████████████▉                                                                                           | 776/3996 [58:30<3:53:02,  4.34s/it] 19%|█████████████████████▉                                                                                           | 777/3996 [58:35<3:50:49,  4.30s/it] 19%|██████████████████████                                                                                           | 778/3996 [58:39<3:49:08,  4.27s/it] 19%|██████████████████████                                                                                           | 779/3996 [58:43<3:47:58,  4.25s/it] 20%|██████████████████████                                                                                           | 780/3996 [58:47<3:48:19,  4.26s/it] 20%|██████████████████████                                                                                           | 781/3996 [58:51<3:47:36,  4.25s/it] 20%|██████████████████████                                                                                           | 782/3996 [58:56<3:55:25,  4.39s/it] 20%|██████████████████████▏                                                                                          | 783/3996 [59:00<3:52:25,  4.34s/it] 20%|██████████████████████▏                                                                                          | 784/3996 [59:05<3:50:20,  4.30s/it] 20%|██████████████████████▏                                                                                          | 785/3996 [59:09<3:48:59,  4.28s/it] 20%|██████████████████████▏                                                                                          | 786/3996 [59:13<3:48:12,  4.27s/it] 20%|██████████████████████▎                                                                                          | 787/3996 [59:17<3:47:08,  4.25s/it] 20%|██████████████████████▎                                                                                          | 788/3996 [59:22<3:46:35,  4.24s/it] 20%|██████████████████████▎                                                                                          | 789/3996 [59:26<3:54:49,  4.39s/it] 20%|██████████████████████▎                                                                                          | 790/3996 [59:31<3:52:06,  4.34s/it] 20%|██████████████████████▎                                                                                          | 791/3996 [59:35<3:50:11,  4.31s/it] 20%|██████████████████████▍                                                                                          | 792/3996 [59:39<3:48:34,  4.28s/it] 20%|██████████████████████▍                                                                                          | 793/3996 [59:43<3:47:20,  4.26s/it] 20%|██████████████████████▍                                                                                          | 794/3996 [59:47<3:46:34,  4.25s/it] 20%|██████████████████████▍                                                                                          | 795/3996 [59:52<3:46:10,  4.24s/it] 20%|██████████████████████▌                                                                                          | 796/3996 [59:56<3:54:22,  4.39s/it] 20%|██████████████████████▏                                                                                        | 797/3996 [1:00:01<3:51:21,  4.34s/it] 20%|██████████████████████▏                                                                                        | 798/3996 [1:00:05<3:49:22,  4.30s/it] 20%|██████████████████████▏                                                                                        | 799/3996 [1:00:09<3:47:55,  4.28s/it] 20%|██████████████████████▏                                                                                        | 800/3996 [1:00:13<3:46:54,  4.26s/it]                                                                                                                                                           {'loss': 0.5664, 'grad_norm': 0.17511805891990662, 'learning_rate': 0.00018453116203951005, 'ppl': 1.7619, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4218.07, 'total_tokens': 15619901, 'epoch': 0.6}
+ 20%|██████████████████████▏                                                                                        | 800/3996 [1:00:13<3:46:54,  4.26s/it] 20%|██████████████████████▎                                                                                        | 801/3996 [1:00:17<3:46:00,  4.24s/it] 20%|██████████████████████▎                                                                                        | 802/3996 [1:00:22<3:45:21,  4.23s/it] 20%|██████████████████████▎                                                                                        | 803/3996 [1:00:26<3:53:37,  4.39s/it] 20%|██████████████████████▎                                                                                        | 804/3996 [1:00:31<3:51:07,  4.34s/it] 20%|██████████████████████▎                                                                                        | 805/3996 [1:00:35<3:49:09,  4.31s/it] 20%|██████████████████████▍                                                                                        | 806/3996 [1:00:39<3:47:38,  4.28s/it] 20%|██████████████████████▍                                                                                        | 807/3996 [1:00:43<3:46:32,  4.26s/it] 20%|██████████████████████▍                                                                                        | 808/3996 [1:00:48<3:45:56,  4.25s/it] 20%|██████████████████████▍                                                                                        | 809/3996 [1:00:52<3:45:14,  4.24s/it] 20%|██████████████████████▌                                                                                        | 810/3996 [1:00:56<3:53:25,  4.40s/it] 20%|██████████████████████▌                                                                                        | 811/3996 [1:01:01<3:50:06,  4.33s/it] 20%|██████████████████████▌                                                                                        | 812/3996 [1:01:05<3:48:11,  4.30s/it] 20%|██████████████████████▌                                                                                        | 813/3996 [1:01:09<3:46:46,  4.27s/it] 20%|██████████████████████▌                                                                                        | 814/3996 [1:01:13<3:45:57,  4.26s/it] 20%|██████████████████████▋                                                                                        | 815/3996 [1:01:18<3:45:15,  4.25s/it] 20%|██████████████████████▋                                                                                        | 816/3996 [1:01:22<3:44:37,  4.24s/it] 20%|██████████████████████▋                                                                                        | 817/3996 [1:01:27<3:52:45,  4.39s/it] 20%|██████████████████████▋                                                                                        | 818/3996 [1:01:31<3:49:55,  4.34s/it] 20%|██████████████████████▊                                                                                        | 819/3996 [1:01:35<3:47:46,  4.30s/it] 21%|██████████████████████▊                                                                                        | 820/3996 [1:01:39<3:46:14,  4.27s/it] 21%|██████████████████████▊                                                                                        | 821/3996 [1:01:43<3:45:05,  4.25s/it] 21%|██████████████████████▊                                                                                        | 822/3996 [1:01:48<3:44:27,  4.24s/it] 21%|██████████████████████▊                                                                                        | 823/3996 [1:01:52<3:44:00,  4.24s/it] 21%|██████████████████████▉                                                                                        | 824/3996 [1:01:57<3:52:08,  4.39s/it] 21%|██████████████████████▉                                                                                        | 825/3996 [1:02:01<3:49:20,  4.34s/it]                                                                                                                                                           {'loss': 0.5646, 'grad_norm': 0.19853387773036957, 'learning_rate': 0.0001834370123522954, 'ppl': 1.7587, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4230.84, 'total_tokens': 16066102, 'epoch': 0.62}
+ 21%|██████████████████████▉                                                                                        | 825/3996 [1:02:01<3:49:20,  4.34s/it] 21%|██████████████████████▉                                                                                        | 826/3996 [1:02:05<3:47:07,  4.30s/it] 21%|██████████████████████▉                                                                                        | 827/3996 [1:02:09<3:45:30,  4.27s/it] 21%|███████████████████████                                                                                        | 828/3996 [1:02:13<3:44:26,  4.25s/it] 21%|███████████████████████                                                                                        | 829/3996 [1:02:18<3:43:43,  4.24s/it] 21%|███████████████████████                                                                                        | 830/3996 [1:02:22<3:43:04,  4.23s/it] 21%|███████████████████████                                                                                        | 831/3996 [1:02:27<3:51:08,  4.38s/it] 21%|███████████████████████                                                                                        | 832/3996 [1:02:31<3:48:39,  4.34s/it] 21%|█████���█████████████████▏                                                                                       | 833/3996 [1:02:35<3:46:31,  4.30s/it] 21%|███████████████████████▏                                                                                       | 834/3996 [1:02:39<3:45:08,  4.27s/it] 21%|███████████████████████▏                                                                                       | 835/3996 [1:02:43<3:44:06,  4.25s/it] 21%|███████████████████████▏                                                                                       | 836/3996 [1:02:48<3:43:34,  4.25s/it] 21%|███████████████████████▎                                                                                       | 837/3996 [1:02:52<3:42:50,  4.23s/it] 21%|███████████████████████▎                                                                                       | 838/3996 [1:02:57<3:52:24,  4.42s/it] 21%|███████████████████████▎                                                                                       | 839/3996 [1:03:01<3:49:08,  4.35s/it] 21%|███████████████████████▎                                                                                       | 840/3996 [1:03:05<3:46:50,  4.31s/it] 21%|███████████████████████▎                                                                                       | 841/3996 [1:03:09<3:45:08,  4.28s/it] 21%|███████████████████████▍                                                                                       | 842/3996 [1:03:14<3:44:08,  4.26s/it] 21%|███████████████████████▍                                                                                       | 843/3996 [1:03:18<3:43:14,  4.25s/it] 21%|███████████████████████▍                                                                                       | 844/3996 [1:03:22<3:42:25,  4.23s/it] 21%|███████████████████████▍                                                                                       | 845/3996 [1:03:27<3:50:14,  4.38s/it] 21%|███████████████████████▌                                                                                       | 846/3996 [1:03:31<3:47:36,  4.34s/it] 21%|███████████████████████▌                                                                                       | 847/3996 [1:03:35<3:45:31,  4.30s/it] 21%|███████████████████████▌                                                                                       | 848/3996 [1:03:39<3:44:06,  4.27s/it] 21%|███████████████████████▌                                                                                       | 849/3996 [1:03:44<3:43:06,  4.25s/it] 21%|███████████████████████▌                                                                                       | 850/3996 [1:03:48<3:42:23,  4.24s/it]                                                                                                                                                           {'loss': 0.552, 'grad_norm': 0.18872258067131042, 'learning_rate': 0.00018230895593544056, 'ppl': 1.7367, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4222.33, 'total_tokens': 16510696, 'epoch': 0.64}
+ 21%|███████████████████████▌                                                                                       | 850/3996 [1:03:48<3:42:23,  4.24s/it] 21%|███████████████████████▋                                                                                       | 851/3996 [1:03:52<3:42:04,  4.24s/it] 21%|███████████████████████▋                                                                                       | 852/3996 [1:03:57<3:50:08,  4.39s/it] 21%|███████████████████████▋                                                                                       | 853/3996 [1:04:01<3:47:16,  4.34s/it] 21%|███████████████████████▋                                                                                       | 854/3996 [1:04:05<3:45:08,  4.30s/it] 21%|███████████████████████▊                                                                                       | 855/3996 [1:04:09<3:43:31,  4.27s/it] 21%|███████████████████████▊                                                                                       | 856/3996 [1:04:14<3:42:37,  4.25s/it] 21%|███████████████████████▊                                                                                       | 857/3996 [1:04:18<3:41:53,  4.24s/it] 21%|███████████████████████▊                                                                                       | 858/3996 [1:04:22<3:41:19,  4.23s/it] 21%|███████████████████████▊                                                                                       | 859/3996 [1:04:27<3:49:29,  4.39s/it] 22%|███████████████████████▉                                                                                       | 860/3996 [1:04:31<3:46:38,  4.34s/it] 22%|███████████████████████▉                                                                                       | 861/3996 [1:04:35<3:44:39,  4.30s/it] 22%|███████████████████████▉                                                                                       | 862/3996 [1:04:39<3:43:14,  4.27s/it] 22%|███████████████████████▉                                                                                       | 863/3996 [1:04:44<3:42:18,  4.26s/it] 22%|████████████████████████                                                                                       | 864/3996 [1:04:48<3:41:24,  4.24s/it] 22%|████████████████████████                                                                                       | 865/3996 [1:04:52<3:41:06,  4.24s/it] 22%|████████████████████████                                                                                       | 866/3996 [1:04:57<3:48:57,  4.39s/it] 22%|████████████████████████                                                                                       | 867/3996 [1:05:01<3:46:20,  4.34s/it] 22%|████████████████████████                                                                                       | 868/3996 [1:05:05<3:44:29,  4.31s/it] 22%|████████████████████████▏                                                                                      | 869/3996 [1:05:09<3:42:54,  4.28s/it] 22%|████████████████████████▏                                                                                      | 870/3996 [1:05:14<3:41:57,  4.26s/it] 22%|████████████████████████▏                                                                                      | 871/3996 [1:05:18<3:41:20,  4.25s/it] 22%|████████████████████████▏                                                                                      | 872/3996 [1:05:22<3:40:41,  4.24s/it] 22%|████████████████████████▎                                                                                      | 873/3996 [1:05:27<3:48:40,  4.39s/it] 22%|████████████████████████▎                                                                                      | 874/3996 [1:05:31<3:51:20,  4.45s/it] 22%|████████████████████████▎                                                                                      | 875/3996 [1:05:36<3:47:46,  4.38s/it]                                                                                                                                                           {'loss': 0.5607, 'grad_norm': 0.9702818989753723, 'learning_rate': 0.0001811474512030578, 'ppl': 1.7519, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4200.39, 'total_tokens': 16953918, 'epoch': 0.66}
+ 22%|████████████████████████▎                                                                                      | 875/3996 [1:05:36<3:47:46,  4.38s/it] 22%|████████████████████████▎                                                                                      | 876/3996 [1:05:40<3:44:55,  4.33s/it] 22%|████████████████████████▎                                                                                      | 877/3996 [1:05:44<3:43:01,  4.29s/it] 22%|████████████████████████▍                                                                                      | 878/3996 [1:05:48<3:41:49,  4.27s/it] 22%|████████████████████████▍                                                                                      | 879/3996 [1:05:53<3:40:59,  4.25s/it] 22%|████████████████████████▍                                                                                      | 880/3996 [1:05:57<3:48:52,  4.41s/it] 22%|████████████████████████▍                                                                                      | 881/3996 [1:06:01<3:45:45,  4.35s/it] 22%|████████████████████████▌                                                                                      | 882/3996 [1:06:06<3:43:21,  4.30s/it] 22%|████████████████████████▌                                                                                      | 883/3996 [1:06:10<3:41:56,  4.28s/it] 22%|████████████████████████▌                                                                                      | 884/3996 [1:06:14<3:40:59,  4.26s/it] 22%|████████████████████████▌                                                                                      | 885/3996 [1:06:18<3:40:20,  4.25s/it] 22%|████████████████████████▌                                                                                      | 886/3996 [1:06:23<3:39:34,  4.24s/it] 22%|████████████████████████▋                                                                                      | 887/3996 [1:06:27<3:47:27,  4.39s/it] 22%|████████████████████████▋                                                                                      | 888/3996 [1:06:32<3:45:49,  4.36s/it] 22%|████████████████████████▋                                                                                      | 889/3996 [1:06:36<3:43:38,  4.32s/it] 22%|████████████████████████▋                                                                                      | 890/3996 [1:06:40<3:41:54,  4.29s/it] 22%|████████████████████████▊                                                                                      | 891/3996 [1:06:44<3:40:50,  4.27s/it] 22%|████████████████████████▊                                                                                      | 892/3996 [1:06:48<3:40:09,  4.26s/it] 22%|████████████████████████▊                                                                                      | 893/3996 [1:06:53<3:39:30,  4.24s/it] 22%|████████████████████████▊                                                                                      | 894/3996 [1:06:57<3:47:24,  4.40s/it] 22%|████████████████████████▊                                                                                      | 895/3996 [1:07:02<3:44:26,  4.34s/it] 22%|████████████████████████▉                                                                                      | 896/3996 [1:07:06<3:42:19,  4.30s/it] 22%|████████████████████████▉                                                                                      | 897/3996 [1:07:10<3:41:39,  4.29s/it] 22%|████████████████████████▉                                                                                      | 898/3996 [1:07:14<3:40:32,  4.27s/it] 22%|████████████████████████▉                                                                                      | 899/3996 [1:07:19<3:39:42,  4.26s/it] 23%|█████████████████████████                                                                                      | 900/3996 [1:07:23<3:38:50,  4.24s/it]                                                                                                                                                           {'loss': 0.564, 'grad_norm': 0.17479568719863892, 'learning_rate': 0.00017995297016182405, 'ppl': 1.7577, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4210.15, 'total_tokens': 17396453, 'epoch': 0.68}
+ 23%|█████████████████████████                                                                                      | 900/3996 [1:07:23<3:38:50,  4.24s/it] 23%|█████████████████████████                                                                                      | 901/3996 [1:07:28<3:46:46,  4.40s/it] 23%|█████████████████████████                                                                                      | 902/3996 [1:07:32<3:44:07,  4.35s/it] 23%|█████████████████████████                                                                                      | 903/3996 [1:07:36<3:41:51,  4.30s/it] 23%|█████████████████████████                                                                                      | 904/3996 [1:07:40<3:40:19,  4.28s/it] 23%|█████████████████████████▏                                                                                     | 905/3996 [1:07:44<3:39:16,  4.26s/it] 23%|█████████████████████████▏                                                                                     | 906/3996 [1:07:49<3:38:40,  4.25s/it] 23%|█████████████████████████▏                                                                                     | 907/3996 [1:07:53<3:38:09,  4.24s/it] 23%|█████████████████████████▏                                                                                     | 908/3996 [1:07:58<3:45:52,  4.39s/it] 23%|█████████████████████████▎                                                                                     | 909/3996 [1:08:02<3:43:11,  4.34s/it] 23%|█████████████████████████▎                                                                                     | 910/3996 [1:08:06<3:41:04,  4.30s/it] 23%|█████████████████████████▎                                                                                     | 911/3996 [1:08:10<3:39:31,  4.27s/it] 23%|█████████████████████████▎                                                                                     | 912/3996 [1:08:14<3:38:31,  4.25s/it] 23%|█████████████████████████▎                                                                                     | 913/3996 [1:08:19<3:38:07,  4.25s/it] 23%|█████████████████████████▍                                                                                     | 914/3996 [1:08:23<3:37:36,  4.24s/it] 23%|█████████████████████████▍                                                                                     | 915/3996 [1:08:28<3:45:29,  4.39s/it] 23%|█████████████████████████▍                                                                                     | 916/3996 [1:08:32<3:42:48,  4.34s/it] 23%|█████████████████████████▍                                                                                     | 917/3996 [1:08:36<3:40:52,  4.30s/it] 23%|█████████████████████████▌                                                                                     | 918/3996 [1:08:40<3:39:19,  4.28s/it] 23%|█████████████████████████▌                                                                                     | 919/3996 [1:08:44<3:38:17,  4.26s/it] 23%|█████████████████████████▌                                                                                     | 920/3996 [1:08:49<3:37:30,  4.24s/it] 23%|█████████████████████████▌                                                                                     | 921/3996 [1:08:53<3:37:01,  4.23s/it] 23%|█████████████████████████▌                                                                                     | 922/3996 [1:08:58<3:44:53,  4.39s/it] 23%|█████████████████████████▋                                                                                     | 923/3996 [1:09:02<3:42:22,  4.34s/it] 23%|█████████████████████████▋                                                                                     | 924/3996 [1:09:06<3:40:13,  4.30s/it] 23%|█████████████████████████▋                                                                                     | 925/3996 [1:09:10<3:38:35,  4.27s/it]                                                                                                                                                           {'loss': 0.5511, 'grad_norm': 0.1948954463005066, 'learning_rate': 0.0001787259982191692, 'ppl': 1.7352, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4237.98, 'total_tokens': 17841287, 'epoch': 0.69}
+ 23%|█████████████████████████▋                                                                                     | 925/3996 [1:09:10<3:38:35,  4.27s/it] 23%|█████████████████████████▋                                                                                     | 926/3996 [1:09:15<3:37:32,  4.25s/it] 23%|█████████████████████████▊                                                                                     | 927/3996 [1:09:19<3:36:59,  4.24s/it] 23%|█████████████████████████▊                                                                                     | 928/3996 [1:09:23<3:36:47,  4.24s/it] 23%|█████████████████████████▊                                                                                     | 929/3996 [1:09:28<3:44:38,  4.39s/it] 23%|█████████████████████████▊                                                                                     | 930/3996 [1:09:32<3:42:12,  4.35s/it] 23%|█████████████████████████▊                                                                                     | 931/3996 [1:09:36<3:39:54,  4.30s/it] 23%|█████████████████████████▉                                                                                     | 932/3996 [1:09:40<3:38:19,  4.28s/it] 23%|█████████████████████████▉                                                                                     | 933/3996 [1:09:45<3:37:05,  4.25s/it] 23%|█████████████████████████▉                                                                                     | 934/3996 [1:09:49<3:36:14,  4.24s/it] 23%|█████████████████████████▉                                                                                     | 935/3996 [1:09:53<3:35:57,  4.23s/it] 23%|██████████████████████████                                                                                     | 936/3996 [1:09:58<3:43:47,  4.39s/it] 23%|██████████████████████████                                                                                     | 937/3996 [1:10:02<3:41:12,  4.34s/it] 23%|██████████████████████████                                                                                     | 938/3996 [1:10:06<3:39:00,  4.30s/it] 23%|██████████████████████████                                                                                     | 939/3996 [1:10:10<3:37:27,  4.27s/it] 24%|██████████████████████████                                                                                     | 940/3996 [1:10:15<3:36:37,  4.25s/it] 24%|██████████████████████████▏                                                                                    | 941/3996 [1:10:19<3:36:00,  4.24s/it] 24%|██████████████████████████▏                                                                                    | 942/3996 [1:10:23<3:35:17,  4.23s/it] 24%|██████████████████████████▏                                                                                    | 943/3996 [1:10:28<3:42:57,  4.38s/it] 24%|██████████████████████████▏                                                                                    | 944/3996 [1:10:32<3:40:29,  4.33s/it] 24%|██████████████████████████▎                                                                                    | 945/3996 [1:10:36<3:38:33,  4.30s/it] 24%|██████████████████████████▎                                                                                    | 946/3996 [1:10:40<3:37:16,  4.27s/it] 24%|██████████████████████████▎                                                                                    | 947/3996 [1:10:45<3:36:08,  4.25s/it] 24%|██████████████████████████▎                                                                                    | 948/3996 [1:10:49<3:35:22,  4.24s/it] 24%|██████████████████████████▎                                                                                    | 949/3996 [1:10:53<3:34:42,  4.23s/it] 24%|██████████████████████████▍                                                                                    | 950/3996 [1:10:58<3:42:35,  4.38s/it]                                                                                                                                                           {'loss': 0.5532, 'grad_norm': 0.19541053473949432, 'learning_rate': 0.00017746703398601872, 'ppl': 1.7388, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3725.33, 'total_tokens': 18283596, 'epoch': 0.71}
+ 24%|██████████████████████████▍                                                                                    | 950/3996 [1:10:58<3:42:35,  4.38s/it] 24%|██████████████████████████▍                                                                                    | 951/3996 [1:11:02<3:39:49,  4.33s/it] 24%|██████████████████████████▍                                                                                    | 952/3996 [1:11:06<3:37:42,  4.29s/it] 24%|██████████████████████████▍                                                                                    | 953/3996 [1:11:10<3:36:02,  4.26s/it] 24%|██████████████████████████▌                                                                                    | 954/3996 [1:11:15<3:35:10,  4.24s/it] 24%|██████████████████████████▌                                                                                    | 955/3996 [1:11:19<3:34:27,  4.23s/it] 24%|██████████████████████████▌                                                                                    | 956/3996 [1:11:23<3:34:00,  4.22s/it] 24%|██████████████████████████▌                                                                                    | 957/3996 [1:11:28<3:41:31,  4.37s/it] 24%|██████████████████████████▌                                                                                    | 958/3996 [1:11:32<3:38:49,  4.32s/it] 24%|██████████████████████████▋                                                                                    | 959/3996 [1:11:36<3:36:42,  4.28s/it] 24%|██████████████████████████▋                                                                                    | 960/3996 [1:11:40<3:35:23,  4.26s/it] 24%|██████████████████████████▋                                                                                    | 961/3996 [1:11:44<3:34:42,  4.24s/it] 24%|██████████████████████████▋                                                                                    | 962/3996 [1:11:49<3:34:12,  4.24s/it] 24%|██████████████████████████▊                                                                                    | 963/3996 [1:11:53<3:33:35,  4.23s/it] 24%|██████████████████████████▊                                                                                    | 964/3996 [1:11:58<3:48:17,  4.52s/it] 24%|██████████████████████████▊                                                                                    | 965/3996 [1:12:02<3:43:25,  4.42s/it] 24%|██████████████████████████▊                                                                                    | 966/3996 [1:12:07<3:40:05,  4.36s/it] 24%|██████████████████████████▊                                                                                    | 967/3996 [1:12:11<3:37:33,  4.31s/it] 24%|██████████████████████████▉                                                                                    | 968/3996 [1:12:15<3:35:58,  4.28s/it] 24%|██████████████████████████▉                                                                                    | 969/3996 [1:12:19<3:34:36,  4.25s/it] 24%|██████████████████████████▉                                                                                    | 970/3996 [1:12:23<3:33:52,  4.24s/it] 24%|██████████████████████████▉                                                                                    | 971/3996 [1:12:28<3:41:11,  4.39s/it] 24%|███████████████████████████                                                                                    | 972/3996 [1:12:32<3:38:31,  4.34s/it] 24%|███████████████████████████                                                                                    | 973/3996 [1:12:36<3:36:30,  4.30s/it] 24%|███████████████████████████                                                                                    | 974/3996 [1:12:41<3:34:57,  4.27s/it] 24%|███████████████████████████                                                                                    | 975/3996 [1:12:45<3:34:00,  4.25s/it]                                                                                                                                                           {'loss': 0.5521, 'grad_norm': 0.1818365603685379, 'learning_rate': 0.0001761765890741701, 'ppl': 1.7369, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4211.63, 'total_tokens': 18726722, 'epoch': 0.73}
+ 24%|███████████████████████████                                                                                    | 975/3996 [1:12:45<3:34:00,  4.25s/it] 24%|███████████████████████████                                                                                    | 976/3996 [1:12:49<3:33:24,  4.24s/it] 24%|███████████████████████████▏                                                                                   | 977/3996 [1:12:53<3:32:58,  4.23s/it] 24%|███████████████████████████▏                                                                                   | 978/3996 [1:12:58<3:40:35,  4.39s/it] 24%|███████████████████████████▏                                                                                   | 979/3996 [1:13:02<3:37:49,  4.33s/it] 25%|███████████████████████████▏                                                                                   | 980/3996 [1:13:06<3:35:34,  4.29s/it] 25%|███████████████████████████▎                                                                                   | 981/3996 [1:13:11<3:34:06,  4.26s/it] 25%|███████████████████████████▎                                                                                   | 982/3996 [1:13:15<3:33:27,  4.25s/it] 25%|███████████████████████████▎                                                                                   | 983/3996 [1:13:19<3:32:49,  4.24s/it] 25%|███████████████████████████▎                                                                                   | 984/3996 [1:13:23<3:32:13,  4.23s/it] 25%|███████████████████████████▎                                                                                   | 985/3996 [1:13:28<3:39:43,  4.38s/it] 25%|███████████████████████████▍                                                                                   | 986/3996 [1:13:32<3:37:05,  4.33s/it] 25%|███████████████████████████▍                                                                                   | 987/3996 [1:13:36<3:35:08,  4.29s/it] 25%|███████████████████████████▍                                                                                   | 988/3996 [1:13:41<3:33:56,  4.27s/it] 25%|███████████████████████████▍                                                                                   | 989/3996 [1:13:45<3:32:40,  4.24s/it] 25%|███████████████████████████▌                                                                                   | 990/3996 [1:13:49<3:32:00,  4.23s/it] 25%|███████████████████████████▌                                                                                   | 991/3996 [1:13:53<3:31:42,  4.23s/it] 25%|███████████████████████████▌                                                                                   | 992/3996 [1:13:58<3:39:14,  4.38s/it] 25%|███████████████████████████▌                                                                                   | 993/3996 [1:14:02<3:36:36,  4.33s/it] 25%|███████████████████████████▌                                                                                   | 994/3996 [1:14:06<3:34:34,  4.29s/it] 25%|███████████████████████████▋                                                                                   | 995/3996 [1:14:11<3:33:20,  4.27s/it] 25%|███████████████████████████▋                                                                                   | 996/3996 [1:14:15<3:32:41,  4.25s/it] 25%|███████████████████████████▋                                                                                   | 997/3996 [1:14:19<3:31:54,  4.24s/it] 25%|███████████████████████████▋                                                                                   | 998/3996 [1:14:23<3:31:33,  4.23s/it] 25%|███████████████████████████▊                                                                                   | 999/3996 [1:14:28<3:39:12,  4.39s/it] 25%|███████████████████████████▌                                                                                  | 1000/3996 [1:14:32<3:40:01,  4.41s/it]                                                                                                                                                           {'loss': 0.5511, 'grad_norm': 0.1838025599718094, 'learning_rate': 0.00017485518788838705, 'ppl': 1.7352, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3962.4, 'total_tokens': 19167258, 'epoch': 0.75}
+ 25%|███████████████████████████▌                                                                                  | 1000/3996 [1:14:32<3:40:01,  4.41s/it][2025-12-29 04:04:18,203] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:3751] Running evaluation step...
+[2025-12-29 04:04:19,132] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.44579172134399414
+[2025-12-29 04:04:19,560] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.42780184745788574
+[2025-12-29 04:04:19,955] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.3948495388031006
+[2025-12-29 04:04:20,352] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.3962395191192627
+[2025-12-29 04:04:20,352] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:3751] gather_len_batches: [72]
 
-  0%|                                                                                                                               | 0/90 [00:00<?, ?it/s][A
-  2%|██▋                                                                                                                    | 2/90 [00:00<00:36,  2.41it/s][A
-  3%|███▉                                                                                                                   | 3/90 [00:01<00:54,  1.59it/s][A
-  4%|█████▎                                                                                                                 | 4/90 [00:02<00:59,  1.43it/s][A
-  6%|██████▌                                                                                                                | 5/90 [00:03<01:05,  1.30it/s][A
-  7%|███████▉                                                                                                               | 6/90 [00:04<01:05,  1.28it/s][A
-  8%|█████████▎                                                                                                             | 7/90 [00:05<01:08,  1.21it/s][A
-  9%|██████████▌                                                                                                            | 8/90 [00:06<01:07,  1.22it/s][A
- 10%|███████████▉                                                                                                           | 9/90 [00:06<01:08,  1.19it/s][A
- 11%|█████████████                                                                                                         | 10/90 [00:07<01:06,  1.20it/s][A
- 12%|██████████████▍                                                                                                       | 11/90 [00:08<01:07,  1.17it/s][A
- 13%|███████████████▋                                                                                                      | 12/90 [00:09<01:05,  1.19it/s][A
- 14%|█████████████████                                                                                                     | 13/90 [00:10<01:06,  1.17it/s][A
- 16%|██████████████████▎                                                                                                   | 14/90 [00:11<01:04,  1.18it/s][A
- 17%|███████████████████▋                                                                                                  | 15/90 [00:12<01:13,  1.02it/s][A
- 18%|████████████████████▉                                                                                                 | 16/90 [00:13<01:06,  1.12it/s][A
- 19%|██████████████████████▎                                                                                               | 17/90 [00:14<01:06,  1.10it/s][A
- 20%|███████████████████████▌                                                                                              | 18/90 [00:14<01:03,  1.14it/s][A
- 21%|████████████████████████▉                                                                                             | 19/90 [00:15<01:03,  1.13it/s][A
- 22%|██████████████████████████▏                                                                                           | 20/90 [00:16<01:00,  1.16it/s][A
- 23%|███████████████████████████▌                                                                                          | 21/90 [00:17<01:00,  1.14it/s][A
- 24%|████████████████████████████▊                                                                                         | 22/90 [00:18<00:58,  1.16it/s][A
- 26%|██████████████████████████████▏                                                                                       | 23/90 [00:19<00:58,  1.14it/s][A
- 27%|███████████████████████████████▍                                                                                      | 24/90 [00:20<00:56,  1.17it/s][A
- 28%|████████████████████████████████▊                                                                                     | 25/90 [00:20<00:56,  1.15it/s][A
- 29%|██████████████████████████████████                                                                                    | 26/90 [00:21<00:54,  1.17it/s][A
- 30%|███████████████████████████████████▍                                                                                  | 27/90 [00:22<00:54,  1.15it/s][A
- 31%|████████████████████████████████████▋                                                                                 | 28/90 [00:23<00:52,  1.17it/s][A
- 32%|██████████████████████████████████████                                                                                | 29/90 [00:24<00:52,  1.15it/s][A
- 33%|███████████████████████████████████████▎                                                                              | 30/90 [00:25<00:51,  1.17it/s][A
- 34%|████████████████████████████████████████▋                                                                             | 31/90 [00:26<00:51,  1.15it/s][A
- 36%|█████████████████████████████████████████▉                                                                            | 32/90 [00:26<00:49,  1.17it/s][A
- 37%|███████████████████████████████████████████▎                                                                          | 33/90 [00:27<00:49,  1.15it/s][A
- 38%|████████████████████████████████████████████▌                                                                         | 34/90 [00:28<00:47,  1.17it/s][A
- 39%|█████████████████████████████████████████████▉                                                                        | 35/90 [00:29<00:47,  1.15it/s][A
- 40%|███████████████████████████████████████████████▏                                                                      | 36/90 [00:30<00:45,  1.18it/s][A
- 41%|████████████████████████████████████████████████▌                                                                     | 37/90 [00:31<00:46,  1.15it/s][A
- 42%|█████████████████████████████████████████████████▊                                                                    | 38/90 [00:32<00:44,  1.17it/s][A
- 43%|███████████████████████████████████████████████████▏                                                                  | 39/90 [00:33<00:44,  1.14it/s][A
- 44%|████████████████████████████████████████████████████▍                                                                 | 40/90 [00:33<00:43,  1.16it/s][A
- 46%|█████████████████████████████████████████████████████▊                                                                | 41/90 [00:34<00:42,  1.14it/s][A
- 47%|███████████████████████████████████████████████████████                                                               | 42/90 [00:35<00:41,  1.16it/s][A
- 48%|████████████████████████████████████████████████████████▍                                                             | 43/90 [00:36<00:41,  1.14it/s][A
- 49%|█████████████████████████████████████████████████████████▋                                                            | 44/90 [00:37<00:39,  1.16it/s][A
- 50%|███████████████████████████████████████████████████████████                                                           | 45/90 [00:38<00:39,  1.14it/s][A
- 51%|████████████████████████████████████████████████████████████▎                                                         | 46/90 [00:39<00:37,  1.17it/s][A
- 52%|█████████████████████████████████████████████████████████████▌                                                        | 47/90 [00:39<00:37,  1.13it/s][A
- 53%|██████████████████████████████████████████████████████████████▉                                                       | 48/90 [00:40<00:36,  1.16it/s][A
- 54%|█████████████████████��██████████████████████████████████████████▏                                                     | 49/90 [00:41<00:35,  1.14it/s][A
- 56%|█████████████████████████████████████████████████████████████████▌                                                    | 50/90 [00:42<00:34,  1.17it/s][A
- 57%|██████████████████████████████████████████████████████████████████▊                                                   | 51/90 [00:43<00:33,  1.15it/s][A
- 58%|████████████████████████████████████████████████████████████████████▏                                                 | 52/90 [00:44<00:32,  1.17it/s][A
- 59%|█████████████████████████████████████████████████████████████████████▍                                                | 53/90 [00:45<00:32,  1.15it/s][A
- 60%|██████████████████████████████████████████████████████████████████████▊                                               | 54/90 [00:45<00:30,  1.17it/s][A
- 61%|████████████████████████████████████████████████████████████████████████                                              | 55/90 [00:46<00:30,  1.14it/s][A
- 62%|█████████████████████████████████████████████████████████████████████████▍                                            | 56/90 [00:47<00:29,  1.17it/s][A
- 63%|██████████████████████████████████████████████████████████████████████████▋                                           | 57/90 [00:48<00:28,  1.15it/s][A
- 64%|████████████████████████████████████████████████████████████████████████████                                          | 58/90 [00:49<00:27,  1.17it/s][A
- 66%|█████████████████████████████████████████████████████████████████████████████▎                                        | 59/90 [00:50<00:26,  1.15it/s][A
- 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 60/90 [00:51<00:25,  1.17it/s][A
- 68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 61/90 [00:52<00:25,  1.15it/s][A
- 69%|█████████████████████████████████████████████████████████████████████████████████▎                                    | 62/90 [00:52<00:23,  1.17it/s][A
- 70%|██████████████████████████████████████████████████████████████████████████████████▌                                   | 63/90 [00:54<00:27,  1.01s/it][A
- 71%|███████████████████████████████████████████████████████████████████████████████████▉                                  | 64/90 [00:54<00:23,  1.12it/s][A
- 72%|███████████████████████████████████████████████████████████████████████████��█████████▏                                | 65/90 [00:55<00:22,  1.12it/s][A
- 73%|██████████████████████████████████████████████████████████████████████████████████████▌                               | 66/90 [00:56<00:20,  1.15it/s][A
- 74%|███████████████████████████████████████████████████████████████████████████████████████▊                              | 67/90 [00:57<00:20,  1.14it/s][A
- 76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 68/90 [00:58<00:18,  1.16it/s][A
- 77%|██████████████████████████████████████████████████████████████████████████████████████████▍                           | 69/90 [00:59<00:18,  1.15it/s][A
- 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 70/90 [00:59<00:17,  1.17it/s][A
- 79%|█████████████████████████████████████████████████████████████████████████████████████████████                         | 71/90 [01:00<00:16,  1.15it/s][A
- 80%|██████████████████████████████████████████████████████████████████████████████████████████████▍                       | 72/90 [01:01<00:15,  1.17it/s][A
- 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 73/90 [01:02<00:14,  1.15it/s][A
- 82%|█████████████████████████████████████████████████████████████████████████████████████████████████                     | 74/90 [01:03<00:13,  1.17it/s][A
- 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 75/90 [01:04<00:12,  1.15it/s][A
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 76/90 [01:05<00:11,  1.18it/s][A
- 86%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 77/90 [01:06<00:11,  1.15it/s][A
- 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 78/90 [01:06<00:10,  1.17it/s][A
- 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 79/90 [01:07<00:09,  1.15it/s][A
- 89%|█████████████████████████████���██████████████████████████████████████████████████████████████████████████▉             | 80/90 [01:08<00:08,  1.17it/s][A
- 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 81/90 [01:09<00:07,  1.15it/s][A
- 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 82/90 [01:10<00:06,  1.17it/s][A
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 83/90 [01:11<00:06,  1.14it/s][A
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 84/90 [01:12<00:05,  1.18it/s][A
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 85/90 [01:12<00:04,  1.13it/s][A
- 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 86/90 [01:13<00:03,  1.17it/s][A
- 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 87/90 [01:14<00:02,  1.13it/s][A
- 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 88/90 [01:15<00:01,  1.17it/s][A
- 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 89/90 [01:16<00:00,  1.13it/s][A
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.14it/s][A                                                                                                                                                           
-                                                                                                                                                           [A{'eval_loss': 0.5492991805076599, 'eval_runtime': 79.4635, 'eval_samples_per_second': 9.187, 'eval_steps_per_second': 2.303, 'eval_ppl': 1.732, 'memory/max_active (GiB)': 12.83, 'memory/max_allocated (GiB)': 6.85, 'memory/device_reserved (GiB)': 20.17, 'epoch': 0.72}
- 24%|██████████████████████████▋                                                                                    | 600/2499 [1:12:50<3:18:31,  6.27s/it]
-100%|███████████████████████████████████████████████████████████��██████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.14it/s][A
-                                                                                                                                                           [A[2025-12-28 12:18:30,249] [INFO] [axolotl.core.trainers.base._save:692] [PID:42410] Saving model checkpoint to ./outputs/luau-codellama-h200/checkpoint-600
- 24%|██████████████████████████▍                                                                                   | 601/2499 [1:13:01<17:40:22, 33.52s/it]                                                                                                                                                           {'loss': 0.5431, 'grad_norm': 0.15443255007266998, 'learning_rate': 0.00017352963349382875, 'ppl': 1.7213, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.05, 'tokens_per_second_per_gpu': 4740.78, 'total_tokens': 26107242, 'epoch': 0.72}
- 24%|██████████████████████████▍                                                                                   | 601/2499 [1:13:01<17:40:22, 33.52s/it] 24%|██████████████████████████▍                                                                                   | 602/2499 [1:13:07<13:21:04, 25.34s/it]                                                                                                                                                           {'loss': 0.5608, 'grad_norm': 0.15965475142002106, 'learning_rate': 0.00017344403050746084, 'ppl': 1.7521, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.05, 'tokens_per_second_per_gpu': 4474.57, 'total_tokens': 26135160, 'epoch': 0.72}
- 24%|██████████████████████████▍                                                                                   | 602/2499 [1:13:07<13:21:04, 25.34s/it] 24%|██████████████████████████▌                                                                                   | 603/2499 [1:13:13<10:19:58, 19.62s/it]                                                                                                                                                           {'loss': 0.5405, 'grad_norm': 0.15331172943115234, 'learning_rate': 0.00017335831051556064, 'ppl': 1.7169, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4560.89, 'total_tokens': 26163788, 'epoch': 0.72}
- 24%|██████████████████████████▌                                                                                   | 603/2499 [1:13:13<10:19:58, 19.62s/it] 24%|██████████████████████████▊                                                                                    | 604/2499 [1:13:20<8:13:08, 15.61s/it]                                                                                                                                                           {'loss': 0.554, 'grad_norm': 0.15818923711776733, 'learning_rate': 0.00017327247365469078, 'ppl': 1.7402, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4679.66, 'total_tokens': 26193104, 'epoch': 0.73}
- 24%|██████████████████████████▊                                                                                    | 604/2499 [1:13:20<8:13:08, 15.61s/it] 24%|██████████████████████████▊                                                                                    | 605/2499 [1:13:26<6:44:32, 12.82s/it]                                                                                                                                                           {'loss': 0.5676, 'grad_norm': 0.1669849008321762, 'learning_rate': 0.0001731865200616001, 'ppl': 1.764, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4402.46, 'total_tokens': 26220768, 'epoch': 0.73}
- 24%|██████████████████████████▊                                                                                    | 605/2499 [1:13:26<6:44:32, 12.82s/it] 24%|██████████████████████████▉                                                                                    | 606/2499 [1:13:32<5:42:05, 10.84s/it]                                                                                                                                                           {'loss': 0.5567, 'grad_norm': 0.1447984129190445, 'learning_rate': 0.00017310044987322348, 'ppl': 1.7449, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4433.92, 'total_tokens': 26248418, 'epoch': 0.73}
- 24%|██████████████████████████▉                                                                                    | 606/2499 [1:13:32<5:42:05, 10.84s/it] 24%|██████████████████████████▉                                                                                    | 607/2499 [1:13:38<4:58:29,  9.47s/it]                                                                                                                                                           {'loss': 0.6084, 'grad_norm': 0.17044642567634583, 'learning_rate': 0.00017301426322668143, 'ppl': 1.8375, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4454.73, 'total_tokens': 26276263, 'epoch': 0.73}
- 24%|██████████████████████████▉                                                                                    | 607/2499 [1:13:38<4:58:29,  9.47s/it] 24%|███████████████████████████                                                                                    | 608/2499 [1:13:45<4:28:09,  8.51s/it]                                                                                                                                                           {'loss': 0.5733, 'grad_norm': 0.1568867266178131, 'learning_rate': 0.00017292796025928012, 'ppl': 1.7741, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4658.56, 'total_tokens': 26305482, 'epoch': 0.73}
- 24%|███████████████████████████                                                                                    | 608/2499 [1:13:45<4:28:09,  8.51s/it] 24%|███████████████████████████                                                                                    | 609/2499 [1:13:51<4:06:48,  7.84s/it]                                                                                                                                                           {'loss': 0.586, 'grad_norm': 0.155142679810524, 'learning_rate': 0.000172841541108511, 'ppl': 1.7968, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4641.87, 'total_tokens': 26334550, 'epoch': 0.73}
- 24%|███████████████████████████                                                                                    | 609/2499 [1:13:51<4:06:48,  7.84s/it] 24%|███████████████████████████                                                                                    | 610/2499 [1:13:57<3:51:45,  7.36s/it]                                                                                                                                                           {'loss': 0.5379, 'grad_norm': 0.164072185754776, 'learning_rate': 0.00017275500591205055, 'ppl': 1.7124, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4624.75, 'total_tokens': 26363473, 'epoch': 0.73}
- 24%|███████████████████████████                                                                                    | 610/2499 [1:13:57<3:51:45,  7.36s/it] 24%|███████████████████████████▏                                                                                   | 611/2499 [1:14:04<3:41:31,  7.04s/it]                                                                                                                                                           {'loss': 0.5643, 'grad_norm': 0.14827710390090942, 'learning_rate': 0.00017266835480776014, 'ppl': 1.7582, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4589.99, 'total_tokens': 26392329, 'epoch': 0.73}
- 24%|███████████████████████████▏                                                                                   | 611/2499 [1:14:04<3:41:31,  7.04s/it] 24%|███████████████████████████▏                                                                                   | 612/2499 [1:14:10<3:33:57,  6.80s/it]                                                                                                                                                           {'loss': 0.5551, 'grad_norm': 0.14518024027347565, 'learning_rate': 0.0001725815879336859, 'ppl': 1.7421, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4454.43, 'total_tokens': 26420158, 'epoch': 0.73}
- 24%|███████████████████████████▏                                                                                   | 612/2499 [1:14:10<3:33:57,  6.80s/it] 25%|███████████████████████████▏                                                                                   | 613/2499 [1:14:16<3:28:27,  6.63s/it]                                                                                                                                                           {'loss': 0.5249, 'grad_norm': 0.14937075972557068, 'learning_rate': 0.00017249470542805826, 'ppl': 1.6903, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4379.43, 'total_tokens': 26447441, 'epoch': 0.74}
- 25%|███████████████████████████▏                                                                                   | 613/2499 [1:14:16<3:28:27,  6.63s/it] 25%|███████████████████████████▎                                                                                   | 614/2499 [1:14:22<3:24:56,  6.52s/it]                                                                                                                                                           {'loss': 0.5378, 'grad_norm': 0.1505361795425415, 'learning_rate': 0.00017240770742929192, 'ppl': 1.7122, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.07, 'tokens_per_second_per_gpu': 4620.94, 'total_tokens': 26476403, 'epoch': 0.74}
- 25%|███████████████████████████▎                                                                                   | 614/2499 [1:14:22<3:24:56,  6.52s/it] 25%|███████████████████████████▎                                                                                   | 615/2499 [1:14:29<3:22:14,  6.44s/it]                                                                                                                                                           {'loss': 0.557, 'grad_norm': 0.15796837210655212, 'learning_rate': 0.00017232059407598565, 'ppl': 1.7454, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4509.85, 'total_tokens': 26504572, 'epoch': 0.74}
- 25%|███████████████████████████▎                                                                                   | 615/2499 [1:14:29<3:22:14,  6.44s/it] 25%|███████████████████████████▎                                                                                   | 616/2499 [1:14:35<3:20:16,  6.38s/it]                                                                                                                                                           {'loss': 0.5542, 'grad_norm': 0.22552503645420074, 'learning_rate': 0.00017223336550692186, 'ppl': 1.7405, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4382.77, 'total_tokens': 26531925, 'epoch': 0.74}
- 25%|███████████████████████████▎                                                                                   | 616/2499 [1:14:35<3:20:16,  6.38s/it] 25%|███████████████████████████▍                                                                                   | 617/2499 [1:14:41<3:18:54,  6.34s/it]                                                                                                                                                           {'loss': 0.5768, 'grad_norm': 0.15645365417003632, 'learning_rate': 0.00017214602186106662, 'ppl': 1.7803, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4453.04, 'total_tokens': 26559739, 'epoch': 0.74}
- 25%|███████████████████████████▍                                                                                   | 617/2499 [1:14:41<3:18:54,  6.34s/it] 25%|███████████████████████████▍                                                                                   | 618/2499 [1:14:47<3:18:18,  6.33s/it]                                                                                                                                                           {'loss': 0.5381, 'grad_norm': 0.14894016087055206, 'learning_rate': 0.00017205856327756925, 'ppl': 1.7127, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4469.12, 'total_tokens': 26587835, 'epoch': 0.74}
- 25%|███████████████████████████▍                                                                                   | 618/2499 [1:14:47<3:18:18,  6.33s/it] 25%|███████████████████████████▍                                                                                   | 619/2499 [1:14:54<3:17:25,  6.30s/it]                                                                                                                                                           {'loss': 0.5574, 'grad_norm': 0.16387908160686493, 'learning_rate': 0.00017197098989576222, 'ppl': 1.7461, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4446.37, 'total_tokens': 26615575, 'epoch': 0.74}
- 25%|███████████████████████████▍                                                                                   | 619/2499 [1:14:54<3:17:25,  6.30s/it] 25%|███████████████████████████▌                                                                                   | 620/2499 [1:15:00<3:16:50,  6.29s/it]                                                                                                                                                           {'loss': 0.5345, 'grad_norm': 0.1502378284931183, 'learning_rate': 0.00017188330185516094, 'ppl': 1.7066, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4413.85, 'total_tokens': 26643152, 'epoch': 0.74}
- 25%|███████████████████████████▌                                                                                   | 620/2499 [1:15:00<3:16:50,  6.29s/it] 25%|███████████████████████████▌                                                                                   | 621/2499 [1:15:06<3:16:25,  6.28s/it]                                                                                                                                                           {'loss': 0.5992, 'grad_norm': 0.1670679748058319, 'learning_rate': 0.00017179549929546335, 'ppl': 1.8207, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4508.66, 'total_tokens': 26671327, 'epoch': 0.75}
- 25%|███████████████████████████▌                                                                                   | 621/2499 [1:15:06<3:16:25,  6.28s/it] 25%|███████████████████████████▋                                                                                   | 622/2499 [1:15:12<3:16:10,  6.27s/it]                                                                                                                                                           {'loss': 0.5946, 'grad_norm': 0.16181008517742157, 'learning_rate': 0.00017170758235654997, 'ppl': 1.8123, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4577.69, 'total_tokens': 26699973, 'epoch': 0.75}
- 25%|███████████████████████████▋                                                                                   | 622/2499 [1:15:12<3:16:10,  6.27s/it] 25%|███████████████████████████▋                                                                                   | 623/2499 [1:15:19<3:16:02,  6.27s/it]                                                                                                                                                           {'loss': 0.5877, 'grad_norm': 0.17699268460273743, 'learning_rate': 0.0001716195511784835, 'ppl': 1.7998, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4582.31, 'total_tokens': 26728687, 'epoch': 0.75}
- 25%|███████��███████████████████▋                                                                                   | 623/2499 [1:15:19<3:16:02,  6.27s/it] 25%|███████████████████████████▋                                                                                   | 624/2499 [1:15:25<3:16:15,  6.28s/it]                                                                                                                                                           {'loss': 0.546, 'grad_norm': 0.16804426908493042, 'learning_rate': 0.0001715314059015086, 'ppl': 1.7263, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4576.77, 'total_tokens': 26757523, 'epoch': 0.75}
- 25%|███████████████████████████▋                                                                                   | 624/2499 [1:15:25<3:16:15,  6.28s/it] 25%|███████████████████████████▊                                                                                   | 625/2499 [1:15:31<3:16:01,  6.28s/it]                                                                                                                                                           {'loss': 0.5654, 'grad_norm': 0.1552819013595581, 'learning_rate': 0.00017144314666605172, 'ppl': 1.7602, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4491.13, 'total_tokens': 26785650, 'epoch': 0.75}
- 25%|███████████████████████████▊                                                                                   | 625/2499 [1:15:31<3:16:01,  6.28s/it] 25%|███████████████████████████▊                                                                                   | 626/2499 [1:15:37<3:15:33,  6.26s/it]                                                                                                                                                           {'loss': 0.5238, 'grad_norm': 0.16035959124565125, 'learning_rate': 0.0001713547736127209, 'ppl': 1.6884, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4372.25, 'total_tokens': 26812912, 'epoch': 0.75}
- 25%|███████████████████████████▊                                                                                   | 626/2499 [1:15:37<3:15:33,  6.26s/it] 25%|███████████████████████████▊                                                                                   | 627/2499 [1:15:44<3:15:27,  6.26s/it]                                                                                                                                                           {'loss': 0.5031, 'grad_norm': 0.15231968462467194, 'learning_rate': 0.00017126628688230545, 'ppl': 1.6538, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4624.25, 'total_tokens': 26841872, 'epoch': 0.75}
- 25%|███████████████████████████▊                                                                                   | 627/2499 [1:15:44<3:15:27,  6.26s/it] 25%|███████████████████████████▉                                                                                   | 628/2499 [1:15:50<3:15:22,  6.27s/it]                                                                                                                                                           {'loss': 0.5672, 'grad_norm': 0.1670321822166443, 'learning_rate': 0.0001711776866157758, 'ppl': 1.7633, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4552.49, 'total_tokens': 26870393, 'epoch': 0.75}
- 25%|███████████████████████████▉                                                                                   | 628/2499 [1:15:50<3:15:22,  6.27s/it] 25%|███████████████████████████▉                                                                                   | 629/2499 [1:15:56<3:15:00,  6.26s/it]                                                                                                                                                           {'loss': 0.5665, 'grad_norm': 0.16463960707187653, 'learning_rate': 0.00017108897295428326, 'ppl': 1.7621, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4309.71, 'total_tokens': 26897258, 'epoch': 0.76}
- 25%|███████████████████████████▉                                                                                   | 629/2499 [1:15:56<3:15:00,  6.26s/it] 25%|███████████████████████████▉                                                                                   | 630/2499 [1:16:02<3:15:03,  6.26s/it]                                                                                                                                                           {'loss': 0.5288, 'grad_norm': 0.15193606913089752, 'learning_rate': 0.0001710001460391598, 'ppl': 1.6969, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4405.36, 'total_tokens': 26924890, 'epoch': 0.76}
- 25%|███████████████████████████▉                                                                                   | 630/2499 [1:16:02<3:15:03,  6.26s/it] 25%|████████████████████████████                                                                                   | 631/2499 [1:16:09<3:14:50,  6.26s/it]                                                                                                                                                           {'loss': 0.5362, 'grad_norm': 0.16677305102348328, 'learning_rate': 0.00017091120601191786, 'ppl': 1.7095, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4439.72, 'total_tokens': 26952621, 'epoch': 0.76}
- 25%|████████████████████████████                                                                                   | 631/2499 [1:16:09<3:14:50,  6.26s/it] 25%|████████████████████████████                                                                                   | 632/2499 [1:16:15<3:14:45,  6.26s/it]                                                                                                                                                           {'loss': 0.5676, 'grad_norm': 0.17070624232292175, 'learning_rate': 0.00017082215301424998, 'ppl': 1.764, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4575.59, 'total_tokens': 26981256, 'epoch': 0.76}
- 25%|████████████████████████████                                                                                   | 632/2499 [1:16:15<3:14:45,  6.26s/it] 25%|████████████████████████████                                                                                   | 633/2499 [1:16:21<3:14:32,  6.26s/it]                                                                                                                                                           {'loss': 0.5367, 'grad_norm': 0.15856873989105225, 'learning_rate': 0.00017073298718802871, 'ppl': 1.7104, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4297.55, 'total_tokens': 27008087, 'epoch': 0.76}
- 25%|████████████████████████████                                                                                   | 633/2499 [1:16:21<3:14:32,  6.26s/it] 25%|████████████████████████████▏                                                                                  | 634/2499 [1:16:27<3:14:24,  6.25s/it]                                                                                                                                                           {'loss': 0.5403, 'grad_norm': 0.15367814898490906, 'learning_rate': 0.00017064370867530645, 'ppl': 1.7165, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4376.93, 'total_tokens': 27035441, 'epoch': 0.76}
- 25%|████████████████████████████▏                                                                                  | 634/2499 [1:16:27<3:14:24,  6.25s/it] 25%|████████████████████████████▏                                                                                  | 635/2499 [1:16:34<3:14:11,  6.25s/it]                                                                                                                                                           {'loss': 0.6084, 'grad_norm': 0.1730221062898636, 'learning_rate': 0.00017055431761831498, 'ppl': 1.8375, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4387.66, 'total_tokens': 27062820, 'epoch': 0.76}
- 25%|████████████████████████████▏                                                                                  | 635/2499 [1:16:34<3:14:11,  6.25s/it] 25%|████████████████████████████▏                                                                                  | 636/2499 [1:16:40<3:14:27,  6.26s/it]                                                                                                                                                           {'loss': 0.5498, 'grad_norm': 0.165005624294281, 'learning_rate': 0.00017046481415946549, 'ppl': 1.7329, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4582.61, 'total_tokens': 27091639, 'epoch': 0.76}
- 25%|████████████████████████████▏                                                                                  | 636/2499 [1:16:40<3:14:27,  6.26s/it] 25%|████████████████████████████▎                                                                                  | 637/2499 [1:16:46<3:14:39,  6.27s/it]                                                                                                                                                           {'loss': 0.5798, 'grad_norm': 0.16355308890342712, 'learning_rate': 0.00017037519844134813, 'ppl': 1.7857, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4530.74, 'total_tokens': 27120147, 'epoch': 0.76}
- 25%|████████████████████████████▎                                                                                  | 637/2499 [1:16:46<3:14:39,  6.27s/it] 26%|████████████████████████████▎                                                                                  | 638/2499 [1:16:53<3:14:26,  6.27s/it]                                                                                                                                                           {'loss': 0.6201, 'grad_norm': 0.15821842849254608, 'learning_rate': 0.000170285470606732, 'ppl': 1.8591, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4515.18, 'total_tokens': 27148403, 'epoch': 0.77}
- 26%|████████████████████████████▎                                                                                  | 638/2499 [1:16:53<3:14:26,  6.27s/it] 26%|████████████████████████████▍                                                                                  | 639/2499 [1:16:59<3:14:06,  6.26s/it]                                                                                                                                                           {'loss': 0.5461, 'grad_norm': 0.15199202299118042, 'learning_rate': 0.00017019563079856474, 'ppl': 1.7265, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4300.16, 'total_tokens': 27175240, 'epoch': 0.77}
- 26%|████████████████████████████▍                                                                                  | 639/2499 [1:16:59<3:14:06,  6.26s/it] 26%|████████████████████████████▍                                                                                  | 640/2499 [1:17:05<3:13:55,  6.26s/it]                                                                                                                                                           {'loss': 0.5573, 'grad_norm': 0.15636083483695984, 'learning_rate': 0.00017010567915997244, 'ppl': 1.746, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4436.65, 'total_tokens': 27202969, 'epoch': 0.77}
- 26%|████████████████████████████▍                                                                                  | 640/2499 [1:17:05<3:13:55,  6.26s/it] 26%|████████████████████████████▍                                                                                  | 641/2499 [1:17:11<3:13:42,  6.26s/it]                                                                                                                                                           {'loss': 0.5442, 'grad_norm': 0.14868567883968353, 'learning_rate': 0.00017001561583425932, 'ppl': 1.7232, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4426.99, 'total_tokens': 27230617, 'epoch': 0.77}
- 26%|████████████████████████████▍                                                                                  | 641/2499 [1:17:11<3:13:42,  6.26s/it] 26%|████████████████████████████▌                                                                                  | 642/2499 [1:17:18<3:13:37,  6.26s/it]                                                                                                                                                           {'loss': 0.5611, 'grad_norm': 0.1626492142677307, 'learning_rate': 0.0001699254409649075, 'ppl': 1.7526, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4496.31, 'total_tokens': 27258739, 'epoch': 0.77}
- 26%|████████████████████████████▌                                                                                  | 642/2499 [1:17:18<3:13:37,  6.26s/it] 26%|████████████████████████████▌                                                                                  | 643/2499 [1:17:24<3:13:48,  6.27s/it]                                                                                                                                                           {'loss': 0.5445, 'grad_norm': 0.15078237652778625, 'learning_rate': 0.00016983515469557684, 'ppl': 1.7237, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4534.17, 'total_tokens': 27287235, 'epoch': 0.77}
- 26%|████████████████████████████▌                                                                                  | 643/2499 [1:17:24<3:13:48,  6.27s/it] 26%|████████████████████████████▌                                                                                  | 644/2499 [1:17:30<3:13:41,  6.26s/it]                                                                                                                                                           {'loss': 0.5867, 'grad_norm': 0.1609424501657486, 'learning_rate': 0.00016974475717010468, 'ppl': 1.798, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4581.26, 'total_tokens': 27315915, 'epoch': 0.77}
- 26%|████████████████████████████▌                                                                                  | 644/2499 [1:17:30<3:13:41,  6.26s/it] 26%|████████████████████████████▋                                                                                  | 645/2499 [1:17:36<3:13:27,  6.26s/it]                                                                                                                                                           {'loss': 0.5694, 'grad_norm': 0.1608027219772339, 'learning_rate': 0.00016965424853250557, 'ppl': 1.7672, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4355.39, 'total_tokens': 27343127, 'epoch': 0.77}
- 26%|████████████████████████████▋                                                                                  | 645/2499 [1:17:36<3:13:27,  6.26s/it] 26%|████████████████████████████▋                                                                                  | 646/2499 [1:17:43<3:13:27,  6.26s/it]                                                                                                                                                           {'loss': 0.5648, 'grad_norm': 0.15912018716335297, 'learning_rate': 0.00016956362892697112, 'ppl': 1.7591, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4732.01, 'total_tokens': 27372800, 'epoch': 0.78}
- 26%|████████████████████████████▋                                                                                  | 646/2499 [1:17:43<3:13:27,  6.26s/it] 26%|█████████████████████���██████▋                                                                                  | 647/2499 [1:17:49<3:13:21,  6.26s/it]                                                                                                                                                           {'loss': 0.5446, 'grad_norm': 0.16331568360328674, 'learning_rate': 0.00016947289849786974, 'ppl': 1.7239, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4598.22, 'total_tokens': 27401590, 'epoch': 0.78}
- 26%|████████████████████████████▋                                                                                  | 647/2499 [1:17:49<3:13:21,  6.26s/it] 26%|████████████████████████████▊                                                                                  | 648/2499 [1:17:55<3:13:14,  6.26s/it]                                                                                                                                                           {'loss': 0.5874, 'grad_norm': 0.16428092122077942, 'learning_rate': 0.00016938205738974626, 'ppl': 1.7993, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4608.8, 'total_tokens': 27430448, 'epoch': 0.78}
- 26%|████████████████████████████▊                                                                                  | 648/2499 [1:17:55<3:13:14,  6.26s/it] 26%|████████████████████████████▊                                                                                  | 649/2499 [1:18:01<3:13:11,  6.27s/it]                                                                                                                                                           {'loss': 0.5681, 'grad_norm': 0.1655767410993576, 'learning_rate': 0.00016929110574732202, 'ppl': 1.7649, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4383.76, 'total_tokens': 27457921, 'epoch': 0.78}
- 26%|████████████████████████████▊                                                                                  | 649/2499 [1:18:01<3:13:11,  6.27s/it] 26%|████████████████████████████▊                                                                                  | 650/2499 [1:18:08<3:13:14,  6.27s/it]                                                                                                                                                           {'loss': 0.5865, 'grad_norm': 0.15909960865974426, 'learning_rate': 0.0001692000437154943, 'ppl': 1.7977, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4610.29, 'total_tokens': 27486869, 'epoch': 0.78}
- 26%|████████████████████████████▊                                                                                  | 650/2499 [1:18:08<3:13:14,  6.27s/it] 26%|████████████████████████████▉                                                                                  | 651/2499 [1:18:14<3:13:06,  6.27s/it]                                                                                                                                                           {'loss': 0.5777, 'grad_norm': 0.1619177907705307, 'learning_rate': 0.00016910887143933636, 'ppl': 1.7819, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4469.57, 'total_tokens': 27514869, 'epoch': 0.78}
- 26%|████████████████████████████▉                                                                                  | 651/2499 [1:18:14<3:13:06,  6.27s/it] 26%|████████████████████████████▉                                                                                  | 652/2499 [1:18:20<3:12:57,  6.27s/it]                                                                                                                                                           {'loss': 0.5718, 'grad_norm': 0.1830313801765442, 'learning_rate': 0.00016901758906409705, 'ppl': 1.7715, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4500.34, 'total_tokens': 27543048, 'epoch': 0.78}
- 26%|████████████████████████████▉                                                                                  | 652/2499 [1:18:20<3:12:57,  6.27s/it] 26%|█████████████████████████████                                                                                  | 653/2499 [1:18:26<3:13:02,  6.27s/it]                                                                                                                                                           {'loss': 0.551, 'grad_norm': 0.16313879191875458, 'learning_rate': 0.00016892619673520057, 'ppl': 1.735, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4727.61, 'total_tokens': 27572770, 'epoch': 0.78}
- 26%|█████████████████████████████                                                                                  | 653/2499 [1:18:26<3:13:02,  6.27s/it] 26%|█████████████████████████████                                                                                  | 654/2499 [1:18:33<3:12:58,  6.28s/it]                                                                                                                                                           {'loss': 0.5615, 'grad_norm': 0.15075667202472687, 'learning_rate': 0.00016883469459824644, 'ppl': 1.7533, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4654.0, 'total_tokens': 27601981, 'epoch': 0.79}
- 26%|█████████████████████████████                                                                                  | 654/2499 [1:18:33<3:12:58,  6.28s/it] 26%|█████████████████████████████                                                                                  | 655/2499 [1:18:39<3:13:06,  6.28s/it]                                                                                                                                                           {'loss': 0.5551, 'grad_norm': 0.15292450785636902, 'learning_rate': 0.0001687430827990089, 'ppl': 1.7421, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4633.85, 'total_tokens': 27631169, 'epoch': 0.79}
- 26%|█████████████████████████████                                                                                  | 655/2499 [1:18:39<3:13:06,  6.28s/it] 26%|█████████████████████████████▏                                                                                 | 656/2499 [1:18:45<3:12:57,  6.28s/it]                                                                                                                                                           {'loss': 0.6184, 'grad_norm': 0.1681700199842453, 'learning_rate': 0.00016865136148343706, 'ppl': 1.856, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4542.76, 'total_tokens': 27659667, 'epoch': 0.79}
- 26%|█████████████████████████████▏                                                                                 | 656/2499 [1:18:45<3:12:57,  6.28s/it] 26%|█████████████████████████████▏                                                                                 | 657/2499 [1:18:52<3:12:37,  6.27s/it]                                                                                                                                                           {'loss': 0.5921, 'grad_norm': 0.16229918599128723, 'learning_rate': 0.00016855953079765448, 'ppl': 1.8078, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4427.98, 'total_tokens': 27687361, 'epoch': 0.79}
- 26%|█████████████████████████████▏                                                                                 | 657/2499 [1:18:52<3:12:37,  6.27s/it] 26%|█████████████████████████████▏                                                                                 | 658/2499 [1:18:58<3:12:26,  6.27s/it]                                                                                                                                                           {'loss': 0.5735, 'grad_norm': 0.15574562549591064, 'learning_rate': 0.0001684675908879589, 'ppl': 1.7745, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4419.82, 'total_tokens': 27715048, 'epoch': 0.79}
- 26%|█████████████████████████████▏                                                                                 | 658/2499 [1:18:58<3:12:26,  6.27s/it] 26%|█████████████████████████████▎                                                                                 | 659/2499 [1:19:04<3:12:24,  6.27s/it]                                                                                                                                                           {'loss': 0.5574, 'grad_norm': 0.16547827422618866, 'learning_rate': 0.00016837554190082208, 'ppl': 1.7461, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4549.83, 'total_tokens': 27743605, 'epoch': 0.79}
- 26%|█████████████████████████████▎                                                                                 | 659/2499 [1:19:04<3:12:24,  6.27s/it] 26%|█████████████████████████████▎                                                                                 | 660/2499 [1:19:10<3:12:16,  6.27s/it]                                                                                                                                                           {'loss': 0.5474, 'grad_norm': 0.15572473406791687, 'learning_rate': 0.00016828338398288965, 'ppl': 1.7288, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4563.37, 'total_tokens': 27772212, 'epoch': 0.79}
- 26%|█████████████████████████████▎                                                                                 | 660/2499 [1:19:10<3:12:16,  6.27s/it] 26%|█████████████████████████████▎                                                                                 | 661/2499 [1:19:17<3:11:56,  6.27s/it]                                                                                                                                                           {'loss': 0.5487, 'grad_norm': 0.2158125638961792, 'learning_rate': 0.00016819111728098065, 'ppl': 1.731, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4361.97, 'total_tokens': 27799457, 'epoch': 0.79}
- 26%|█████████████████████████████▎                                                                                 | 661/2499 [1:19:17<3:11:56,  6.27s/it] 26%|█████████████████████████████▍                                                                                 | 662/2499 [1:19:23<3:11:52,  6.27s/it]                                                                                                                                                           {'loss': 0.534, 'grad_norm': 0.15643706917762756, 'learning_rate': 0.0001680987419420875, 'ppl': 1.7057, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4173.77, 'total_tokens': 27825617, 'epoch': 0.79}
- 26%|█████████████████████████████▍                                                                                 | 662/2499 [1:19:23<3:11:52,  6.27s/it] 27%|█████████████████████████████▍                                                                                 | 663/2499 [1:19:29<3:11:57,  6.27s/it]                                                                                                                                                           {'loss': 0.5736, 'grad_norm': 0.16257119178771973, 'learning_rate': 0.0001680062581133757, 'ppl': 1.7746, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4626.03, 'total_tokens': 27854685, 'epoch': 0.8}
- 27%|█████████████████████████████▍                                                                                 | 663/2499 [1:19:29<3:11:57,  6.27s/it] 27%|█████████████████████████████▍                                                                                 | 664/2499 [1:19:35<3:11:49,  6.27s/it]                                                                                                                                                           {'loss': 0.5828, 'grad_norm': 0.1598690301179886, 'learning_rate': 0.0001679136659421835, 'ppl': 1.791, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4542.55, 'total_tokens': 27883155, 'epoch': 0.8}
- 27%|█████████████████████████████▍                                                                                 | 664/2499 [1:19:35<3:11:49,  6.27s/it] 27%|█████████████████████████████▌                                                                                 | 665/2499 [1:19:42<3:11:28,  6.26s/it]                                                                                                                                                           {'loss': 0.5444, 'grad_norm': 0.15730322897434235, 'learning_rate': 0.0001678209655760219, 'ppl': 1.7236, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4327.13, 'total_tokens': 27910167, 'epoch': 0.8}
- 27%|█████████████████████████████▌                                                                                 | 665/2499 [1:19:42<3:11:28,  6.26s/it] 27%|█████████████████████████████▌                                                                                 | 666/2499 [1:19:48<3:11:26,  6.27s/it]                                                                                                                                                           {'loss': 0.5888, 'grad_norm': 0.1599961817264557, 'learning_rate': 0.00016772815716257412, 'ppl': 1.8018, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4567.61, 'total_tokens': 27938805, 'epoch': 0.8}
- 27%|█████████████████████████████▌                                                                                 | 666/2499 [1:19:48<3:11:26,  6.27s/it] 27%|█████████████████████████████▋                                                                                 | 667/2499 [1:19:54<3:11:08,  6.26s/it]                                                                                                                                                           {'loss': 0.5983, 'grad_norm': 0.16296197474002838, 'learning_rate': 0.0001676352408496956, 'ppl': 1.819, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4387.08, 'total_tokens': 27966196, 'epoch': 0.8}
- 27%|█████████████████████████████▋                                                                                 | 667/2499 [1:19:54<3:11:08,  6.26s/it] 27%|█████████████████████████████▋                                                                                 | 668/2499 [1:20:01<3:11:24,  6.27s/it]                                                                                                                                                           {'loss': 0.5828, 'grad_norm': 0.16709184646606445, 'learning_rate': 0.00016754221678541367, 'ppl': 1.791, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4387.36, 'total_tokens': 27993823, 'epoch': 0.8}
- 27%|█████████████████████████████▋                                                                                 | 668/2499 [1:20:01<3:11:24,  6.27s/it] 27%|█████████████████████████████▋                                                                                 | 669/2499 [1:20:07<3:11:20,  6.27s/it]                                                                                                                                                           {'loss': 0.5743, 'grad_norm': 0.1495347023010254, 'learning_rate': 0.00016744908511792726, 'ppl': 1.7759, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4491.57, 'total_tokens': 28021994, 'epoch': 0.8}
- 27%|█████████████████████████████▋                                                                                 | 669/2499 [1:20:07<3:11:20,  6.27s/it] 27%|█████████████████████████████▊                                                                                 | 670/2499 [1:20:13<3:11:09,  6.27s/it]                                                                                                                                                           {'loss': 0.5361, 'grad_norm': 0.16424506902694702, 'learning_rate': 0.00016735584599560682, 'ppl': 1.7093, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4433.77, 'total_tokens': 28049760, 'epoch': 0.8}
- 27%|█████████████████████████████▊                                                                                 | 670/2499 [1:20:13<3:11:09,  6.27s/it] 27%|█████████████████████████████▊                                                                                 | 671/2499 [1:20:19<3:10:58,  6.27s/it]                                                                                                                                                           {'loss': 0.5669, 'grad_norm': 0.15702269971370697, 'learning_rate': 0.00016726249956699395, 'ppl': 1.7628, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4422.43, 'total_tokens': 28077446, 'epoch': 0.81}
- 27%|█████████████████████████████▊                                                                                 | 671/2499 [1:20:19<3:10:58,  6.27s/it] 27%|█████████████████████████████▊                                                                                 | 672/2499 [1:20:26<3:10:48,  6.27s/it]                                                                                                                                                           {'loss': 0.5313, 'grad_norm': 0.14038637280464172, 'learning_rate': 0.00016716904598080111, 'ppl': 1.7011, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4663.47, 'total_tokens': 28106634, 'epoch': 0.81}
- 27%|█████████████████████████████▊                                                                                 | 672/2499 [1:20:26<3:10:48,  6.27s/it] 27%|█████████████████████████████▉                                                                                 | 673/2499 [1:20:32<3:10:38,  6.26s/it]                                                                                                                                                           {'loss': 0.5654, 'grad_norm': 0.15101970732212067, 'learning_rate': 0.00016707548538591168, 'ppl': 1.7602, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4560.22, 'total_tokens': 28135170, 'epoch': 0.81}
- 27%|█████████████████████████████▉                                                                                 | 673/2499 [1:20:32<3:10:38,  6.26s/it] 27%|█████████████████████████████▉                                                                                 | 674/2499 [1:20:38<3:10:42,  6.27s/it]                                                                                                                                                           {'loss': 0.5556, 'grad_norm': 0.15208765864372253, 'learning_rate': 0.0001669818179313793, 'ppl': 1.743, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.13, 'tokens_per_second_per_gpu': 4615.18, 'total_tokens': 28164153, 'epoch': 0.81}
- 27%|█████████████████████████████▉                                                                                 | 674/2499 [1:20:38<3:10:42,  6.27s/it] 27%|█████████████████████████████▉                                                                                 | 675/2499 [1:20:44<3:10:47,  6.28s/it]                                                                                                                                                           {'loss': 0.5555, 'grad_norm': 0.1590418815612793, 'learning_rate': 0.000166888043766428, 'ppl': 1.7428, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4408.51, 'total_tokens': 28191869, 'epoch': 0.81}
- 27%|█████████████████████████████▉                                                                                 | 675/2499 [1:20:44<3:10:47,  6.28s/it] 27%|██████████████████████████████                                                                                 | 676/2499 [1:20:51<3:10:43,  6.28s/it]                                                                                                                                                           {'loss': 0.6053, 'grad_norm': 0.1561027318239212, 'learning_rate': 0.0001667941630404517, 'ppl': 1.8318, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4736.35, 'total_tokens': 28221602, 'epoch': 0.81}
- 27%|██████████████████████████████                                                                                 | 676/2499 [1:20:51<3:10:43,  6.28s/it] 27%|██████████████████████████████                                                                                 | 677/2499 [1:20:57<3:10:28,  6.27s/it]                                                                                                                                                           {'loss': 0.5262, 'grad_norm': 0.15915250778198242, 'learning_rate': 0.00016670017590301423, 'ppl': 1.6925, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4611.16, 'total_tokens': 28250459, 'epoch': 0.81}
- 27%|██████████████████████████████                                                                                 | 677/2499 [1:20:57<3:10:28,  6.27s/it] 27%|██████████████████████████████                                                                                 | 678/2499 [1:21:03<3:10:14,  6.27s/it]                                                                                                                                                           {'loss': 0.5602, 'grad_norm': 0.14580583572387695, 'learning_rate': 0.0001666060825038488, 'ppl': 1.751, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4565.83, 'total_tokens': 28279025, 'epoch': 0.81}
- 27%|██████████████████████████████                                                                                 | 678/2499 [1:21:03<3:10:14,  6.27s/it] 27%|██████████████████████████████▏                                                                                | 679/2499 [1:21:10<3:10:01,  6.26s/it]                                                                                                                                                           {'loss': 0.5398, 'grad_norm': 0.14442190527915955, 'learning_rate': 0.00016651188299285802, 'ppl': 1.7157, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4448.55, 'total_tokens': 28306844, 'epoch': 0.82}
- 27%|██████████████████████████████▏                                                                                | 679/2499 [1:21:10<3:10:01,  6.26s/it] 27%|██████████████████████████████▏                                                                                | 680/2499 [1:21:16<3:09:49,  6.26s/it]                                                                                                                                                           {'loss': 0.5656, 'grad_norm': 0.1592138707637787, 'learning_rate': 0.00016641757752011344, 'ppl': 1.7605, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4508.01, 'total_tokens': 28335030, 'epoch': 0.82}
- 27%|██████████████████████████████▏                                                                                | 680/2499 [1:21:16<3:09:49,  6.26s/it] 27%|██████████████████████████████▏                                                                                | 681/2499 [1:21:22<3:09:48,  6.26s/it]                                                                                                                                                           {'loss': 0.5587, 'grad_norm': 0.15959708392620087, 'learning_rate': 0.00016632316623585553, 'ppl': 1.7484, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4301.24, 'total_tokens': 28361993, 'epoch': 0.82}
- 27%|██████████████████████████████▏                                                                                | 681/2499 [1:21:22<3:09:48,  6.26s/it] 27%|██████████████████████████████▎                                                                                | 682/2499 [1:21:28<3:09:39,  6.26s/it]                                                                                                                                                           {'loss': 0.5892, 'grad_norm': 0.15612153708934784, 'learning_rate': 0.0001662286492904933, 'ppl': 1.8025, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4510.28, 'total_tokens': 28390207, 'epoch': 0.82}
- 27%|██████████████████████████████▎                                                                                | 682/2499 [1:21:28<3:09:39,  6.26s/it] 27%|██████████████████████████████▎                                                                                | 683/2499 [1:21:35<3:09:24,  6.26s/it]                                                                                                                                                           {'loss': 0.554, 'grad_norm': 0.14454488456249237, 'learning_rate': 0.00016613402683460398, 'ppl': 1.7402, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4489.04, 'total_tokens': 28418241, 'epoch': 0.82}
- 27%|██████████████████████████████▎                                                                                | 683/2499 [1:21:35<3:09:24,  6.26s/it] 27%|██████████████████████████████▍                                                                                | 684/2499 [1:21:41<3:09:24,  6.26s/it]                                                                                                                                                           {'loss': 0.5568, 'grad_norm': 0.16239210963249207, 'learning_rate': 0.00016603929901893305, 'ppl': 1.7451, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4551.45, 'total_tokens': 28446759, 'epoch': 0.82}
- 27%|██████████████████████████████▍                                                                                | 684/2499 [1:21:41<3:09:24,  6.26s/it] 27%|██████████████████████████████▍                                                                                | 685/2499 [1:21:47<3:09:15,  6.26s/it]                                                                                                                                                           {'loss': 0.5374, 'grad_norm': 0.15430286526679993, 'learning_rate': 0.0001659444659943938, 'ppl': 1.7116, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4503.42, 'total_tokens': 28474926, 'epoch': 0.82}
- 27%|██████████████████████████████▍                                                                                | 685/2499 [1:21:47<3:09:15,  6.26s/it] 27%|██████████████████████████████▍                                                                                | 686/2499 [1:21:53<3:09:13,  6.26s/it]                                                                                                                                                           {'loss': 0.6042, 'grad_norm': 0.15854589641094208, 'learning_rate': 0.00016584952791206704, 'ppl': 1.8298, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4610.25, 'total_tokens': 28503808, 'epoch': 0.82}
- 27%|██████████████████████████████▍                                                                                | 686/2499 [1:21:53<3:09:13,  6.26s/it] 27%|██████████████████████████████▌                                                                                | 687/2499 [1:22:00<3:09:18,  6.27s/it]                                                                                                                                                           {'loss': 0.5621, 'grad_norm': 0.1579902619123459, 'learning_rate': 0.0001657544849232011, 'ppl': 1.7544, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4556.28, 'total_tokens': 28532424, 'epoch': 0.82}
- 27%|██████████████████████████████▌                                                                                | 687/2499 [1:22:00<3:09:18,  6.27s/it] 28%|██████████████████████████████▌                                                                                | 688/2499 [1:22:06<3:09:14,  6.27s/it]                                                                                                                                                           {'loss': 0.5661, 'grad_norm': 0.14277489483356476, 'learning_rate': 0.00016565933717921128, 'ppl': 1.7614, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4680.69, 'total_tokens': 28561775, 'epoch': 0.83}
- 28%|██████████████████████████████▌                                                                                | 688/2499 [1:22:06<3:09:14,  6.27s/it] 28%|██████████████████████████████▌                                                                                | 689/2499 [1:22:12<3:08:58,  6.26s/it]                                                                                                                                                           {'loss': 0.5377, 'grad_norm': 0.14523279666900635, 'learning_rate': 0.00016556408483167986, 'ppl': 1.7121, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4541.27, 'total_tokens': 28590156, 'epoch': 0.83}
- 28%|██████████████████████████████▌                                                                                | 689/2499 [1:22:12<3:08:58,  6.26s/it] 28%|██████████████████████████████▋                                                                                | 690/2499 [1:22:18<3:08:46,  6.26s/it]                                                                                                                                                           {'loss': 0.5416, 'grad_norm': 0.16199174523353577, 'learning_rate': 0.00016546872803235578, 'ppl': 1.7188, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4446.12, 'total_tokens': 28617950, 'epoch': 0.83}
- 28%|██████████████████████████████▋                                                                                | 690/2499 [1:22:18<3:08:46,  6.26s/it] 28%|██████████████████████████████▋                                                                                | 691/2499 [1:22:25<3:08:50,  6.27s/it]                                                                                                                                                           {'loss': 0.5335, 'grad_norm': 0.15208809077739716, 'learning_rate': 0.0001653732669331543, 'ppl': 1.7049, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4633.04, 'total_tokens': 28647033, 'epoch': 0.83}
- 28%|██████████████████████████████▋                                                                                | 691/2499 [1:22:25<3:08:50,  6.27s/it] 28%|██████████████████████████████▋                                                                                | 692/2499 [1:22:31<3:08:50,  6.27s/it]                                                                                                                                                           {'loss': 0.5125, 'grad_norm': 0.15709447860717773, 'learning_rate': 0.00016527770168615698, 'ppl': 1.6695, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4624.44, 'total_tokens': 28676054, 'epoch': 0.83}
- 28%|██████████████████████████████▋                                                                                | 692/2499 [1:22:31<3:08:50,  6.27s/it] 28%|██████████████████████████████▊                                                                                | 693/2499 [1:22:37<3:09:02,  6.28s/it]                                                                                                                                                           {'loss': 0.4875, 'grad_norm': 0.1479036509990692, 'learning_rate': 0.00016518203244361116, 'ppl': 1.6282, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4542.67, 'total_tokens': 28704686, 'epoch': 0.83}
- 28%|██████████████████████████████▊                                                                                | 693/2499 [1:22:37<3:09:02,  6.28s/it] 28%|██████████████████████████████▊                                                                                | 694/2499 [1:22:44<3:08:55,  6.28s/it]                                                                                                                                                           {'loss': 0.6043, 'grad_norm': 0.172959104180336, 'learning_rate': 0.00016508625935792996, 'ppl': 1.83, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4336.96, 'total_tokens': 28731899, 'epoch': 0.83}
- 28%|██████████████████████████████▊                                                                                | 694/2499 [1:22:44<3:08:55,  6.28s/it] 28%|██████████████████████████████▊                                                                                | 695/2499 [1:22:50<3:08:44,  6.28s/it]                                                                                                                                                           {'loss': 0.5326, 'grad_norm': 0.154370978474617, 'learning_rate': 0.0001649903825816918, 'ppl': 1.7034, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4565.64, 'total_tokens': 28760516, 'epoch': 0.83}
- 28%|██████████████████████████████▊                                                                                | 695/2499 [1:22:50<3:08:44,  6.28s/it] 28%|██████████████████████████████▉                                                                                | 696/2499 [1:22:56<3:08:24,  6.27s/it]                                                                                                                                                           {'loss': 0.5108, 'grad_norm': 0.157211035490036, 'learning_rate': 0.00016489440226764051, 'ppl': 1.6666, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4367.51, 'total_tokens': 28787806, 'epoch': 0.84}
- 28%|██████████████████████████████▉                                                                                | 696/2499 [1:22:56<3:08:24,  6.27s/it] 28%|██████████████████████████████▉                                                                                | 697/2499 [1:23:02<3:08:08,  6.26s/it]                                                                                                                                                           {'loss': 0.5681, 'grad_norm': 0.1627659946680069, 'learning_rate': 0.0001647983185686847, 'ppl': 1.7649, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4431.29, 'total_tokens': 28815504, 'epoch': 0.84}
- 28%|██████████████████████████████▉                                                                                | 697/2499 [1:23:02<3:08:08,  6.26s/it] 28%|███████████████████████████████                                                                                | 698/2499 [1:23:09<3:08:02,  6.26s/it]                                                                                                                                                           {'loss': 0.5997, 'grad_norm': 0.1593720018863678, 'learning_rate': 0.00016470213163789765, 'ppl': 1.8216, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4492.52, 'total_tokens': 28843640, 'epoch': 0.84}
- 28%|███████████████████████████████                                                                                | 698/2499 [1:23:09<3:08:02,  6.26s/it] 28%|██████████████████████████████���                                                                                | 699/2499 [1:23:15<3:07:55,  6.26s/it]                                                                                                                                                           {'loss': 0.6004, 'grad_norm': 0.1652214229106903, 'learning_rate': 0.00016460584162851727, 'ppl': 1.8228, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4455.31, 'total_tokens': 28871533, 'epoch': 0.84}
- 28%|███████████████████████████████                                                                                | 699/2499 [1:23:15<3:07:55,  6.26s/it] 28%|███████████████████████████████                                                                                | 700/2499 [1:23:21<3:08:09,  6.28s/it]                                                                                                                                                           {'loss': 0.6045, 'grad_norm': 0.4151879847049713, 'learning_rate': 0.00016450944869394554, 'ppl': 1.8303, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.19, 'tokens_per_second_per_gpu': 4499.12, 'total_tokens': 28899871, 'epoch': 0.84}
- 28%|███████████████████████████████                                                                                | 700/2499 [1:23:21<3:08:09,  6.28s/it][2025-12-28 12:28:57,781] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:42410] Running evaluation step...
-[2025-12-28 12:29:00,510] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 1.3375587463378906
-[2025-12-28 12:29:01,570] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 1.0599887371063232
-[2025-12-28 12:29:02,589] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 1.0184319019317627
-[2025-12-28 12:29:03,500] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.9104523658752441
-[2025-12-28 12:29:03,500] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
+  0%|                                                                                                                               | 0/72 [00:00<?, ?it/s][A
+  3%|███▎                                                                                                                   | 2/72 [00:02<01:19,  1.13s/it][A
+  4%|████▉                                                                                                                  | 3/72 [00:04<01:40,  1.46s/it][A
+  6%|██████▌                                                                                                                | 4/72 [00:06<01:50,  1.62s/it][A
+  7%|████████▎                                                                                                              | 5/72 [00:07<01:54,  1.71s/it][A
+  8%|█████████▉                                                                                                             | 6/72 [00:09<01:56,  1.76s/it][A
+ 10%|███████████▌                                                                                                           | 7/72 [00:11<01:58,  1.82s/it][A
+ 11%|█████████████▏                                                                                                         | 8/72 [00:13<01:57,  1.84s/it][A
+ 12%|██████████████▉                                                                                                        | 9/72 [00:15<01:57,  1.86s/it][A
+ 14%|████████████████▍                                                                                                     | 10/72 [00:17<01:56,  1.87s/it][A
+ 15%|██████████████████                                                                                                    | 11/72 [00:19<01:54,  1.88s/it][A
+ 17%|███████████████████▋                                                                                                  | 12/72 [00:21<01:53,  1.89s/it][A
+ 18%|█████████████████████▎                                                                                                | 13/72 [00:23<01:51,  1.89s/it][A
+ 19%|██████████████████████▉                                                                                               | 14/72 [00:25<01:50,  1.90s/it][A
+ 21%|████████████████████████▌                                                                                             | 15/72 [00:26<01:48,  1.90s/it][A
+ 22%|██████████████████████████▏                                                                                           | 16/72 [00:28<01:45,  1.89s/it][A
+ 24%|███████████████████████████▊                                                                                          | 17/72 [00:30<01:43,  1.88s/it][A
+ 25%|█████████████████████████████▌                                                                                        | 18/72 [00:32<01:42,  1.89s/it][A
+ 26%|███████████████████████████████▏                                                                                      | 19/72 [00:34<01:40,  1.89s/it][A
+ 28%|████████████████████████████████▊                                                                                     | 20/72 [00:36<01:38,  1.90s/it][A
+ 29%|██████████████████████████████████▍                                                                                   | 21/72 [00:38<01:36,  1.90s/it][A
+ 31%|████████████████████████████████████                                                                                  | 22/72 [00:40<01:35,  1.90s/it][A
+ 32%|█████████████████████████████████████▋                                                                                | 23/72 [00:42<01:33,  1.90s/it][A
+ 33%|███████████████████████████████████████▎                                                                              | 24/72 [00:44<01:31,  1.90s/it][A
+ 35%|████████████████████████████████████████▉                                                                             | 25/72 [00:45<01:29,  1.91s/it][A
+ 36%|██████████████████████████████████████████▌                                                                           | 26/72 [00:47<01:27,  1.90s/it][A
+ 38%|████████████████████████████████████████████▎                                                                         | 27/72 [00:49<01:25,  1.89s/it][A
+ 39%|█████████████████████████████████████████████▉                                                                        | 28/72 [00:51<01:23,  1.89s/it][A
+ 40%|███████████████████████████████████████████████▌                                                                      | 29/72 [00:53<01:21,  1.89s/it][A
+ 42%|█████████████████████████████████████████████████▏                                                                    | 30/72 [00:55<01:20,  1.91s/it][A
+ 43%|██████████████████████████████████████████████████▊                                                                   | 31/72 [00:57<01:18,  1.91s/it][A
+ 44%|████████████████████████████████████████████████████▍                                                                 | 32/72 [00:59<01:17,  1.94s/it][A
+ 46%|██████████████████████████████████████████████████████                                                                | 33/72 [01:01<01:15,  1.93s/it][A
+ 47%|███████████████████████████████████████████████████████▋                                                              | 34/72 [01:03<01:13,  1.93s/it][A
+ 49%|█████████████████████████████████████████████████████████▎                                                            | 35/72 [01:05<01:11,  1.92s/it][A
+ 50%|███████████████���███████████████████████████████████████████                                                           | 36/72 [01:07<01:08,  1.91s/it][A
+ 51%|████████████████████████████████████████████████████████████▋                                                         | 37/72 [01:08<01:06,  1.90s/it][A
+ 53%|██████████████████████████████████████████████████████████████▎                                                       | 38/72 [01:10<01:04,  1.89s/it][A
+ 54%|███████████████████████████████████████████████████████████████▉                                                      | 39/72 [01:12<01:02,  1.91s/it][A
+ 56%|█████████████████████████████████████████████████████████████████▌                                                    | 40/72 [01:15<01:06,  2.07s/it][A
+ 57%|███████████████████████████████████████████████████████████████████▏                                                  | 41/72 [01:17<01:02,  2.02s/it][A
+ 58%|████████████████████████████████████████████████████████████████████▊                                                 | 42/72 [01:18<00:59,  1.99s/it][A
+ 60%|██████████████████████████████████████████████████████████████████████▍                                               | 43/72 [01:20<00:56,  1.96s/it][A
+ 61%|████████████████████████████████████████████████████████████████████████                                              | 44/72 [01:22<00:54,  1.94s/it][A
+ 62%|█████████████████████████████████████████████████████████████████████████▊                                            | 45/72 [01:24<00:52,  1.93s/it][A
+ 64%|███████████████████████████████████████████████████████████████████████████▍                                          | 46/72 [01:26<00:50,  1.92s/it][A
+ 65%|█████████████████████████████████████████████████████████████████████████████                                         | 47/72 [01:28<00:47,  1.91s/it][A
+ 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 48/72 [01:30<00:45,  1.90s/it][A
+ 68%|████████████████████████████████████████████████████████████████████████████████▎                                     | 49/72 [01:32<00:44,  1.93s/it][A
+ 69%|█████████████████████████████████████████████████████████████████████████████████▉                                    | 50/72 [01:34<00:42,  1.92s/it][A
+ 71%|███████████████████████████████████████████████████████████████████████████████████▌                                  | 51/72 [01:36<00:40,  1.91s/it][A
+ 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 52/72 [01:38<00:38,  1.91s/it][A
+ 74%|██████████████████████████████████████████████████████████████████████████████████████▊                               | 53/72 [01:39<00:36,  1.91s/it][A
+ 75%|████████████████████████████████████████████████████████████████████████████████████████▌                             | 54/72 [01:41<00:34,  1.91s/it][A
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████▏                           | 55/72 [01:43<00:32,  1.91s/it][A
+ 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 56/72 [01:45<00:30,  1.91s/it][A
+ 79%|█████████████████████████████████████████████████████████████████████████████████████████████▍                        | 57/72 [01:47<00:28,  1.90s/it][A
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████                       | 58/72 [01:49<00:26,  1.89s/it][A
+ 82%|████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 59/72 [01:51<00:24,  1.89s/it][A
+ 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 60/72 [01:53<00:22,  1.89s/it][A
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 61/72 [01:55<00:20,  1.89s/it][A
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 62/72 [01:56<00:18,  1.90s/it][A
+ 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 63/72 [01:58<00:17,  1.90s/it][A
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 64/72 [02:00<00:15,  1.90s/it][A
+ 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 65/72 [02:02<00:13,  1.90s/it][A
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 66/72 [02:04<00:11,  1.90s/it][A
+ 93%|█████████████████████████████��███████████████████████████████████████████████████████████████████████████████▊        | 67/72 [02:06<00:09,  1.91s/it][A
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 68/72 [02:08<00:07,  1.90s/it][A
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 69/72 [02:10<00:05,  1.90s/it][A
+ 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 70/72 [02:12<00:03,  1.97s/it][A
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 71/72 [02:14<00:01,  1.97s/it][A
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [02:16<00:00,  1.99s/it][A                                                                                                                                                           
+                                                                                                                                                           [A{'eval_loss': 0.540988564491272, 'eval_runtime': 138.0264, 'eval_samples_per_second': 5.289, 'eval_steps_per_second': 1.058, 'eval_ppl': 1.7177, 'memory/max_active (GiB)': 19.1, 'memory/max_allocated (GiB)': 19.1, 'memory/device_reserved (GiB)': 139.02, 'epoch': 0.75}
+ 25%|███████████████████████████▌                                                                                  | 1000/3996 [1:16:53<3:40:01,  4.41s/it]
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [02:16<00:00,  1.99s/it][A
+                                                                                                                                                           [A[2025-12-29 04:06:38,383] [INFO] [axolotl.core.trainers.base._save:692] [PID:3751] Saving model checkpoint to ./outputs/luau-codellama-h200-fast/checkpoint-1000
+ 25%|███████████████████████████▎                                                                                 | 1001/3996 [1:16:57<38:35:51, 46.39s/it] 25%|███████████████████████████▎                                                                                 | 1002/3996 [1:17:01<28:03:49, 33.74s/it] 25%|███████████████████████████▎                                                                                 | 1003/3996 [1:17:06<20:49:21, 25.05s/it] 25%|███████████████████████████▍                                                                                 | 1004/3996 [1:17:10<15:37:18, 18.80s/it] 25%|███████████████████████████▍                                                                                 | 1005/3996 [1:17:14<11:58:44, 14.42s/it] 25%|███████████████████████████▋                                                                                  | 1006/3996 [1:17:19<9:27:10, 11.38s/it] 25%|███████████████████████████���                                                                                  | 1007/3996 [1:17:23<7:39:59,  9.23s/it] 25%|███████████████████████████▋                                                                                  | 1008/3996 [1:17:27<6:24:38,  7.72s/it] 25%|███████████████████████████▊                                                                                  | 1009/3996 [1:17:31<5:31:55,  6.67s/it] 25%|███████████████████████████▊                                                                                  | 1010/3996 [1:17:36<5:03:38,  6.10s/it] 25%|███████████████████████████▊                                                                                  | 1011/3996 [1:17:40<4:35:23,  5.54s/it] 25%|███████████████████████████▊                                                                                  | 1012/3996 [1:17:44<4:15:56,  5.15s/it] 25%|███████████████████████████▉                                                                                  | 1013/3996 [1:17:49<4:01:47,  4.86s/it] 25%|███████████████████████████▉                                                                                  | 1014/3996 [1:17:53<3:51:57,  4.67s/it] 25%|███████████████████████████▉                                                                                  | 1015/3996 [1:17:57<3:44:59,  4.53s/it] 25%|███████████████████████████▉                                                                                  | 1016/3996 [1:18:01<3:40:04,  4.43s/it] 25%|███████████████████████████▉                                                                                  | 1017/3996 [1:18:06<3:44:43,  4.53s/it] 25%|████████████████████████████                                                                                  | 1018/3996 [1:18:10<3:40:14,  4.44s/it] 26%|████████████████████████████                                                                                  | 1019/3996 [1:18:14<3:36:42,  4.37s/it] 26%|████████████████████████████                                                                                  | 1020/3996 [1:18:19<3:34:03,  4.32s/it] 26%|████████████████████████████                                                                                  | 1021/3996 [1:18:23<3:32:21,  4.28s/it] 26%|████████████████████████████▏                                                                                 | 1022/3996 [1:18:27<3:35:31,  4.35s/it] 26%|████████████████████████████▏                                                                                 | 1023/3996 [1:18:31<3:33:12,  4.30s/it] 26%|████████████████████████████▏                                                                                 | 1024/3996 [1:18:36<3:39:51,  4.44s/it] 26%|████████████████████████████▏                                                                                 | 1025/3996 [1:18:40<3:36:16,  4.37s/it]                                                                                                                                                           {'loss': 0.549, 'grad_norm': 0.2199818342924118, 'learning_rate': 0.00017350336741329413, 'ppl': 1.7315, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4129.73, 'total_tokens': 20870820, 'epoch': 0.77}
+ 26%|████████████████████████████▏                                                                                 | 1025/3996 [1:18:40<3:36:16,  4.37s/it] 26%|████████████████████████████▏                                                                                 | 1026/3996 [1:18:45<3:33:50,  4.32s/it] 26%|████████████████████████████▎                                                                                 | 1027/3996 [1:18:49<3:31:49,  4.28s/it] 26%|███████████████████████��████▎                                                                                 | 1028/3996 [1:18:53<3:30:46,  4.26s/it] 26%|████████████████████████████▎                                                                                 | 1029/3996 [1:18:57<3:29:55,  4.25s/it] 26%|████████████████████████████▎                                                                                 | 1030/3996 [1:19:01<3:29:29,  4.24s/it] 26%|████████████████████████████▍                                                                                 | 1031/3996 [1:19:06<3:36:59,  4.39s/it] 26%|████████████████████████████▍                                                                                 | 1032/3996 [1:19:10<3:34:25,  4.34s/it] 26%|████████████████████████████▍                                                                                 | 1033/3996 [1:19:15<3:32:38,  4.31s/it] 26%|████████████████████████████▍                                                                                 | 1034/3996 [1:19:19<3:31:06,  4.28s/it] 26%|████████████████████████████▍                                                                                 | 1035/3996 [1:19:23<3:30:24,  4.26s/it] 26%|████████████████████████████▌                                                                                 | 1036/3996 [1:19:27<3:29:45,  4.25s/it] 26%|████████████████████████████▌                                                                                 | 1037/3996 [1:19:32<3:29:14,  4.24s/it] 26%|████████████████████████████▌                                                                                 | 1038/3996 [1:19:36<3:36:45,  4.40s/it] 26%|████████████████████████████▌                                                                                 | 1039/3996 [1:19:41<3:34:05,  4.34s/it] 26%|████████████████████████████▋                                                                                 | 1040/3996 [1:19:45<3:35:13,  4.37s/it] 26%|████████████████████████████▋                                                                                 | 1041/3996 [1:19:49<3:32:42,  4.32s/it] 26%|████████████████████████████▋                                                                                 | 1042/3996 [1:19:53<3:31:23,  4.29s/it] 26%|████████████████████████████▋                                                                                 | 1043/3996 [1:19:58<3:30:10,  4.27s/it] 26%|████████████████████████████▋                                                                                 | 1044/3996 [1:20:02<3:29:38,  4.26s/it] 26%|████████████████████████████▊                                                                                 | 1045/3996 [1:20:07<3:36:54,  4.41s/it] 26%|████████████████████████████▊                                                                                 | 1046/3996 [1:20:11<3:34:08,  4.36s/it] 26%|████████████████████████████▊                                                                                 | 1047/3996 [1:20:15<3:32:14,  4.32s/it] 26%|████████████████████████████▊                                                                                 | 1048/3996 [1:20:19<3:30:34,  4.29s/it] 26%|████████████████████████████▉                                                                                 | 1049/3996 [1:20:24<3:29:45,  4.27s/it] 26%|████████████████████████████▉                                                                                 | 1050/3996 [1:20:28<3:28:52,  4.25s/it]                                                                                                                                                           {'loss': 0.5615, 'grad_norm': 0.19783177971839905, 'learning_rate': 0.0001721216769951596, 'ppl': 1.7533, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4243.63, 'total_tokens': 21317982, 'epoch': 0.79}
+ 26%|████████████████████████████▉                                                                                 | 1050/3996 [1:20:28<3:28:52,  4.25s/it] 26%|████████████████████████████▉                                                                                 | 1051/3996 [1:20:32<3:28:09,  4.24s/it] 26%|████████████████████████████▉                                                                                 | 1052/3996 [1:20:37<3:36:40,  4.42s/it] 26%|████████████████████████████▉                                                                                 | 1053/3996 [1:20:41<3:33:34,  4.35s/it] 26%|█████████████████████████████                                                                                 | 1054/3996 [1:20:45<3:31:31,  4.31s/it] 26%|█████████████████████████████                                                                                 | 1055/3996 [1:20:49<3:29:49,  4.28s/it] 26%|█████████████████████████████                                                                                 | 1056/3996 [1:20:54<3:29:07,  4.27s/it] 26%|█████████████████████████████                                                                                 | 1057/3996 [1:20:58<3:28:02,  4.25s/it] 26%|█████████████████████████████                                                                                 | 1058/3996 [1:21:02<3:27:52,  4.25s/it] 27%|█████████████████████████████▏                                                                                | 1059/3996 [1:21:07<3:34:51,  4.39s/it] 27%|█████████████████████████████▏                                                                                | 1060/3996 [1:21:11<3:32:27,  4.34s/it] 27%|█████████████████████████████▏                                                                                | 1061/3996 [1:21:15<3:30:24,  4.30s/it] 27%|█████████████████████████████▏                                                                                | 1062/3996 [1:21:19<3:28:49,  4.27s/it] 27%|█████████████████████████████▎                                                                                | 1063/3996 [1:21:24<3:28:02,  4.26s/it] 27%|█████████████████████████████▎                                                                                | 1064/3996 [1:21:28<3:27:05,  4.24s/it] 27%|█████████████████████████████▎                                                                                | 1065/3996 [1:21:32<3:26:44,  4.23s/it] 27%|█████████████████████████████▎                                                                                | 1066/3996 [1:21:37<3:35:37,  4.42s/it] 27%|█████████████████████████████▎                                                                                | 1067/3996 [1:21:41<3:32:38,  4.36s/it] 27%|█████████████████████████████▍                                                                                | 1068/3996 [1:21:45<3:30:16,  4.31s/it] 27%|█████████████████████████████▍                                                                                | 1069/3996 [1:21:50<3:28:51,  4.28s/it] 27%|█████████████████████████████▍                                                                                | 1070/3996 [1:21:54<3:27:56,  4.26s/it] 27%|█████████████████████████████▍                                                                                | 1071/3996 [1:21:58<3:26:49,  4.24s/it] 27%|█████████████████████████████▌                                                                                | 1072/3996 [1:22:02<3:26:26,  4.24s/it] 27%|█████████████████████████████▌                                                                                | 1073/3996 [1:22:07<3:33:41,  4.39s/it] 27%|█████████████████████████████▌                                                                                | 1074/3996 [1:22:11<3:31:11,  4.34s/it] 27%|█████████████████████████████▌                                                                                | 1075/3996 [1:22:15<3:30:03,  4.31s/it]                                                                                                                                                           {'loss': 0.5557, 'grad_norm': 0.1678430140018463, 'learning_rate': 0.00017071067811865476, 'ppl': 1.7432, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4092.04, 'total_tokens': 21754087, 'epoch': 0.81}
+ 27%|█████████████████████████████▌                                                                                | 1075/3996 [1:22:15<3:30:03,  4.31s/it] 27%|█████████████████████████████▌                                                                                | 1076/3996 [1:22:21<3:42:22,  4.57s/it] 27%|█████████████████████████████▋                                                                                | 1077/3996 [1:22:25<3:37:09,  4.46s/it] 27%|█████████████████████████████▋                                                                                | 1078/3996 [1:22:29<3:33:13,  4.38s/it] 27%|█████████████████████████████▋                                                                                | 1079/3996 [1:22:33<3:30:35,  4.33s/it] 27%|█████████████████████████████▋                                                                                | 1080/3996 [1:22:38<3:36:23,  4.45s/it] 27%|█████████████████████████████▊                                                                                | 1081/3996 [1:22:42<3:33:04,  4.39s/it] 27%|█████████████████████████████▊                                                                                | 1082/3996 [1:22:46<3:30:23,  4.33s/it] 27%|█████████████████████████████▊                                                                                | 1083/3996 [1:22:51<3:28:31,  4.29s/it] 27%|█████████████████████████████▊                                                                                | 1084/3996 [1:22:55<3:27:16,  4.27s/it] 27%|█████████████████████████████▊                                                                                | 1085/3996 [1:22:59<3:26:15,  4.25s/it] 27%|█████████████████████████████▉                                                                                | 1086/3996 [1:23:03<3:25:29,  4.24s/it] 27%|█████████████████████████████▉                                                                                | 1087/3996 [1:23:08<3:32:34,  4.38s/it] 27%|█████████████████████████████▉                                                                                | 1088/3996 [1:23:12<3:30:08,  4.34s/it] 27%|█████████████████████████████▉                                                                                | 1089/3996 [1:23:16<3:28:03,  4.29s/it] 27%|██████████████████████████████                                                                                | 1090/3996 [1:23:21<3:32:28,  4.39s/it] 27%|██████████████████████████████                                                                                | 1091/3996 [1:23:25<3:29:59,  4.34s/it] 27%|██████████████████████████████                                                                                | 1092/3996 [1:23:29<3:28:00,  4.30s/it] 27%|██████████████████████████████                                                                                | 1093/3996 [1:23:34<3:26:41,  4.27s/it] 27%|██████████████████████████████                                                                                | 1094/3996 [1:23:39<3:38:31,  4.52s/it] 27%|██████████████████████████████▏                                                                               | 1095/3996 [1:23:43<3:34:02,  4.43s/it] 27%|██████████████████████████████▏                                                                               | 1096/3996 [1:23:47<3:30:51,  4.36s/it] 27%|██████████████████████████████▏                                                                               | 1097/3996 [1:23:51<3:28:33,  4.32s/it] 27%|██████████████████████████████▏                                                                               | 1098/3996 [1:23:56<3:27:10,  4.29s/it] 28%|██████████████████████████████▎                                                                               | 1099/3996 [1:24:00<3:25:59,  4.27s/it] 28%|██████████████████████████████▎                                                                               | 1100/3996 [1:24:04<3:25:40,  4.26s/it]                                                                                                                                                           {'loss': 0.556, 'grad_norm': 0.16523879766464233, 'learning_rate': 0.00016927094417868048, 'ppl': 1.7437, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4187.02, 'total_tokens': 22198779, 'epoch': 0.83}
+ 28%|██████████████████████████████▎                                                                               | 1100/3996 [1:24:04<3:25:40,  4.26s/it] 28%|██████████████████████████████▎                                                                               | 1101/3996 [1:24:09<3:32:40,  4.41s/it] 28%|██████████████████████████████▎                                                                               | 1102/3996 [1:24:13<3:29:52,  4.35s/it] 28%|██████████████████████████████▎                                                                               | 1103/3996 [1:24:17<3:28:31,  4.32s/it] 28%|██████████████████████████████▍                                                                               | 1104/3996 [1:24:21<3:26:38,  4.29s/it] 28%|██████████████████████████████▍                                                                               | 1105/3996 [1:24:26<3:25:37,  4.27s/it] 28%|██████████████████████████████▍                                                                               | 1106/3996 [1:24:30<3:24:48,  4.25s/it] 28%|██████████████████████████████▍                                                                               | 1107/3996 [1:24:34<3:24:31,  4.25s/it] 28%|██████████████████████████████▌                                                                               | 1108/3996 [1:24:39<3:31:57,  4.40s/it] 28%|██████████████████████████████▌                                                                               | 1109/3996 [1:24:43<3:29:23,  4.35s/it] 28%|██████████████████████████████▌                                                                               | 1110/3996 [1:24:47<3:27:09,  4.31s/it] 28%|██████████████████████████████▌                                                                               | 1111/3996 [1:24:52<3:25:30,  4.27s/it] 28%|██████████████████████████████▌                                                                               | 1112/3996 [1:24:56<3:27:52,  4.32s/it] 28%|██████████████████████████████▋                                                                               | 1113/3996 [1:25:00<3:26:14,  4.29s/it] 28%|██████████████████████████████▋                                                                               | 1114/3996 [1:25:04<3:24:47,  4.26s/it] 28%|██████████████████████████████▋                                                                               | 1115/3996 [1:25:09<3:31:34,  4.41s/it] 28%|██████████████████████████████▋                                                                               | 1116/3996 [1:25:13<3:28:52,  4.35s/it] 28%|██████████████████████████████▋                                                                               | 1117/3996 [1:25:18<3:26:46,  4.31s/it] 28%|██████████████████████████████▊                                                                               | 1118/3996 [1:25:22<3:25:07,  4.28s/it] 28%|██████████████████████████████▊                                                                               | 1119/3996 [1:25:26<3:23:57,  4.25s/it] 28%|██████████████████████████████▊                                                                               | 1120/3996 [1:25:30<3:23:18,  4.24s/it] 28%|██████████████████████████████▊                                                                               | 1121/3996 [1:25:34<3:22:55,  4.23s/it] 28%|██████████████████████████████▉                                                                               | 1122/3996 [1:25:39<3:30:26,  4.39s/it] 28%|██████████████████████████████▉                                                                               | 1123/3996 [1:25:43<3:27:50,  4.34s/it] 28%|██████████████████████████████▉                                                                               | 1124/3996 [1:25:48<3:26:00,  4.30s/it] 28%|██████████████████████████████▉                                                                               | 1125/3996 [1:25:52<3:24:28,  4.27s/it]                                                                                                                                                           {'loss': 0.5468, 'grad_norm': 0.18177717924118042, 'learning_rate': 0.00016780306024735382, 'ppl': 1.7277, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4198.97, 'total_tokens': 22639769, 'epoch': 0.84}
+ 28%|██████████████████████████████▉                                                                               | 1125/3996 [1:25:52<3:24:28,  4.27s/it] 28%|██████████████████████████████▉                                                                               | 1126/3996 [1:25:56<3:23:31,  4.25s/it] 28%|███████████████████████████████                                                                               | 1127/3996 [1:26:00<3:22:43,  4.24s/it] 28%|███████████████████████████████                                                                               | 1128/3996 [1:26:04<3:22:13,  4.23s/it] 28%|███████████████████████████████                                                                               | 1129/3996 [1:26:10<3:36:51,  4.54s/it] 28%|███████████████████████████████                                                                               | 1130/3996 [1:26:14<3:32:09,  4.44s/it] 28%|███████████████████████████████▏                                                                              | 1131/3996 [1:26:18<3:28:42,  4.37s/it] 28%|███████████████████████████████▏                                                                              | 1132/3996 [1:26:22<3:26:12,  4.32s/it] 28%|███████████████████████████████▏                                                                              | 1133/3996 [1:26:26<3:24:40,  4.29s/it] 28%|███████████████████████���███████▏                                                                              | 1134/3996 [1:26:31<3:23:26,  4.27s/it] 28%|███████████████████████████████▏                                                                              | 1135/3996 [1:26:36<3:45:13,  4.72s/it] 28%|███████████████████████████████▎                                                                              | 1136/3996 [1:26:41<3:45:37,  4.73s/it] 28%|███████████████████████████████▎                                                                              | 1137/3996 [1:26:45<3:38:03,  4.58s/it] 28%|███████████████████████████████▎                                                                              | 1138/3996 [1:26:50<3:32:27,  4.46s/it] 29%|███████████████████████████████▎                                                                              | 1139/3996 [1:26:54<3:28:42,  4.38s/it] 29%|███████████████████████████████▍                                                                              | 1140/3996 [1:26:58<3:26:17,  4.33s/it] 29%|███████████████████████████████▍                                                                              | 1141/3996 [1:27:02<3:24:35,  4.30s/it] 29%|███████████████████████████████▍                                                                              | 1142/3996 [1:27:07<3:23:17,  4.27s/it] 29%|███████████████████████████████▍                                                                              | 1143/3996 [1:27:11<3:29:56,  4.42s/it] 29%|███████████████████████████████▍                                                                              | 1144/3996 [1:27:16<3:27:36,  4.37s/it] 29%|███████████████████████████████▌                                                                              | 1145/3996 [1:27:20<3:25:10,  4.32s/it] 29%|███████████████████████████████▌                                                                              | 1146/3996 [1:27:24<3:23:19,  4.28s/it] 29%|███████████████████████████████▌                                                                              | 1147/3996 [1:27:28<3:22:15,  4.26s/it] 29%|███████████████████████████████▌                                                                              | 1148/3996 [1:27:32<3:21:17,  4.24s/it] 29%|███████████████████████████████▋                                                                              | 1149/3996 [1:27:36<3:20:26,  4.22s/it] 29%|███████████████████████████████▋                                                                              | 1150/3996 [1:27:41<3:27:53,  4.38s/it]                                                                                                                                                           {'loss': 0.554, 'grad_norm': 0.17299720644950867, 'learning_rate': 0.0001663076228362492, 'ppl': 1.7402, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3762.13, 'total_tokens': 23086742, 'epoch': 0.86}
+ 29%|███████████████████████████████▋                                                                              | 1150/3996 [1:27:41<3:27:53,  4.38s/it] 29%|███████████████████████████████▋                                                                              | 1151/3996 [1:27:45<3:25:21,  4.33s/it] 29%|███████████████████████████████▋                                                                              | 1152/3996 [1:27:50<3:23:19,  4.29s/it] 29%|███████████████████████████████▋                                                                              | 1153/3996 [1:27:54<3:21:54,  4.26s/it] 29%|███████████████████████████████▊                                                                              | 1154/3996 [1:27:58<3:21:15,  4.25s/it] 29%|███████████████████████████████▊                                                                              | 1155/3996 [1:28:02<3:20:32,  4.24s/it] 29%|███████████████████████████████▊                                                                              | 1156/3996 [1:28:06<3:19:56,  4.22s/it] 29%|███████████████████████████████▊                                                                              | 1157/3996 [1:28:11<3:27:09,  4.38s/it] 29%|███████████████████████████████▉                                                                              | 1158/3996 [1:28:15<3:24:37,  4.33s/it] 29%|███████████████████████████████▉                                                                              | 1159/3996 [1:28:20<3:22:45,  4.29s/it] 29%|███████████████████████████████▉                                                                              | 1160/3996 [1:28:24<3:21:10,  4.26s/it] 29%|███████████████████████████████▉                                                                              | 1161/3996 [1:28:28<3:20:28,  4.24s/it] 29%|███████████████████████████████▉                                                                              | 1162/3996 [1:28:32<3:19:48,  4.23s/it] 29%|████████████████████████████████                                                                              | 1163/3996 [1:28:36<3:19:19,  4.22s/it] 29%|████████████████████████████████                                                                              | 1164/3996 [1:28:41<3:26:54,  4.38s/it] 29%|████████████████████████████████                                                                              | 1165/3996 [1:28:45<3:24:16,  4.33s/it] 29%|████████████████████████████████                                                                              | 1166/3996 [1:28:50<3:22:02,  4.28s/it] 29%|████████████████████████████████                                                                              | 1167/3996 [1:28:54<3:20:37,  4.25s/it] 29%|████████████████████████████████▏                                                                             | 1168/3996 [1:28:58<3:19:48,  4.24s/it] 29%|████████████████████████████████▏                                                                             | 1169/3996 [1:29:02<3:19:14,  4.23s/it] 29%|████████████████████████████████▏                                                                             | 1170/3996 [1:29:06<3:18:40,  4.22s/it] 29%|████████████████████████████████▏                                                                             | 1171/3996 [1:29:11<3:25:55,  4.37s/it] 29%|████████████████████████████████▎                                                                             | 1172/3996 [1:29:15<3:23:39,  4.33s/it] 29%|████████████████████████████████▎                                                                             | 1173/3996 [1:29:19<3:21:52,  4.29s/it] 29%|████████████████████████████████▎                                                                             | 1174/3996 [1:29:24<3:20:27,  4.26s/it] 29%|████████████████████████████████▎                                                                             | 1175/3996 [1:29:28<3:19:29,  4.24s/it]                                                                                                                                                           {'loss': 0.5434, 'grad_norm': 0.19112971425056458, 'learning_rate': 0.00016478523965399085, 'ppl': 1.7219, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4205.37, 'total_tokens': 23528106, 'epoch': 0.88}
+ 29%|████████████████████████████████▎                                                                             | 1175/3996 [1:29:28<3:19:29,  4.24s/it] 29%|████████████████████████████████▎                                                                             | 1176/3996 [1:29:32<3:18:51,  4.23s/it] 29%|████████████████████████████████▍                                                                             | 1177/3996 [1:29:36<3:18:28,  4.22s/it] 29%|████████████████████████████████▍                                                                             | 1178/3996 [1:29:41<3:25:38,  4.38s/it] 30%|████████████████████████████████▍                                                                             | 1179/3996 [1:29:45<3:23:01,  4.32s/it] 30%|████████████████████████████████▍                                                                             | 1180/3996 [1:29:49<3:20:56,  4.28s/it] 30%|████████████████████████████████▌                                                                             | 1181/3996 [1:29:54<3:19:36,  4.25s/it] 30%|████████████████████████████████▌                                                                             | 1182/3996 [1:29:58<3:18:49,  4.24s/it] 30%|████████████████████████████████▌                                                                             | 1183/3996 [1:30:02<3:18:22,  4.23s/it] 30%|████████████████████████████████▌                                                                             | 1184/3996 [1:30:06<3:17:55,  4.22s/it] 30%|████████████████████████████████▌                                                                             | 1185/3996 [1:30:11<3:32:19,  4.53s/it] 30%|████████████████████████████████▋                                                                             | 1186/3996 [1:30:16<3:27:39,  4.43s/it] 30%|████████████████████████████████▋                                                                             | 1187/3996 [1:30:20<3:24:13,  4.36s/it] 30%|████████████████████████████████▋                                                                             | 1188/3996 [1:30:24<3:21:53,  4.31s/it] 30%|████████████████████████████████▋                                                                             | 1189/3996 [1:30:28<3:20:19,  4.28s/it] 30%|████████████████████████████████▊                                                                             | 1190/3996 [1:30:32<3:19:08,  4.26s/it] 30%|████████████████████████████████▊                                                                             | 1191/3996 [1:30:37<3:18:18,  4.24s/it] 30%|████████████████████████████████▊                                                                             | 1192/3996 [1:30:41<3:25:23,  4.39s/it] 30%|████████████████████████████████▊                                                                             | 1193/3996 [1:30:46<3:22:49,  4.34s/it] 30%|████████████████████████████████▊                                                                             | 1194/3996 [1:30:50<3:20:47,  4.30s/it] 30%|████████████████████████████████▉                                                                             | 1195/3996 [1:30:54<3:19:22,  4.27s/it] 30%|████████████████████████████████▉                                                                             | 1196/3996 [1:30:58<3:18:29,  4.25s/it] 30%|████████████████████████████████▉                                                                             | 1197/3996 [1:31:02<3:17:41,  4.24s/it] 30%|████████████████████████████████▉                                                                             | 1198/3996 [1:31:07<3:17:05,  4.23s/it] 30%|█████████████████████████████████                                                                             | 1199/3996 [1:31:11<3:24:12,  4.38s/it] 30%|█████████████████████████████████                                                                             | 1200/3996 [1:31:16<3:21:55,  4.33s/it]                                                                                                                                                           {'loss': 0.5362, 'grad_norm': 0.17930163443088531, 'learning_rate': 0.00016323652935929536, 'ppl': 1.7095, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4228.83, 'total_tokens': 23974427, 'epoch': 0.9}
+ 30%|█████████████████████████████████                                                                             | 1200/3996 [1:31:16<3:21:55,  4.33s/it] 30%|█████████████████████████████████                                                                             | 1201/3996 [1:31:20<3:19:54,  4.29s/it] 30%|█████████████████████████████████                                                                             | 1202/3996 [1:31:24<3:18:38,  4.27s/it] 30%|█████████████████████████████████                                                                             | 1203/3996 [1:31:28<3:17:55,  4.25s/it] 30%|█████████████████████████████████▏                                                                            | 1204/3996 [1:31:32<3:17:07,  4.24s/it] 30%|█████████████████████████████████▏                                                                            | 1205/3996 [1:31:37<3:16:32,  4.23s/it] 30%|█████████████████████████████████▏                                                                            | 1206/3996 [1:31:41<3:23:48,  4.38s/it] 30%|█████████████████████████████████▏                                                                            | 1207/3996 [1:31:46<3:21:11,  4.33s/it] 30%|█████████████████████████████████▎                                                                            | 1208/3996 [1:31:50<3:19:10,  4.29s/it] 30%|█████████████████████████████████▎                                                                            | 1209/3996 [1:31:54<3:17:52,  4.26s/it] 30%|█████████████████████████████████▎                                                                            | 1210/3996 [1:31:58<3:17:05,  4.24s/it] 30%|█████████████████████████████████▎                                                                            | 1211/3996 [1:32:02<3:16:27,  4.23s/it] 30%|█████████████████████████████████▎                                                                            | 1212/3996 [1:32:07<3:16:03,  4.23s/it] 30%|█████████████████████████████████▍                                                                            | 1213/3996 [1:32:11<3:23:09,  4.38s/it] 30%|█████████████████████████████████▍                                                                            | 1214/3996 [1:32:16<3:20:49,  4.33s/it] 30%|█████████████████████████████████▍                                                                            | 1215/3996 [1:32:20<3:18:51,  4.29s/it] 30%|█████████████████████████████████▍                                                                            | 1216/3996 [1:32:24<3:17:23,  4.26s/it] 30%|█████████████████████████████████▌                                                                            | 1217/3996 [1:32:28<3:16:39,  4.25s/it] 30%|█████████████████████████████████▌                                                                            | 1218/3996 [1:32:32<3:15:45,  4.23s/it] 31%|█████████████████████████████████▌                                                                            | 1219/3996 [1:32:37<3:15:16,  4.22s/it] 31%|█████████████████████████████████▌                                                                            | 1220/3996 [1:32:41<3:22:42,  4.38s/it] 31%|█████████████████████████████████▌                                                                            | 1221/3996 [1:32:46<3:20:24,  4.33s/it] 31%|█████████████████████████████████▋                                                                            | 1222/3996 [1:32:50<3:18:23,  4.29s/it] 31%|█████████████████████████████████▋                                                                            | 1223/3996 [1:32:54<3:17:06,  4.26s/it] 31%|█████████████████████████████████▋                                                                            | 1224/3996 [1:32:58<3:16:20,  4.25s/it] 31%|█████████████████████████████████▋                                                                            | 1225/3996 [1:33:02<3:15:29,  4.23s/it]                                                                                                                                                           {'loss': 0.5533, 'grad_norm': 0.18718039989471436, 'learning_rate': 0.00016166212130956382, 'ppl': 1.739, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4211.64, 'total_tokens': 24415919, 'epoch': 0.92}
+ 31%|█████████████████████████████████▋                                                                            | 1225/3996 [1:33:02<3:15:29,  4.23s/it] 31%|█████████████████████████████████▋                                                                            | 1226/3996 [1:33:07<3:14:55,  4.22s/it] 31%|█████████████████████████████████▊                                                                            | 1227/3996 [1:33:11<3:22:07,  4.38s/it] 31%|█████████████████████████████████▊                                                                            | 1228/3996 [1:33:16<3:19:43,  4.33s/it] 31%|█████████████████████████████████▊                                                                            | 1229/3996 [1:33:20<3:17:37,  4.29s/it] 31%|█████████████████████████████████▊                                                                            | 1230/3996 [1:33:24<3:16:05,  4.25s/it] 31%|█████████████████████████████████▉                                                                            | 1231/3996 [1:33:28<3:15:22,  4.24s/it] 31%|█████████████████████████████████▉                                                                            | 1232/3996 [1:33:32<3:14:38,  4.23s/it] 31%|█████████████████████████████████▉                                                                            | 1233/3996 [1:33:36<3:14:11,  4.22s/it] 31%|█████████████████████████████████▉                                                                            | 1234/3996 [1:33:41<3:21:24,  4.38s/it] 31%|█████████████████████████████████▉                                                                            | 1235/3996 [1:33:45<3:18:51,  4.32s/it] 31%|██████████████████████████████████                                                                            | 1236/3996 [1:33:50<3:17:08,  4.29s/it] 31%|██████████████████████████████████                                                                            | 1237/3996 [1:33:54<3:15:39,  4.26s/it] 31%|██████████████████████████████████                                                                            | 1238/3996 [1:33:58<3:14:53,  4.24s/it] 31%|██████████████████████████████████                                                                            | 1239/3996 [1:34:02<3:14:03,  4.22s/it] 31%|██████████████████████████████████▏                                                                           | 1240/3996 [1:34:06<3:13:33,  4.21s/it] 31%|██████████████████████████████████▏                                                                           | 1241/3996 [1:34:11<3:20:44,  4.37s/it] 31%|██████████████████████████████████▏                                                                           | 1242/3996 [1:34:15<3:18:30,  4.32s/it] 31%|██████████████████████████████████▏                                                                           | 1243/3996 [1:34:20<3:16:43,  4.29s/it] 31%|██████████████████████████████████▏                                                                           | 1244/3996 [1:34:24<3:15:21,  4.26s/it] 31%|██████████████████████████████████▎                                                                           | 1245/3996 [1:34:28<3:14:31,  4.24s/it] 31%|██████████████████████████████████▎                                                                           | 1246/3996 [1:34:32<3:13:41,  4.23s/it] 31%|██████████████████████████████████▎                                                                           | 1247/3996 [1:34:36<3:13:12,  4.22s/it] 31%|██████████████████████████████████▎                                                                           | 1248/3996 [1:34:41<3:20:30,  4.38s/it] 31%|██████████████████████████████████▍                                                                           | 1249/3996 [1:34:45<3:18:12,  4.33s/it] 31%|██████████████████████████████████▍                                                                           | 1250/3996 [1:34:49<3:16:15,  4.29s/it]                                                                                                                                                           {'loss': 0.5492, 'grad_norm': 0.17105573415756226, 'learning_rate': 0.0001600626553051268, 'ppl': 1.7319, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4183.86, 'total_tokens': 24854345, 'epoch': 0.94}
+ 31%|██████████████████████████████████▍                                                                           | 1250/3996 [1:34:49<3:16:15,  4.29s/it] 31%|██████████████████████████████████▍                                                                           | 1251/3996 [1:34:54<3:14:54,  4.26s/it] 31%|██████████████████████████████████▍                                                                           | 1252/3996 [1:34:58<3:14:08,  4.25s/it] 31%|██████████████████████████████████▍                                                                           | 1253/3996 [1:35:02<3:13:32,  4.23s/it] 31%|██████████████████████████████████▌                                                                           | 1254/3996 [1:35:06<3:12:53,  4.22s/it] 31%|██████████████████████████████████▌                                                                           | 1255/3996 [1:35:11<3:25:54,  4.51s/it] 31%|██████████████████████████████████▌                                                                           | 1256/3996 [1:35:16<3:21:37,  4.42s/it] 31%|█████████���████████████████████████▌                                                                           | 1257/3996 [1:35:20<3:18:30,  4.35s/it] 31%|██████████████████████████████████▋                                                                           | 1258/3996 [1:35:24<3:16:02,  4.30s/it] 32%|██████████████████████████████████▋                                                                           | 1259/3996 [1:35:28<3:14:50,  4.27s/it] 32%|██████████████████████████████████▋                                                                           | 1260/3996 [1:35:32<3:13:34,  4.25s/it] 32%|██████████████████████████████████▋                                                                           | 1261/3996 [1:35:37<3:13:04,  4.24s/it] 32%|██████████████████████████████████▋                                                                           | 1262/3996 [1:35:41<3:19:50,  4.39s/it] 32%|██████████████████████████████████▊                                                                           | 1263/3996 [1:35:46<3:17:12,  4.33s/it] 32%|██████████████████████████████████▊                                                                           | 1264/3996 [1:35:50<3:15:07,  4.29s/it] 32%|██████████████████████████████████▊                                                                           | 1265/3996 [1:35:54<3:13:48,  4.26s/it] 32%|██████████████████████████████████▊                                                                           | 1266/3996 [1:35:58<3:13:03,  4.24s/it] 32%|██████████████████████████████████▉                                                                           | 1267/3996 [1:36:02<3:12:19,  4.23s/it] 32%|██████████████████████████████████▉                                                                           | 1268/3996 [1:36:07<3:11:43,  4.22s/it] 32%|██████████████████████████████████▉                                                                           | 1269/3996 [1:36:11<3:18:31,  4.37s/it] 32%|██████████████████████████████████▉                                                                           | 1270/3996 [1:36:15<3:16:08,  4.32s/it] 32%|██████████████████████████████████▉                                                                           | 1271/3996 [1:36:20<3:14:19,  4.28s/it] 32%|███████████████████████████████████                                                                           | 1272/3996 [1:36:24<3:12:47,  4.25s/it] 32%|███████████████████████████████████                                                                           | 1273/3996 [1:36:28<3:12:04,  4.23s/it] 32%|███████████████████████████████████                                                                           | 1274/3996 [1:36:32<3:11:19,  4.22s/it] 32%|███████████████████████████████████                                                                           | 1275/3996 [1:36:36<3:11:02,  4.21s/it]                                                                                                                                                           {'loss': 0.5348, 'grad_norm': 0.1733955442905426, 'learning_rate': 0.0001584387813292454, 'ppl': 1.7071, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4172.93, 'total_tokens': 25292647, 'epoch': 0.96}
+ 32%|███████████████████████████████████                                                                           | 1275/3996 [1:36:36<3:11:02,  4.21s/it] 32%|███████████████████████████████████▏                                                                          | 1276/3996 [1:36:41<3:18:12,  4.37s/it] 32%|███████████████████████████████████▏                                                                          | 1277/3996 [1:36:45<3:15:55,  4.32s/it] 32%|███████████████████████████████████▏                                                                          | 1278/3996 [1:36:50<3:14:04,  4.28s/it] 32%|███████████████████████████████████▏                                                                          | 1279/3996 [1:36:54<3:12:28,  4.25s/it] 32%|███████████████████████████████████▏                                                                          | 1280/3996 [1:36:58<3:11:55,  4.24s/it] 32%|███████████████████████████████████▎                                                                          | 1281/3996 [1:37:02<3:11:19,  4.23s/it] 32%|███████████████████████████████████▎                                                                          | 1282/3996 [1:37:06<3:10:46,  4.22s/it] 32%|███████████████████████████████████▎                                                                          | 1283/3996 [1:37:11<3:17:40,  4.37s/it] 32%|███████████████████████████████████▎                                                                          | 1284/3996 [1:37:15<3:15:15,  4.32s/it] 32%|███████████████████████████████████▎                                                                          | 1285/3996 [1:37:19<3:13:27,  4.28s/it] 32%|███████████████████████████████████▍                                                                          | 1286/3996 [1:37:24<3:12:00,  4.25s/it] 32%|███████████████████████████████████▍                                                                          | 1287/3996 [1:37:28<3:11:07,  4.23s/it] 32%|███████████████████████████████████▍                                                                          | 1288/3996 [1:37:32<3:10:23,  4.22s/it] 32%|███████████████████████████████████▍                                                                          | 1289/3996 [1:37:36<3:09:58,  4.21s/it] 32%|███████████████████████████████████▌                                                                          | 1290/3996 [1:37:41<3:16:55,  4.37s/it] 32%|███████████████████████████████████▌                                                                          | 1291/3996 [1:37:45<3:14:49,  4.32s/it] 32%|███████████████████████████████████▌                                                                          | 1292/3996 [1:37:49<3:12:46,  4.28s/it] 32%|███████████████████████████████████▌                                                                          | 1293/3996 [1:37:53<3:11:21,  4.25s/it] 32%|███████████████████████████████████▌                                                                          | 1294/3996 [1:37:58<3:10:40,  4.23s/it] 32%|███████████████████████████████████▋                                                                          | 1295/3996 [1:38:02<3:10:04,  4.22s/it] 32%|███████████████████████████████████▋                                                                          | 1296/3996 [1:38:06<3:09:44,  4.22s/it] 32%|███████████████████████████████████▋                                                                          | 1297/3996 [1:38:11<3:16:27,  4.37s/it] 32%|███████████████████████████████████▋                                                                          | 1298/3996 [1:38:15<3:14:08,  4.32s/it] 33%|███████████████████████████████████▊                                                                          | 1299/3996 [1:38:19<3:12:19,  4.28s/it] 33%|███████████████████████████████████▊                                                                          | 1300/3996 [1:38:23<3:10:50,  4.25s/it]                                                                                                                                                           {'loss': 0.5527, 'grad_norm': 0.1858205944299698, 'learning_rate': 0.00015679115928397401, 'ppl': 1.7379, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4226.34, 'total_tokens': 25733591, 'epoch': 0.98}
+ 33%|███████████████████████████████████▊                                                                          | 1300/3996 [1:38:23<3:10:50,  4.25s/it] 33%|███████████████████████████████████▊                                                                          | 1301/3996 [1:38:28<3:10:11,  4.23s/it] 33%|███████████████████████████████████▊                                                                          | 1302/3996 [1:38:32<3:09:18,  4.22s/it] 33%|███████████████████████████████████▊                                                                          | 1303/3996 [1:38:36<3:08:57,  4.21s/it] 33%|███████████████████████████████████▉                                                                          | 1304/3996 [1:38:41<3:15:50,  4.37s/it] 33%|███████████████████████████████████▉                                                                          | 1305/3996 [1:38:45<3:13:34,  4.32s/it] 33%|███████████████████████████████████▉                                                                          | 1306/3996 [1:38:49<3:11:38,  4.27s/it] 33%|███████████████████████████████████▉                                                                          | 1307/3996 [1:38:53<3:10:15,  4.25s/it] 33%|████████████████████████████████████                                                                          | 1308/3996 [1:38:57<3:09:36,  4.23s/it] 33%|████████████████████████████████████                                                                          | 1309/3996 [1:39:02<3:09:44,  4.24s/it] 33%|████████████████████████████████████                                                                          | 1310/3996 [1:39:06<3:13:39,  4.33s/it] 33%|████████████████████████████████████                                                                          | 1311/3996 [1:39:11<3:18:53,  4.44s/it] 33%|████████████████████████████████████                                                                          | 1312/3996 [1:39:15<3:15:28,  4.37s/it] 33%|████████████████████████████████████▏                                                                         | 1313/3996 [1:39:19<3:12:56,  4.31s/it] 33%|████████████████████████████████████▏                                                                         | 1314/3996 [1:39:23<3:11:00,  4.27s/it] 33%|████████████████████████████████████▏                                                                         | 1315/3996 [1:39:28<3:09:56,  4.25s/it] 33%|████████████████████████████████████▏                                                                         | 1316/3996 [1:39:32<3:08:55,  4.23s/it] 33%|████████████████████████████████████▎                                                                         | 1317/3996 [1:39:36<3:08:27,  4.22s/it] 33%|████████████████████████████████████▎                                                                         | 1318/3996 [1:39:41<3:15:13,  4.37s/it] 33%|████████████████████████████████████▎                                                                         | 1319/3996 [1:39:45<3:12:37,  4.32s/it] 33%|████████████████████████████████████▎                                                                         | 1320/3996 [1:39:49<3:10:43,  4.28s/it] 33%|████████████████████████████████████▎                                                                         | 1321/3996 [1:39:53<3:09:14,  4.24s/it] 33%|████████████████████████████████████▍                                                                         | 1322/3996 [1:39:58<3:08:30,  4.23s/it] 33%|████████████████████████████████████▍                                                                         | 1323/3996 [1:40:02<3:07:59,  4.22s/it] 33%|████████████████████████████████████▍                                                                         | 1324/3996 [1:40:06<3:07:33,  4.21s/it] 33%|████████████████████████████████████▍                                                                         | 1325/3996 [1:40:11<3:14:14,  4.36s/it]                                                                                                                                                           {'loss': 0.5311, 'grad_norm': 0.1944192498922348, 'learning_rate': 0.00015512045872199276, 'ppl': 1.7008, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3655.12, 'total_tokens': 26164528, 'epoch': 0.99}
+ 33%|████████████████████████████████████▍                                                                         | 1325/3996 [1:40:11<3:14:14,  4.36s/it] 33%|████████████████████████████████████▌                                                                         | 1326/3996 [1:40:15<3:11:51,  4.31s/it] 33%|████████████████████████████████████▌                                                                         | 1327/3996 [1:40:19<3:10:03,  4.27s/it] 33%|████████████████████████████████████▌                                                                         | 1328/3996 [1:40:23<3:10:21,  4.28s/it] 33%|████████████████████████████████████▌                                                                         | 1329/3996 [1:40:28<3:09:15,  4.26s/it] 33%|████████████████████████████████████▌                                                                         | 1330/3996 [1:40:32<3:08:03,  4.23s/it] 33%|████████████████████████████████████▋                                                                         | 1331/3996 [1:40:36<3:07:28,  4.22s/it] 33%|████████████████████████████████████▋                                                                         | 1332/3996 [1:40:41<3:14:14,  4.37s/it] 33%|████████████████████████████████████▋                                                                         | 1333/3996 [1:40:45<3:12:31,  4.34s/it] 33%|████████████████████████████████████▋                                                                         | 1334/3996 [1:40:50<3:26:13,  4.65s/it] 33%|████████████████████████████████████▋                                                                         | 1335/3996 [1:40:54<3:20:02,  4.51s/it] 33%|████████████████████████████████████▊                                                                         | 1336/3996 [1:40:59<3:16:03,  4.42s/it] 33%|████████████████████████████████████▊                                                                         | 1337/3996 [1:41:03<3:13:02,  4.36s/it] 33%|████████████████████████████████████▊                                                                         | 1338/3996 [1:41:07<3:10:46,  4.31s/it] 34%|████████████████████████████████████▊                                                                         | 1339/3996 [1:41:12<3:16:23,  4.43s/it] 34%|████████████████████████████████████▉                                                                         | 1340/3996 [1:41:16<3:13:17,  4.37s/it] 34%|████████████████████████████████████▉                                                                         | 1341/3996 [1:41:20<3:10:59,  4.32s/it] 34%|████████████████████████████████████▉                                                                         | 1342/3996 [1:41:24<3:09:17,  4.28s/it] 34%|████████████████████████████████████▉                                                                         | 1343/3996 [1:41:29<3:08:15,  4.26s/it] 34%|████████████████████████████████████▉                                                                         | 1344/3996 [1:41:33<3:07:18,  4.24s/it] 34%|█████████████████████████████████████                                                                         | 1345/3996 [1:41:37<3:06:44,  4.23s/it] 34%|█████████████████████████████████████                                                                         | 1346/3996 [1:41:42<3:19:24,  4.51s/it] 34%|█████████████████████████████████████                                                                         | 1347/3996 [1:41:46<3:15:13,  4.42s/it] 34%|█████████████████████████████████████                                                                         | 1348/3996 [1:41:51<3:11:59,  4.35s/it] 34%|█████████████████████████████████████▏                                                                        | 1349/3996 [1:41:55<3:09:50,  4.30s/it] 34%|█████████████████████████████████████▏                                                                        | 1350/3996 [1:41:59<3:08:40,  4.28s/it]                                                                                                                                                           {'loss': 0.5145, 'grad_norm': 0.18358173966407776, 'learning_rate': 0.00015342735857451777, 'ppl': 1.6728, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4227.25, 'total_tokens': 26610460, 'epoch': 1.01}
+ 34%|█████████████████████████████████████▏                                                                        | 1350/3996 [1:41:59<3:08:40,  4.28s/it] 34%|█████████████████████████████████████▏                                                                        | 1351/3996 [1:42:03<3:07:23,  4.25s/it] 34%|█████████████████████████████████████▏                                                                        | 1352/3996 [1:42:07<3:06:42,  4.24s/it] 34%|█████████████████████████████████████▏                                                                        | 1353/3996 [1:42:12<3:13:00,  4.38s/it] 34%|█████████████████████████████████████▎                                                                        | 1354/3996 [1:42:16<3:10:31,  4.33s/it] 34%|█████████████████████████████████████▎                                                                        | 1355/3996 [1:42:20<3:08:51,  4.29s/it] 34%|█████████████████████████████████████▎                                                                        | 1356/3996 [1:42:25<3:07:29,  4.26s/it] 34%|█████████████████████████████████████▎                                                                        | 1357/3996 [1:42:29<3:06:46,  4.25s/it] 34%|█████████████████████████████████████▍                                                                        | 1358/3996 [1:42:33<3:06:06,  4.23s/it] 34%|█████████████████████████████████████▍                                                                        | 1359/3996 [1:42:37<3:05:42,  4.23s/it] 34%|█████████████████████████████████████▍                                                                        | 1360/3996 [1:42:42<3:12:26,  4.38s/it] 34%|█████████████████████████████████████▍                                                                        | 1361/3996 [1:42:46<3:10:06,  4.33s/it] 34%|█████████████████████████████████████▍                                                                        | 1362/3996 [1:42:50<3:08:08,  4.29s/it] 34%|█████████████████████████████████████▌                                                                        | 1363/3996 [1:42:55<3:06:49,  4.26s/it] 34%|█████████████████████████████████████▌                                                                        | 1364/3996 [1:42:59<3:11:07,  4.36s/it] 34%|█████████████████████████████████████▌                                                                        | 1365/3996 [1:43:03<3:08:58,  4.31s/it] 34%|█████████████████████████████████████▌                                                                        | 1366/3996 [1:43:08<3:07:38,  4.28s/it] 34%|█████████████████████████████████████▋                                                                        | 1367/3996 [1:43:12<3:13:35,  4.42s/it] 34%|█████████████████████████████████████▋                                                                        | 1368/3996 [1:43:17<3:10:34,  4.35s/it] 34%|█████████████████████████████████████▋                                                                        | 1369/3996 [1:43:21<3:08:28,  4.30s/it] 34%|█████████████████████████████████████▋                                                                        | 1370/3996 [1:43:25<3:06:50,  4.27s/it] 34%|█████████████████████████████████████▋                                                                        | 1371/3996 [1:43:29<3:05:56,  4.25s/it] 34%|█████████████████████████████████████▊                                                                        | 1372/3996 [1:43:33<3:05:04,  4.23s/it] 34%|█████████████████████████████████████▊                                                                        | 1373/3996 [1:43:38<3:04:39,  4.22s/it] 34%|█████████████████████████████████████▊                                                                        | 1374/3996 [1:43:42<3:11:21,  4.38s/it] 34%|█████████████████████████████████████▊                                                                        | 1375/3996 [1:43:46<3:08:57,  4.33s/it]                                                                                                                                                           {'loss': 0.5081, 'grad_norm': 0.1853465735912323, 'learning_rate': 0.00015171254687540038, 'ppl': 1.6621, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4318.88, 'total_tokens': 27064008, 'epoch': 1.03}
+ 34%|█████████████████████████████████████▊                                                                        | 1375/3996 [1:43:46<3:08:57,  4.33s/it] 34%|██████████████████��██████████████████▉                                                                        | 1376/3996 [1:43:51<3:07:07,  4.29s/it] 34%|█████████████████████████████████████▉                                                                        | 1377/3996 [1:43:55<3:05:44,  4.26s/it] 34%|█████████████████████████████████████▉                                                                        | 1378/3996 [1:43:59<3:05:09,  4.24s/it] 35%|█████████████████████████████████████▉                                                                        | 1379/3996 [1:44:03<3:05:10,  4.25s/it] 35%|█████████████████████████████████████▉                                                                        | 1380/3996 [1:44:08<3:04:35,  4.23s/it] 35%|██████████████████████████████████████                                                                        | 1381/3996 [1:44:12<3:12:50,  4.42s/it] 35%|██████████████████████████████████████                                                                        | 1382/3996 [1:44:17<3:09:44,  4.36s/it] 35%|██████████████████████████████████████                                                                        | 1383/3996 [1:44:21<3:07:29,  4.31s/it] 35%|██████████████████████████████████████                                                                        | 1384/3996 [1:44:25<3:05:57,  4.27s/it] 35%|██████████████████████████████████████▏                                                                       | 1385/3996 [1:44:29<3:05:07,  4.25s/it] 35%|██████████████████████████████████████▏                                                                       | 1386/3996 [1:44:33<3:04:20,  4.24s/it] 35%|██████████████████████████████████████▏                                                                       | 1387/3996 [1:44:38<3:03:53,  4.23s/it] 35%|██████████████████████████████████████▏                                                                       | 1388/3996 [1:44:42<3:10:35,  4.38s/it] 35%|██████████████████████████████████████▏                                                                       | 1389/3996 [1:44:47<3:08:13,  4.33s/it] 35%|██████████████████████████████████████▎                                                                       | 1390/3996 [1:44:51<3:06:25,  4.29s/it] 35%|██████████████████████████████████████▎                                                                       | 1391/3996 [1:44:55<3:05:06,  4.26s/it] 35%|██████████████████████████████████████▎                                                                       | 1392/3996 [1:44:59<3:04:15,  4.25s/it] 35%|██████████████████████████████████████▎                                                                       | 1393/3996 [1:45:03<3:03:31,  4.23s/it] 35%|██████████████████████████████████████▎                                                                       | 1394/3996 [1:45:08<3:03:07,  4.22s/it] 35%|██████████████████████████████████████▍                                                                       | 1395/3996 [1:45:12<3:09:46,  4.38s/it] 35%|██████████████████████████████████████▍                                                                       | 1396/3996 [1:45:16<3:07:24,  4.32s/it] 35%|██████████████████████████████████████▍                                                                       | 1397/3996 [1:45:21<3:05:44,  4.29s/it] 35%|███████████████���██████████████████████▍                                                                       | 1398/3996 [1:45:25<3:04:20,  4.26s/it] 35%|██████████████████████████████████████▌                                                                       | 1399/3996 [1:45:29<3:03:36,  4.24s/it] 35%|██████████████████████████████████████▌                                                                       | 1400/3996 [1:45:33<3:02:50,  4.23s/it]                                                                                                                                                           {'loss': 0.5185, 'grad_norm': 0.18925060331821442, 'learning_rate': 0.0001499767204815273, 'ppl': 1.6795, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4324.01, 'total_tokens': 27516590, 'epoch': 1.05}
+ 35%|██████████████████████████████████████▌                                                                       | 1400/3996 [1:45:33<3:02:50,  4.23s/it] 35%|██████████████████████████████████████▌                                                                       | 1401/3996 [1:45:37<3:02:25,  4.22s/it] 35%|██████████████████████████████████████▌                                                                       | 1402/3996 [1:45:42<3:09:12,  4.38s/it] 35%|██████████████████████████████████████▌                                                                       | 1403/3996 [1:45:46<3:07:30,  4.34s/it] 35%|██████████████████████████████████████▋                                                                       | 1404/3996 [1:45:51<3:05:18,  4.29s/it] 35%|██████████████████████████████████████▋                                                                       | 1405/3996 [1:45:55<3:03:56,  4.26s/it] 35%|██████████████████████████████████████▋                                                                       | 1406/3996 [1:45:59<3:03:17,  4.25s/it] 35%|██████████████████████████████████████▋                                                                       | 1407/3996 [1:46:03<3:02:28,  4.23s/it] 35%|██████████████████████████████████████▊                                                                       | 1408/3996 [1:46:07<3:01:55,  4.22s/it] 35%|██████████████████████████████████████▊                                                                       | 1409/3996 [1:46:12<3:08:19,  4.37s/it] 35%|██████████████████████████████████████▊                                                                       | 1410/3996 [1:46:16<3:06:06,  4.32s/it] 35%|██████████████████████████████████████▊                                                                       | 1411/3996 [1:46:21<3:04:27,  4.28s/it] 35%|██████████████████████████████████████▊                                                                       | 1412/3996 [1:46:25<3:03:10,  4.25s/it] 35%|██████████████████████████████████████▉                                                                       | 1413/3996 [1:46:29<3:02:35,  4.24s/it] 35%|██████████████████████████████████████▉                                                                       | 1414/3996 [1:46:33<3:01:47,  4.22s/it] 35%|██████████████████████████████████████▉                                                                       | 1415/3996 [1:46:37<3:01:23,  4.22s/it] 35%|██████████████████████████████████████▉                                                                       | 1416/3996 [1:46:42<3:08:04,  4.37s/it] 35%|██████████��████████████████████████████                                                                       | 1417/3996 [1:46:46<3:05:53,  4.32s/it] 35%|███████████████████████████████████████                                                                       | 1418/3996 [1:46:51<3:05:40,  4.32s/it] 36%|███████████████████████████████████████                                                                       | 1419/3996 [1:46:55<3:03:47,  4.28s/it] 36%|███████████████████████████████████████                                                                       | 1420/3996 [1:46:59<3:02:43,  4.26s/it] 36%|███████████████████████████████████████                                                                       | 1421/3996 [1:47:03<3:02:04,  4.24s/it] 36%|███████████████████████████████████████▏                                                                      | 1422/3996 [1:47:07<3:01:27,  4.23s/it] 36%|███████████████████████████████████████▏                                                                      | 1423/3996 [1:47:12<3:07:57,  4.38s/it] 36%|███████████████████████████████████████▏                                                                      | 1424/3996 [1:47:16<3:05:40,  4.33s/it] 36%|███████████████████████████████████████▏                                                                      | 1425/3996 [1:47:21<3:03:54,  4.29s/it]                                                                                                                                                           {'loss': 0.5234, 'grad_norm': 0.20961470901966095, 'learning_rate': 0.00014822058478963532, 'ppl': 1.6878, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4319.64, 'total_tokens': 27970075, 'epoch': 1.07}
+ 36%|███████████████████████████████████████▏                                                                      | 1425/3996 [1:47:21<3:03:54,  4.29s/it] 36%|███████████████████████████████████████▎                                                                      | 1426/3996 [1:47:25<3:03:20,  4.28s/it] 36%|███████████████████████████████████████▎                                                                      | 1427/3996 [1:47:29<3:02:25,  4.26s/it] 36%|███████████████████████████████████████▎                                                                      | 1428/3996 [1:47:33<3:01:33,  4.24s/it] 36%|███████████████████████████████████████▎                                                                      | 1429/3996 [1:47:37<3:01:00,  4.23s/it] 36%|███████████████████████████████████████▎                                                                      | 1430/3996 [1:47:42<3:07:38,  4.39s/it] 36%|███████████████████████████████████████▍                                                                      | 1431/3996 [1:47:46<3:05:15,  4.33s/it] 36%|███████████████████████████████████████▍                                                                      | 1432/3996 [1:47:51<3:03:32,  4.30s/it] 36%|███████████████████████████████████████▍                                                                      | 1433/3996 [1:47:55<3:02:14,  4.27s/it] 36%|███████████████████████████████████████▍                                                                      | 1434/3996 [1:47:59<3:01:28,  4.25s/it] 36%|███████████████████████████████████████▌                                                                      | 1435/3996 [1:48:03<3:00:52,  4.24s/it] 36%|███████████████████████████████████████▌                                                                      | 1436/3996 [1:48:07<3:00:20,  4.23s/it] 36%|███████████████████████████████████████▌                                                                      | 1437/3996 [1:48:12<3:06:38,  4.38s/it] 36%|███████████████████████████████████████▌                                                                      | 1438/3996 [1:48:16<3:04:26,  4.33s/it] 36%|███████████████████████████████████████▌                                                                      | 1439/3996 [1:48:21<3:02:52,  4.29s/it] 36%|███████████████████████████████████████▋                                                                      | 1440/3996 [1:48:25<3:01:31,  4.26s/it] 36%|███████████████████████████████████████▋                                                                      | 1441/3996 [1:48:29<3:00:49,  4.25s/it] 36%|███████████████████████████████████████▋                                                                      | 1442/3996 [1:48:33<3:00:11,  4.23s/it] 36%|███████████████████████████████████████▋                                                                      | 1443/3996 [1:48:37<2:59:44,  4.22s/it] 36%|███████████████████████████████████████▋                                                                      | 1444/3996 [1:48:42<3:06:12,  4.38s/it] 36%|███████████████████████████████████████▊                                                                      | 1445/3996 [1:48:46<3:03:56,  4.33s/it] 36%|███████████████████████████████████████▊                                                                      | 1446/3996 [1:48:51<3:03:50,  4.33s/it] 36%|███████████████████████████████████████▊                                                                      | 1447/3996 [1:48:55<3:02:04,  4.29s/it] 36%|███████████████████████████████████████▊                                                                      | 1448/3996 [1:48:59<3:01:01,  4.26s/it] 36%|███████████████████████████████████████▉                                                                      | 1449/3996 [1:49:03<3:00:05,  4.24s/it] 36%|███████████████████████████████████████▉                                                                      | 1450/3996 [1:49:07<2:59:40,  4.23s/it]                                                                                                                                                           {'loss': 0.5169, 'grad_norm': 0.1982697695493698, 'learning_rate': 0.0001464448534496555, 'ppl': 1.6768, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4267.88, 'total_tokens': 28419716, 'epoch': 1.09}
+ 36%|███████████████████████████████████████▉                                                                      | 1450/3996 [1:49:07<2:59:40,  4.23s/it] 36%|███████████████████████████████████████▉                                                                      | 1451/3996 [1:49:12<3:05:57,  4.38s/it] 36%|███████████████████████████████████████▉                                                                      | 1452/3996 [1:49:16<3:03:39,  4.33s/it] 36%|███████████████████████████████████████▉                                                                      | 1453/3996 [1:49:21<3:01:58,  4.29s/it] 36%|████████████████████████████████████████                                                                      | 1454/3996 [1:49:25<3:04:13,  4.35s/it] 36%|████████████████████████████████████████                                                                      | 1455/3996 [1:49:29<3:02:19,  4.31s/it] 36%|████████████████████████████████████████                                                                      | 1456/3996 [1:49:33<3:00:52,  4.27s/it] 36%|████████████████████████████████████████                                                                      | 1457/3996 [1:49:38<2:59:54,  4.25s/it] 36%|████████████████████████████████████████▏                                                                     | 1458/3996 [1:49:42<3:06:09,  4.40s/it] 37%|████████████████████████████████████████▏                                                                     | 1459/3996 [1:49:47<3:03:37,  4.34s/it] 37%|████████████████████████████████████████▏                                                                     | 1460/3996 [1:49:51<3:02:10,  4.31s/it] 37%|████████████████████████████████████████▏                                                                     | 1461/3996 [1:49:55<3:02:15,  4.31s/it] 37%|████████████████████████████████████████▏                                                                     | 1462/3996 [1:49:59<3:00:47,  4.28s/it] 37%|████████████████████████████████████████▎                                                                     | 1463/3996 [1:50:04<2:59:45,  4.26s/it] 37%|████████████████████████████████████████▎                                                                     | 1464/3996 [1:50:08<2:59:04,  4.24s/it] 37%|████████████████████████████████████████▎                                                                     | 1465/3996 [1:50:13<3:05:16,  4.39s/it] 37%|████████████████████████████████████████▎                                                                     | 1466/3996 [1:50:17<3:02:50,  4.34s/it] 37%|████████████████████████████████████████▍                                                                     | 1467/3996 [1:50:21<3:01:03,  4.30s/it] 37%|████████████████████████████████████████▍                                                                     | 1468/3996 [1:50:25<2:59:46,  4.27s/it] 37%|████████████████████████████████████████▍                                                                     | 1469/3996 [1:50:29<2:58:50,  4.25s/it] 37%|████████████████████████████████████████▍                                                                     | 1470/3996 [1:50:34<2:57:58,  4.23s/it] 37%|████████████████████████████████████████▍                                                                     | 1471/3996 [1:50:38<2:57:33,  4.22s/it] 37%|████████████████████████████████████████▌                                                                     | 1472/3996 [1:50:42<3:04:16,  4.38s/it] 37%|████████████████████████████████████████▌                                                                     | 1473/3996 [1:50:47<3:02:09,  4.33s/it] 37%|████████████████████████████████████████▌                                                                     | 1474/3996 [1:50:51<3:00:28,  4.29s/it] 37%|████████████████████████████████████████▌                                                                     | 1475/3996 [1:50:55<2:59:05,  4.26s/it]                                                                                                                                                           {'loss': 0.5197, 'grad_norm': 0.1925143301486969, 'learning_rate': 0.00014465024807470376, 'ppl': 1.6815, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4264.53, 'total_tokens': 28866312, 'epoch': 1.11}
+ 37%|████████████████████████████████████████▌                                                                     | 1475/3996 [1:50:55<2:59:05,  4.26s/it] 37%|████████████████████████████████████████▋                                                                     | 1476/3996 [1:50:59<2:58:21,  4.25s/it] 37%|████████████████████████████████████████▋                                                                     | 1477/3996 [1:51:04<2:57:48,  4.24s/it] 37%|████████████████████████████████████████▋                                                                     | 1478/3996 [1:51:08<2:57:15,  4.22s/it] 37%|████████████████████████████████████████▋                                                                     | 1479/3996 [1:51:12<3:03:38,  4.38s/it] 37%|████████████████████████████████████████▋                                                                     | 1480/3996 [1:51:17<3:01:30,  4.33s/it] 37%|████████████████████████████████████████▊                                                                     | 1481/3996 [1:51:21<2:59:49,  4.29s/it] 37%|████████████████████████████████████████▊                                                                     | 1482/3996 [1:51:25<2:58:33,  4.26s/it] 37%|████████████████████████████████████████▊                                                                     | 1483/3996 [1:51:29<2:57:51,  4.25s/it] 37%|████████████████████████████████████████▊                                                                     | 1484/3996 [1:51:33<2:57:11,  4.23s/it] 37%|████████████████████████████████████████▉                                                                     | 1485/3996 [1:51:38<2:56:42,  4.22s/it] 37%|████████████████████████████████████████▉                                                                     | 1486/3996 [1:51:42<3:03:17,  4.38s/it] 37%|████████████████████████████████████████▉                                                                     | 1487/3996 [1:51:47<3:01:09,  4.33s/it] 37%|████████████████████████████████████████▉                                                                     | 1488/3996 [1:51:51<2:59:21,  4.29s/it] 37%|████████████████████████████████████████▉                                                                     | 1489/3996 [1:51:55<2:58:14,  4.27s/it] 37%|█████████████████████████████████████████                                                                     | 1490/3996 [1:51:59<2:57:25,  4.25s/it] 37%|█████████████████████████████████████████                                                                     | 1491/3996 [1:52:03<2:56:58,  4.24s/it] 37%|█████████████████████████████████████████                                                                     | 1492/3996 [1:52:08<2:56:25,  4.23s/it] 37%|█████████████████████████████████████████                                                                     | 1493/3996 [1:52:12<3:02:37,  4.38s/it] 37%|█████████████████████████████████████████▏                                                                    | 1494/3996 [1:52:17<3:00:30,  4.33s/it] 37%|█████████████████████████████████████████▏                                                                    | 1495/3996 [1:52:21<2:58:53,  4.29s/it] 37%|█████████████████████████████████████████▏                                                                    | 1496/3996 [1:52:25<2:57:36,  4.26s/it] 37%|█████████████████████████████████████████▏                                                                    | 1497/3996 [1:52:29<2:56:52,  4.25s/it] 37%|█████████████████████████████████████████▏                                                                    | 1498/3996 [1:52:33<2:56:14,  4.23s/it] 38%|█████████████████████████████████████████▎                                                                    | 1499/3996 [1:52:38<2:55:50,  4.23s/it] 38%|█████████████████████████████████████████▎                                                                    | 1500/3996 [1:52:42<3:02:26,  4.39s/it]                                                                                                                                                           {'loss': 0.5204, 'grad_norm': 0.18788637220859528, 'learning_rate': 0.0001428374979478349, 'ppl': 1.6827, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3779.33, 'total_tokens': 29315968, 'epoch': 1.13}
+ 38%|█████████████████████████████████████████▎                                                                    | 1500/3996 [1:52:42<3:02:26,  4.39s/it] 38%|█████████████████████████████████████████▎                                                                    | 1501/3996 [1:52:47<3:00:15,  4.34s/it] 38%|█████████████████████████████████████████▎                                                                    | 1502/3996 [1:52:51<2:58:29,  4.29s/it] 38%|█████████████████████████████████████████▎                                                                    | 1503/3996 [1:52:55<2:57:05,  4.26s/it] 38%|█████████████████████████████████████████▍                                                                    | 1504/3996 [1:52:59<2:56:23,  4.25s/it] 38%|█████████████████████████████████████████▍                                                                    | 1505/3996 [1:53:03<2:55:40,  4.23s/it] 38%|█████████████████████████████████████████▍                                                                    | 1506/3996 [1:53:08<2:55:13,  4.22s/it] 38%|█████████████████████████████████████████▍                                                                    | 1507/3996 [1:53:12<3:01:34,  4.38s/it] 38%|█████████████████████████████████████████▌                                                                    | 1508/3996 [1:53:17<2:59:25,  4.33s/it] 38%|█████████████████████████████████████████▌                                                                    | 1509/3996 [1:53:21<2:57:53,  4.29s/it] 38%|█████████████████████████████████████████▌                                                                    | 1510/3996 [1:53:25<2:56:41,  4.26s/it] 38%|█████████████████████████████████████████▌                                                                    | 1511/3996 [1:53:29<2:55:56,  4.25s/it] 38%|█████████████████████████████████████████▌                                                                    | 1512/3996 [1:53:33<2:55:16,  4.23s/it] 38%|█████████████████████████████████████████▋                                                                    | 1513/3996 [1:53:38<2:54:46,  4.22s/it] 38%|█████████████████████████████████████████▋                                                                    | 1514/3996 [1:53:42<3:01:08,  4.38s/it] 38%|█████████████████████████████████████████▋                                                                    | 1515/3996 [1:53:47<2:59:05,  4.33s/it] 38%|█████████████████████████████████████████▋                                                                    | 1516/3996 [1:53:51<2:57:24,  4.29s/it] 38%|█████████████████████████████████████████▊                                                                    | 1517/3996 [1:53:55<2:56:06,  4.26s/it] 38%|█████████████████████████████████████████▊                                                                    | 1518/3996 [1:53:59<2:55:08,  4.24s/it] 38%|█████████████████████████████████████████▊                                                                    | 1519/3996 [1:54:03<2:54:37,  4.23s/it] 38%|█████████████████████████████████████████▊                                                                    | 1520/3996 [1:54:08<2:54:13,  4.22s/it] 38%|█████████████████████████████████████████▊                                                                    | 1521/3996 [1:54:12<3:00:30,  4.38s/it] 38%|█████████████████████████████████████████▉                                                                    | 1522/3996 [1:54:16<2:58:25,  4.33s/it] 38%|█████████████████████████████████████████▉                                                                    | 1523/3996 [1:54:21<3:02:46,  4.43s/it] 38%|█████████████████████████████████████████▉                                                                    | 1524/3996 [1:54:25<2:59:49,  4.36s/it] 38%|█████████████████████████████████████████▉                                                                    | 1525/3996 [1:54:30<2:57:51,  4.32s/it]                                                                                                                                                           {'loss': 0.5164, 'grad_norm': 0.18954145908355713, 'learning_rate': 0.00014100733972568038, 'ppl': 1.676, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4282.57, 'total_tokens': 29766723, 'epoch': 1.14}
+ 38%|█████████████████████████████████████████▉                                                                    | 1525/3996 [1:54:30<2:57:51,  4.32s/it] 38%|██████████████████████████████████████████                                                                    | 1526/3996 [1:54:34<3:00:23,  4.38s/it] 38%|██████████████████████████████████████████                                                                    | 1527/3996 [1:54:38<2:58:11,  4.33s/it] 38%|██████████████████████████████████████████                                                                    | 1528/3996 [1:54:43<3:03:19,  4.46s/it] 38%|██████████████████████████████████████████                                                                    | 1529/3996 [1:54:47<3:00:04,  4.38s/it] 38%|██████████████████████████████████████████                                                                    | 1530/3996 [1:54:51<2:57:39,  4.32s/it] 38%|██████████████████████████████████████████▏                                                                   | 1531/3996 [1:54:56<2:56:02,  4.28s/it] 38%|██████████████████████████████████████████▏                                                                   | 1532/3996 [1:55:00<2:55:03,  4.26s/it] 38%|██████████████████████████████████████████▏                                                                   | 1533/3996 [1:55:04<2:54:21,  4.25s/it] 38%|██████████████████████████████████████████▏                                                                   | 1534/3996 [1:55:08<2:53:40,  4.23s/it] 38%|██████████████████████████████████████████▎                                                                   | 1535/3996 [1:55:13<2:59:53,  4.39s/it] 38%|██████████████████████████████████████████▎                                                                   | 1536/3996 [1:55:17<2:57:34,  4.33s/it] 38%|██████████████████████████████████████████▎                                                                   | 1537/3996 [1:55:21<2:55:41,  4.29s/it] 38%|██████████████████████████████████████████▎                                                                   | 1538/3996 [1:55:26<2:54:17,  4.25s/it] 39%|██████████████████████████████████████████▎                                                                   | 1539/3996 [1:55:30<2:53:36,  4.24s/it] 39%|██████████████████████████████████████████▍                                                                   | 1540/3996 [1:55:34<2:52:55,  4.22s/it] 39%|██████████████████████████████████████████▍                                                                   | 1541/3996 [1:55:38<2:52:33,  4.22s/it] 39%|██████████████████████████████████████████▍                                                                   | 1542/3996 [1:55:43<2:58:51,  4.37s/it] 39%|██████████████████████████████████████████▍                                                                   | 1543/3996 [1:55:47<2:56:48,  4.32s/it] 39%|██████████████████████████████████████████▌                                                                   | 1544/3996 [1:55:52<3:00:32,  4.42s/it] 39%|██████████████████████████████████████████▌                                                                   | 1545/3996 [1:55:56<2:57:33,  4.35s/it] 39%|██████████████████████████████████████████▌                                                                   | 1546/3996 [1:56:00<2:55:55,  4.31s/it] 39%|██████████████████████████████████████████▌                                                                   | 1547/3996 [1:56:04<2:54:25,  4.27s/it] 39%|██████████████████████████████████████████▌                                                                   | 1548/3996 [1:56:09<2:53:35,  4.25s/it] 39%|██████████████████████████████████████████▋                                                                   | 1549/3996 [1:56:13<2:59:19,  4.40s/it] 39%|██████████████████████████████████████████▋                                                                   | 1550/3996 [1:56:17<2:56:59,  4.34s/it]                                                                                                                                                           {'loss': 0.5095, 'grad_norm': 0.19003146886825562, 'learning_rate': 0.00013916051713908924, 'ppl': 1.6645, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4290.76, 'total_tokens': 30218573, 'epoch': 1.16}
+ 39%|██████████████████████████████████████████▋                                                                   | 1550/3996 [1:56:17<2:56:59,  4.34s/it] 39%|██████████████████████████████████████████▋                                                                   | 1551/3996 [1:56:22<2:55:11,  4.30s/it] 39%|██████████████████████████████████████████▋                                                                   | 1552/3996 [1:56:26<2:53:48,  4.27s/it] 39%|██████████████████████████████████████████▊                                                                   | 1553/3996 [1:56:30<2:53:04,  4.25s/it] 39%|██████████████████████████████████████████▊                                                                   | 1554/3996 [1:56:34<2:52:19,  4.23s/it] 39%|██████████████████████████████████████████▊                                                                   | 1555/3996 [1:56:38<2:51:55,  4.23s/it] 39%|██████████████████████████████████████████▊                                                                   | 1556/3996 [1:56:43<2:58:12,  4.38s/it] 39%|██████████████████████████████████████████▊                                                                   | 1557/3996 [1:56:47<2:55:54,  4.33s/it] 39%|██████████████████████████████████████████▉                                                                   | 1558/3996 [1:56:52<2:54:14,  4.29s/it] 39%|██████████████████████████████████████████▉                                                                   | 1559/3996 [1:56:56<2:52:54,  4.26s/it] 39%|██████████████████████████████████████████▉                                                                   | 1560/3996 [1:57:00<2:52:12,  4.24s/it] 39%|██████████████████████████████████████████▉                                                                   | 1561/3996 [1:57:04<2:51:40,  4.23s/it] 39%|██████████████████████████████████████████▉                                                                   | 1562/3996 [1:57:08<2:51:12,  4.22s/it] 39%|███████████████████████████████████████████                                                                   | 1563/3996 [1:57:13<2:57:16,  4.37s/it] 39%|███████████████████████████████████████████                                                                   | 1564/3996 [1:57:17<2:55:08,  4.32s/it] 39%|███████████████████████████████████████████                                                                   | 1565/3996 [1:57:22<2:53:34,  4.28s/it] 39%|███████████████████████████████████████████                                                                   | 1566/3996 [1:57:26<2:52:36,  4.26s/it] 39%|███████████████████████████████████████████▏                                                                  | 1567/3996 [1:57:30<2:51:52,  4.25s/it] 39%|███████████████████████████████████████████▏                                                                  | 1568/3996 [1:57:34<2:51:08,  4.23s/it] 39%|███████████████████████████████████████████▏                                                                  | 1569/3996 [1:57:38<2:50:40,  4.22s/it] 39%|███████████████████████████████████████████▏                                                                  | 1570/3996 [1:57:43<2:56:51,  4.37s/it] 39%|███████████████████████████████████████████▏                                                                  | 1571/3996 [1:57:47<2:54:37,  4.32s/it] 39%|███████████████████████████████████████████▎                                                                  | 1572/3996 [1:57:51<2:53:12,  4.29s/it] 39%|███████████████████████████████████████████▎                                                                  | 1573/3996 [1:57:56<2:51:51,  4.26s/it] 39%|███████████████████████████████████████████▎                                                                  | 1574/3996 [1:58:00<2:51:20,  4.24s/it] 39%|███████████████████████████████████████████▎                                                                  | 1575/3996 [1:58:04<2:50:42,  4.23s/it]                                                                                                                                                           {'loss': 0.522, 'grad_norm': 0.18279583752155304, 'learning_rate': 0.00013729778069089437, 'ppl': 1.6854, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4300.13, 'total_tokens': 30669810, 'epoch': 1.18}
+ 39%|███████████████████████████████████████████▎                                                                  | 1575/3996 [1:58:04<2:50:42,  4.23s/it] 39%|███████████████████████████████████████████▍                                                                  | 1576/3996 [1:58:08<2:50:11,  4.22s/it] 39%|███████████████████████████████████████████▍                                                                  | 1577/3996 [1:58:13<2:56:14,  4.37s/it] 39%|███████████████████████████████████████████▍                                                                  | 1578/3996 [1:58:17<2:54:11,  4.32s/it] 40%|███████████████████████████████████████████▍                                                                  | 1579/3996 [1:58:21<2:52:47,  4.29s/it] 40%|███████████████████████████████████████████▍                                                                  | 1580/3996 [1:58:26<2:53:06,  4.30s/it] 40%|███████████████████████████████████████████▌                                                                  | 1581/3996 [1:58:30<2:51:57,  4.27s/it] 40%|███████████████████████████████████████████▌                                                                  | 1582/3996 [1:58:34<2:50:56,  4.25s/it] 40%|███████████████████████████████████████████▌                                                                  | 1583/3996 [1:58:38<2:50:20,  4.24s/it] 40%|███████████████████████████████████████████▌                                                                  | 1584/3996 [1:58:43<2:56:17,  4.39s/it] 40%|███████████████████████████████████████████▋                                                                  | 1585/3996 [1:58:47<2:54:03,  4.33s/it] 40%|███████████████████████████████████████████▋                                                                  | 1586/3996 [1:58:52<2:52:24,  4.29s/it] 40%|███████████████████████████████████████████▋                                                                  | 1587/3996 [1:58:56<2:51:00,  4.26s/it] 40%|███████████████████████████████████████████▋                                                                  | 1588/3996 [1:59:00<2:50:15,  4.24s/it] 40%|███████████████████████████████████████████▋                                                                  | 1589/3996 [1:59:04<2:49:33,  4.23s/it] 40%|███████████████████████████████████████████▊                                                                  | 1590/3996 [1:59:08<2:49:08,  4.22s/it] 40%|███████████████████████████████████████████▊                                                                  | 1591/3996 [1:59:13<2:55:13,  4.37s/it] 40%|███████████████████████████████████████████▊                                                                  | 1592/3996 [1:59:17<2:53:06,  4.32s/it] 40%|███████████████████████████████████████████▊                                                                  | 1593/3996 [1:59:21<2:51:34,  4.28s/it] 40%|███████████████████████████████████████████▉                                                                  | 1594/3996 [1:59:26<2:50:21,  4.26s/it] 40%|███████████████████████████████████████████▉                                                                  | 1595/3996 [1:59:30<2:49:50,  4.24s/it] 40%|███████████████████████████████████████████▉                                                                  | 1596/3996 [1:59:34<2:49:12,  4.23s/it] 40%|███████████████████████████████████████████▉                                                                  | 1597/3996 [1:59:38<2:48:58,  4.23s/it] 40%|███████████████████████████████████████████▉                                                                  | 1598/3996 [1:59:43<2:59:16,  4.49s/it] 40%|████████████████████████████████████████████                                                                  | 1599/3996 [1:59:48<2:55:45,  4.40s/it] 40%|████████████████████████████████████████████                                                                  | 1600/3996 [1:59:52<2:53:13,  4.34s/it]                                                                                                                                                           {'loss': 0.5003, 'grad_norm': 0.18783092498779297, 'learning_rate': 0.00013541988735092672, 'ppl': 1.6492, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4271.27, 'total_tokens': 31117586, 'epoch': 1.2}
+ 40%|████████████████████████████████████████████                                                                  | 1600/3996 [1:59:52<2:53:13,  4.34s/it] 40%|████████████████████████████████████████████                                                                  | 1601/3996 [1:59:56<2:51:24,  4.29s/it] 40%|████████████████████████████████████████████                                                                  | 1602/3996 [2:00:00<2:50:16,  4.27s/it] 40%|████████████████████████████████████████████▏                                                                 | 1603/3996 [2:00:04<2:49:25,  4.25s/it] 40%|████████████████████████████████████████████▏                                                                 | 1604/3996 [2:00:09<2:48:40,  4.23s/it] 40%|████████████████████████████████████████████▏                                                                 | 1605/3996 [2:00:13<2:54:32,  4.38s/it] 40%|████████████████████████████████████████████▏                                                                 | 1606/3996 [2:00:17<2:52:21,  4.33s/it] 40%|████████████████████████████���███████████████▏                                                                 | 1607/3996 [2:00:22<2:50:38,  4.29s/it] 40%|████████████████████████████████████████████▎                                                                 | 1608/3996 [2:00:26<2:49:25,  4.26s/it] 40%|████████████████████████████████████████████▎                                                                 | 1609/3996 [2:00:30<2:48:49,  4.24s/it] 40%|████████████████████████████████████████████▎                                                                 | 1610/3996 [2:00:34<2:48:11,  4.23s/it] 40%|████████████████████████████████████████████▎                                                                 | 1611/3996 [2:00:38<2:47:50,  4.22s/it] 40%|████████████████████████████████████████████▎                                                                 | 1612/3996 [2:00:43<2:53:57,  4.38s/it] 40%|████████████████████████████████████████████▍                                                                 | 1613/3996 [2:00:47<2:52:29,  4.34s/it] 40%|████████████████████████████████████████████▍                                                                 | 1614/3996 [2:00:52<2:50:45,  4.30s/it] 40%|████████████████████████████████████████████▍                                                                 | 1615/3996 [2:00:56<2:49:15,  4.27s/it] 40%|████████████████████████████████████████████▍                                                                 | 1616/3996 [2:01:00<2:48:38,  4.25s/it] 40%|████████████████████████████████████████████▌                                                                 | 1617/3996 [2:01:04<2:47:50,  4.23s/it] 40%|████████████████████████████████████████████▌                                                                 | 1618/3996 [2:01:08<2:47:16,  4.22s/it] 41%|████████████████████████████████████████████▌                                                                 | 1619/3996 [2:01:13<2:53:20,  4.38s/it] 41%|████████████████████████████████████████████▌                                                                 | 1620/3996 [2:01:17<2:51:12,  4.32s/it] 41%|████████████████████████████████████████████▌                                                                 | 1621/3996 [2:01:22<2:49:43,  4.29s/it] 41%|████████████████████████████████████████████▋                                                                 | 1622/3996 [2:01:26<2:48:20,  4.25s/it] 41%|████████████████████████████████████████████▋                                                                 | 1623/3996 [2:01:30<2:47:46,  4.24s/it] 41%|████████████████████████████████████████████▋                                                                 | 1624/3996 [2:01:34<2:47:16,  4.23s/it] 41%|████████████████████████████████████████████▋                                                                 | 1625/3996 [2:01:38<2:46:40,  4.22s/it]                                                                                                                                                           {'loss': 0.5115, 'grad_norm': 0.199558824300766, 'learning_rate': 0.00013352760024840175, 'ppl': 1.6678, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4248.14, 'total_tokens': 31562224, 'epoch': 1.22}
+ 41%|████████████████████████████████████████████▋                                                                 | 1625/3996 [2:01:38<2:46:40,  4.22s/it] 41%|████████████████████████████████████████████▊                                                                 | 1626/3996 [2:01:43<2:52:51,  4.38s/it] 41%|████████████████████████████████████████████▊                                                                 | 1627/3996 [2:01:47<2:50:45,  4.32s/it] 41%|████████████████████████████████████████████▊                                                                 | 1628/3996 [2:01:51<2:49:04,  4.28s/it] 41%|████████████████████████████████████████████▊                                                                 | 1629/3996 [2:01:56<2:47:47,  4.25s/it] 41%|████████████████████████████████████████████▊                                                                 | 1630/3996 [2:02:00<2:47:09,  4.24s/it] 41%|████████████████████████████████████████████▉                                                                 | 1631/3996 [2:02:04<2:46:31,  4.22s/it] 41%|████████████████████████████████████████████▉                                                                 | 1632/3996 [2:02:08<2:46:08,  4.22s/it] 41%|████████████████████████████████████████████▉                                                                 | 1633/3996 [2:02:13<2:52:08,  4.37s/it] 41%|████████████████████████████████████████████▉                                                                 | 1634/3996 [2:02:17<2:51:55,  4.37s/it] 41%|█████████████████████████████████████████████                                                                 | 1635/3996 [2:02:22<2:49:48,  4.32s/it] 41%|█████████████████████████████████████████████                                                                 | 1636/3996 [2:02:26<2:48:12,  4.28s/it] 41%|█████████████████████████████████████████████                                                                 | 1637/3996 [2:02:30<2:47:21,  4.26s/it] 41%|█████████████████████████████████████████████                                                                 | 1638/3996 [2:02:34<2:46:30,  4.24s/it] 41%|█████████████████████████████████████████████                                                                 | 1639/3996 [2:02:38<2:45:55,  4.22s/it] 41%|█████████████████████████████████████████████▏                                                                | 1640/3996 [2:02:43<2:51:59,  4.38s/it] 41%|█████████████████████████████████████████████▏                                                                | 1641/3996 [2:02:47<2:49:54,  4.33s/it] 41%|█████████████████████████████████████████████▏                                                                | 1642/3996 [2:02:51<2:48:15,  4.29s/it] 41%|█████████████████████████████████████████████▏                                                                | 1643/3996 [2:02:56<2:47:02,  4.26s/it] 41%|█████████████████████████████████████████████▎                                                                | 1644/3996 [2:03:00<2:46:20,  4.24s/it] 41%|█████████████████████████████████████████████▎                                                                | 1645/3996 [2:03:04<2:45:41,  4.23s/it] 41%|██████��██████████████████████████████████████▎                                                                | 1646/3996 [2:03:08<2:45:19,  4.22s/it] 41%|█████████████████████████████████████████████▎                                                                | 1647/3996 [2:03:13<2:51:21,  4.38s/it] 41%|█████████████████████████████████████████████▎                                                                | 1648/3996 [2:03:17<2:49:19,  4.33s/it] 41%|█████████████████████████████████████████████▍                                                                | 1649/3996 [2:03:21<2:47:47,  4.29s/it] 41%|█████████████████████████████████████████████▍                                                                | 1650/3996 [2:03:26<2:46:33,  4.26s/it]                                                                                                                                                           {'loss': 0.4967, 'grad_norm': 0.19465653598308563, 'learning_rate': 0.00013162168836180246, 'ppl': 1.6433, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4286.24, 'total_tokens': 32011071, 'epoch': 1.24}
+ 41%|█████████████████████████████████████████████▍                                                                | 1650/3996 [2:03:26<2:46:33,  4.26s/it] 41%|█████████████████████████████████████████████▍                                                                | 1651/3996 [2:03:30<2:45:48,  4.24s/it] 41%|█████████████████████████████████████████████▍                                                                | 1652/3996 [2:03:34<2:45:31,  4.24s/it] 41%|█████████████████████████████████████████████▌                                                                | 1653/3996 [2:03:38<2:45:00,  4.23s/it] 41%|█████████████████████████████████████████████▌                                                                | 1654/3996 [2:03:43<2:50:54,  4.38s/it] 41%|█████████████████████████████████████████████▌                                                                | 1655/3996 [2:03:47<2:48:44,  4.32s/it] 41%|█████████████████████████████████████████████▌                                                                | 1656/3996 [2:03:51<2:47:03,  4.28s/it] 41%|█████████████████████████████████████████████▌                                                                | 1657/3996 [2:03:56<2:45:48,  4.25s/it] 41%|█████████████████████████████████████████████▋                                                                | 1658/3996 [2:04:00<2:45:17,  4.24s/it] 42%|█████████████████████████████████████████████▋                                                                | 1659/3996 [2:04:04<2:44:41,  4.23s/it] 42%|█████████████████████████████████████████████▋                                                                | 1660/3996 [2:04:08<2:44:11,  4.22s/it] 42%|█████████████████████████████████████████████▋                                                                | 1661/3996 [2:04:13<2:50:14,  4.37s/it] 42%|█████████████████████████████████████████████▊                                                                | 1662/3996 [2:04:17<2:48:09,  4.32s/it] 42%|█████████████████████████████████████████████▊                                                                | 1663/3996 [2:04:21<2:46:39,  4.29s/it] 42%|█████████████████████████████████████████████▊                                                                | 1664/3996 [2:04:25<2:45:19,  4.25s/it] 42%|█████████████████████████████████████████████▊                                                                | 1665/3996 [2:04:30<2:44:40,  4.24s/it] 42%|█████████████████████████████████████████████▊                                                                | 1666/3996 [2:04:34<2:44:05,  4.23s/it] 42%|█████████████████████████████████████████████▉                                                                | 1667/3996 [2:04:38<2:43:45,  4.22s/it] 42%|█████████████████████████████████████████████▉                                                                | 1668/3996 [2:04:43<2:49:39,  4.37s/it] 42%|█████████████████████████████████████████████▉                                                                | 1669/3996 [2:04:47<2:47:32,  4.32s/it] 42%|█████████████████████████████████████████████▉                                                                | 1670/3996 [2:04:51<2:46:20,  4.29s/it] 42%|█████████████████████████████████████████████▉                                                                | 1671/3996 [2:04:55<2:45:04,  4.26s/it] 42%|██████████████████████████████████████████████                                                                | 1672/3996 [2:05:00<2:44:20,  4.24s/it] 42%|██████████████████████████████████████████████                                                                | 1673/3996 [2:05:04<2:43:42,  4.23s/it] 42%|██████████████████████████████████████████████                                                                | 1674/3996 [2:05:08<2:43:24,  4.22s/it] 42%|██████████████████████████████████████████████                                                                | 1675/3996 [2:05:13<2:49:14,  4.37s/it]                                                                                                                                                           {'loss': 0.5172, 'grad_norm': 0.2054641842842102, 'learning_rate': 0.00012970292620638574, 'ppl': 1.6773, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3733.1, 'total_tokens': 32452490, 'epoch': 1.26}
+ 42%|██████████████████████████████████████████████                                                                | 1675/3996 [2:05:13<2:49:14,  4.37s/it] 42%|██████████████████████████████████████████████▏                                                               | 1676/3996 [2:05:17<2:47:04,  4.32s/it] 42%|██████████████████████████████████████████████▏                                                               | 1677/3996 [2:05:21<2:45:25,  4.28s/it] 42%|██████████████████████████████████████████████▏                                                               | 1678/3996 [2:05:25<2:44:16,  4.25s/it] 42%|██████████████████████████████████████████████▏                                                               | 1679/3996 [2:05:30<2:43:42,  4.24s/it] 42%|██████████████████████████████████████████████▏                                                               | 1680/3996 [2:05:34<2:43:11,  4.23s/it] 42%|██████████████████████████████████████████████▎                                                               | 1681/3996 [2:05:38<2:42:47,  4.22s/it] 42%|██████████████████████████████████████████████▎                                                               | 1682/3996 [2:05:43<2:48:50,  4.38s/it] 42%|██████████████████████████████████████████████▎                                                               | 1683/3996 [2:05:47<2:46:41,  4.32s/it] 42%|██████████████████████████████████████████████▎                                                               | 1684/3996 [2:05:51<2:45:42,  4.30s/it] 42%|██████████████████████████████████████████████▍                                                               | 1685/3996 [2:05:55<2:44:18,  4.27s/it] 42%|██████████████████████████████████████████████▍                                                               | 1686/3996 [2:06:00<2:43:30,  4.25s/it] 42%|██████████████████████████████████████████████▍                                                               | 1687/3996 [2:06:04<2:42:50,  4.23s/it] 42%|██████████████████████████████████████████████▍                                                               | 1688/3996 [2:06:08<2:42:21,  4.22s/it] 42%|██████████████████████████████████████████████▍                                                               | 1689/3996 [2:06:13<2:51:14,  4.45s/it] 42%|██████████████████████████████████████████████▌                                                               | 1690/3996 [2:06:17<2:48:09,  4.38s/it] 42%|██████████████████████████████████████████████▌                                                               | 1691/3996 [2:06:21<2:46:06,  4.32s/it] 42%|██████████████████████████████████████████████▌                                                               | 1692/3996 [2:06:25<2:44:28,  4.28s/it] 42%|██████████████████████████████████████████████▌                                                               | 1693/3996 [2:06:30<2:43:37,  4.26s/it] 42%|██████████████████████████████████████████████▋                                                               | 1694/3996 [2:06:34<2:42:43,  4.24s/it] 42%|██████████████████████████████████████████████▋                                                               | 1695/3996 [2:06:38<2:42:06,  4.23s/it] 42%|██████████████████████████████████████████████▋                                                               | 1696/3996 [2:06:43<2:47:56,  4.38s/it] 42%|██████████████████████████████████████████████▋                                                               | 1697/3996 [2:06:47<2:45:51,  4.33s/it] 42%|██████████████████████████████████████████████▋                                                               | 1698/3996 [2:06:51<2:44:19,  4.29s/it] 43%|██████████████████████████████████████████████▊                                                               | 1699/3996 [2:06:55<2:42:57,  4.26s/it] 43%|██████████████████████████████████████████████▊                                                               | 1700/3996 [2:07:00<2:42:16,  4.24s/it]                                                                                                                                                           {'loss': 0.5149, 'grad_norm': 0.19450411200523376, 'learning_rate': 0.00012777209351943862, 'ppl': 1.6735, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4251.33, 'total_tokens': 32899103, 'epoch': 1.28}
+ 43%|██████████████████████████████████████████████▊                                                               | 1700/3996 [2:07:00<2:42:16,  4.24s/it] 43%|██████████████████████████████████████████████▊                                                               | 1701/3996 [2:07:04<2:41:50,  4.23s/it] 43%|██████████████████████████████████████████████▊                                                               | 1702/3996 [2:07:08<2:41:21,  4.22s/it] 43%|██████████████████████████████████████████████▉                                                               | 1703/3996 [2:07:13<2:47:09,  4.37s/it] 43%|██████████████████████████████████████████████▉                                                               | 1704/3996 [2:07:17<2:45:05,  4.32s/it] 43%|██████████████████████████████████████████████▉                                                               | 1705/3996 [2:07:21<2:43:38,  4.29s/it] 43%|██████████████████████████████████████████████▉                                                               | 1706/3996 [2:07:25<2:42:21,  4.25s/it] 43%|██████████████████████████████████████████████▉                                                               | 1707/3996 [2:07:30<2:45:34,  4.34s/it] 43%|███████████████████████████████████████████████                                                               | 1708/3996 [2:07:34<2:43:51,  4.30s/it] 43%|███████████████████████████████████████████████                                                               | 1709/3996 [2:07:38<2:42:31,  4.26s/it] 43%|███████████████████████████████████████████████                                                               | 1710/3996 [2:07:43<2:47:53,  4.41s/it] 43%|███████████████████████████████████████████████                                                               | 1711/3996 [2:07:47<2:45:27,  4.34s/it] 43%|███████████████████████████████████████████████▏                                                              | 1712/3996 [2:07:51<2:43:32,  4.30s/it] 43%|███████████████████████████████████████████████▏                                                              | 1713/3996 [2:07:56<2:42:11,  4.26s/it] 43%|███████████████████████████████████████████████▏                                                              | 1714/3996 [2:08:00<2:41:29,  4.25s/it] 43%|███████████████████████████████████████████████▏                                                              | 1715/3996 [2:08:04<2:40:55,  4.23s/it] 43%|███████████████████████████████████████████████▏                                                              | 1716/3996 [2:08:08<2:40:29,  4.22s/it] 43%|███████████████████████████████████████████████▎                                                              | 1717/3996 [2:08:13<2:46:12,  4.38s/it] 43%|███████████████████████████████████████████████▎                                                              | 1718/3996 [2:08:17<2:44:11,  4.32s/it] 43%|███████████████████████████████████████████████▎                                                              | 1719/3996 [2:08:21<2:42:41,  4.29s/it] 43%|███████████████████████████████████████████████▎                                                              | 1720/3996 [2:08:25<2:41:35,  4.26s/it] 43%|███████████████████████████████████████████████▎                                                              | 1721/3996 [2:08:30<2:40:53,  4.24s/it] 43%|███████████████████████████████████████████████▍                                                              | 1722/3996 [2:08:34<2:40:05,  4.22s/it] 43%|███████████████████████████████████████████████▍                                                              | 1723/3996 [2:08:38<2:39:37,  4.21s/it] 43%|███████████████████████████████████████████████▍                                                              | 1724/3996 [2:08:43<2:46:06,  4.39s/it] 43%|███████████████████████████████████████████████▍                                                              | 1725/3996 [2:08:47<2:43:56,  4.33s/it]                                                                                                                                                           {'loss': 0.5205, 'grad_norm': 0.19844166934490204, 'learning_rate': 0.0001258299749434123, 'ppl': 1.6829, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4240.57, 'total_tokens': 33344569, 'epoch': 1.29}
+ 43%|███████████████████████████████████████████████▍                                                              | 1725/3996 [2:08:47<2:43:56,  4.33s/it] 43%|███████████████████████████████████████████████▌                                                              | 1726/3996 [2:08:51<2:42:21,  4.29s/it] 43%|███████████████████████████████████████████████▌                                                              | 1727/3996 [2:08:55<2:41:02,  4.26s/it] 43%|███████████████████████████████████████████████▌                                                              | 1728/3996 [2:09:00<2:40:17,  4.24s/it] 43%|███████████████████████████████████████████████▌                                                              | 1729/3996 [2:09:04<2:39:41,  4.23s/it] 43%|███████████████████████████████████████████████▌                                                              | 1730/3996 [2:09:08<2:39:22,  4.22s/it] 43%|███████████████████████████████████████████████▋                                                              | 1731/3996 [2:09:13<2:45:04,  4.37s/it] 43%|███████████████████████████████████████████████▋                                                              | 1732/3996 [2:09:17<2:42:56,  4.32s/it] 43%|███████████████████████████████████████████████▋                                                              | 1733/3996 [2:09:21<2:41:29,  4.28s/it] 43%|███████████████████████████████████████████████▋                                                              | 1734/3996 [2:09:25<2:40:29,  4.26s/it] 43%|███████████████████████████████████████████████▊                                                              | 1735/3996 [2:09:30<2:40:06,  4.25s/it] 43%|███████████████████████████████████████████████▊                                                              | 1736/3996 [2:09:34<2:43:46,  4.35s/it] 43%|█████████████████████��█████████████████████████▊                                                              | 1737/3996 [2:09:38<2:42:51,  4.33s/it] 43%|███████████████████████████████████████████████▊                                                              | 1738/3996 [2:09:43<2:47:24,  4.45s/it] 44%|███████████████████████████████████████████████▊                                                              | 1739/3996 [2:09:47<2:44:24,  4.37s/it] 44%|███████████████████████████████████████████████▉                                                              | 1740/3996 [2:09:52<2:42:23,  4.32s/it] 44%|███████████████████████████████████████████████▉                                                              | 1741/3996 [2:09:56<2:40:43,  4.28s/it] 44%|███████████████████████████████████████████████▉                                                              | 1742/3996 [2:10:00<2:41:04,  4.29s/it] 44%|███████████████████████████████████████████████▉                                                              | 1743/3996 [2:10:04<2:39:56,  4.26s/it] 44%|████████████████████████████████████████████████                                                              | 1744/3996 [2:10:08<2:39:13,  4.24s/it] 44%|████████████████████████████████████████████████                                                              | 1745/3996 [2:10:13<2:44:42,  4.39s/it] 44%|████████████████████████████████████████████████                                                              | 1746/3996 [2:10:17<2:42:32,  4.33s/it] 44%|████████████████████████████████████████████████                                                              | 1747/3996 [2:10:22<2:40:54,  4.29s/it] 44%|████████████████████████████████████████████████                                                              | 1748/3996 [2:10:26<2:39:36,  4.26s/it] 44%|████████████████████████████████████████████████▏                                                             | 1749/3996 [2:10:30<2:38:48,  4.24s/it] 44%|████████████████████████████████████████████████▏                                                             | 1750/3996 [2:10:34<2:38:03,  4.22s/it]                                                                                                                                                           {'loss': 0.5033, 'grad_norm': 0.19240470230579376, 'learning_rate': 0.00012387735970706312, 'ppl': 1.6542, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4267.65, 'total_tokens': 33790426, 'epoch': 1.31}
+ 44%|████████████████████████████████████████████████▏                                                             | 1750/3996 [2:10:34<2:38:03,  4.22s/it] 44%|████████████████████████████████████████████████▏                                                             | 1751/3996 [2:10:38<2:37:29,  4.21s/it] 44%|████████████████████████████████████████████████▏                                                             | 1752/3996 [2:10:43<2:43:17,  4.37s/it] 44%|████████████████████████████████████████████████▎                                                             | 1753/3996 [2:10:47<2:41:18,  4.32s/it] 44%|████████████████████████████████████████████████▎                                                             | 1754/3996 [2:10:51<2:39:53,  4.28s/it] 44%|████████████████████████████████████████████████▎                                                             | 1755/3996 [2:10:56<2:38:43,  4.25s/it] 44%|████████████████████████████████████████████████▎                                                             | 1756/3996 [2:11:00<2:38:00,  4.23s/it] 44%|████████████████████████████████████████████████▎                                                             | 1757/3996 [2:11:04<2:37:30,  4.22s/it] 44%|████████████████████████████████████████████████▍                                                             | 1758/3996 [2:11:08<2:37:05,  4.21s/it] 44%|████████████████████████████████████████████████▍                                                             | 1759/3996 [2:11:13<2:42:51,  4.37s/it] 44%|████████████████████████████████████████████████▍                                                             | 1760/3996 [2:11:17<2:40:45,  4.31s/it] 44%|████████████████████████████████████████████████▍                                                             | 1761/3996 [2:11:21<2:39:20,  4.28s/it] 44%|████████████████████████████████████████████████▌                                                             | 1762/3996 [2:11:25<2:38:11,  4.25s/it] 44%|████████████████████████████████████████████████▌                                                             | 1763/3996 [2:11:30<2:37:30,  4.23s/it] 44%|████████████████████████████████████████████████▌                                                             | 1764/3996 [2:11:34<2:36:59,  4.22s/it] 44%|████████████████████████████████████████████████▌                                                             | 1765/3996 [2:11:38<2:36:31,  4.21s/it] 44%|████████████████████████████████████████████████▌                                                             | 1766/3996 [2:11:43<2:42:11,  4.36s/it] 44%|████████████████████████████████████████████████▋                                                             | 1767/3996 [2:11:47<2:40:16,  4.31s/it] 44%|████████████████████████████████████████████████▋                                                             | 1768/3996 [2:11:51<2:38:58,  4.28s/it] 44%|████████████████████████████████████████████████▋                                                             | 1769/3996 [2:11:55<2:37:49,  4.25s/it] 44%|████████████████████████████████████████████████▋                                                             | 1770/3996 [2:12:00<2:37:04,  4.23s/it] 44%|████████████████████████████████████████████████▊                                                             | 1771/3996 [2:12:04<2:36:35,  4.22s/it] 44%|████████████████████████████████████████████████▊                                                             | 1772/3996 [2:12:08<2:36:13,  4.21s/it] 44%|████████████████████████████████████████████████▊                                                             | 1773/3996 [2:12:13<2:41:53,  4.37s/it] 44%|████████████████████████████████████████████████▊                                                             | 1774/3996 [2:12:17<2:39:47,  4.31s/it] 44%|████████████████████████████████████████████████▊                                                             | 1775/3996 [2:12:21<2:38:18,  4.28s/it]                                                                                                                                                           {'loss': 0.5103, 'grad_norm': 0.18220192193984985, 'learning_rate': 0.00012191504130472937, 'ppl': 1.6658, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4237.08, 'total_tokens': 34233908, 'epoch': 1.33}
+ 44%|████████████████████████████████████████████████▊                                                             | 1775/3996 [2:12:21<2:38:18,  4.28s/it] 44%|████████████████████████████████████████████████▉                                                             | 1776/3996 [2:12:25<2:37:22,  4.25s/it] 44%|████████████████████████████████████████████████▉                                                             | 1777/3996 [2:12:29<2:36:42,  4.24s/it] 44%|████████████████████████████████████████████████▉                                                             | 1778/3996 [2:12:34<2:36:00,  4.22s/it] 45%|████████████████████████████████████████████████▉                                                             | 1779/3996 [2:12:38<2:35:32,  4.21s/it] 45%|████████████████████████████████████████████████▉                                                             | 1780/3996 [2:12:43<2:41:13,  4.37s/it] 45%|█████████████████████████████████████████████████                                                             | 1781/3996 [2:12:47<2:39:09,  4.31s/it] 45%|█████████████████████████████████████████████████                                                             | 1782/3996 [2:12:51<2:37:52,  4.28s/it] 45%|█████████████████████████████████████████████████                                                             | 1783/3996 [2:12:55<2:36:50,  4.25s/it] 45%|█████████████████████████████████████████████████                                                             | 1784/3996 [2:12:59<2:36:12,  4.24s/it] 45%|█████████████████████████████████████████████████▏                                                            | 1785/3996 [2:13:04<2:35:46,  4.23s/it] 45%|█████████████████████████████████████████████████▏                                                            | 1786/3996 [2:13:08<2:35:20,  4.22s/it] 45%|█████████████████████████████████████████████████▏                                                            | 1787/3996 [2:13:12<2:41:00,  4.37s/it] 45%|█████████████████████████████████████████████████▏                                                            | 1788/3996 [2:13:17<2:38:52,  4.32s/it] 45%|█████████████████████████████████████████████████▏                                                            | 1789/3996 [2:13:21<2:37:21,  4.28s/it] 45%|█████████████████████████████████████████████████▎                                                            | 1790/3996 [2:13:25<2:36:15,  4.25s/it] 45%|█████████████████████████████████████████████████▎                                                            | 1791/3996 [2:13:29<2:35:45,  4.24s/it] 45%|███████████████��█████████████████████████████████▎                                                            | 1792/3996 [2:13:33<2:35:08,  4.22s/it] 45%|█████████████████████████████████████████████████▎                                                            | 1793/3996 [2:13:38<2:34:48,  4.22s/it] 45%|█████████████████████████████████████████████████▍                                                            | 1794/3996 [2:13:42<2:40:27,  4.37s/it] 45%|█████████████████████████████████████████████████▍                                                            | 1795/3996 [2:13:47<2:38:25,  4.32s/it] 45%|█████████████████████████████████████████████████▍                                                            | 1796/3996 [2:13:51<2:36:54,  4.28s/it] 45%|█████████████████████████████████████████████████▍                                                            | 1797/3996 [2:13:55<2:40:41,  4.38s/it] 45%|█████████████████████████████████████████████████▍                                                            | 1798/3996 [2:14:00<2:38:31,  4.33s/it] 45%|█████████████████████████████████████████████████▌                                                            | 1799/3996 [2:14:04<2:36:55,  4.29s/it] 45%|█████████████████████████████████████████████████▌                                                            | 1800/3996 [2:14:08<2:35:50,  4.26s/it]                                                                                                                                                           {'loss': 0.5192, 'grad_norm': 0.20157551765441895, 'learning_rate': 0.00011994381717387514, 'ppl': 1.6807, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4244.09, 'total_tokens': 34678691, 'epoch': 1.35}
+ 45%|█████████████████████████████████████████████████▌                                                            | 1800/3996 [2:14:08<2:35:50,  4.26s/it] 45%|█████████████████████████████████████████████████▌                                                            | 1801/3996 [2:14:13<2:40:55,  4.40s/it] 45%|█████████████████████████████████████████████████▌                                                            | 1802/3996 [2:14:17<2:39:26,  4.36s/it] 45%|█████████████████████████████████████████████████▋                                                            | 1803/3996 [2:14:21<2:37:33,  4.31s/it] 45%|█████████████████████████████████████████████████▋                                                            | 1804/3996 [2:14:25<2:36:23,  4.28s/it] 45%|█████████████████████████████████████████████████▋                                                            | 1805/3996 [2:14:30<2:36:03,  4.27s/it] 45%|█████████████████████████████████████████████████▋                                                            | 1806/3996 [2:14:34<2:35:14,  4.25s/it] 45%|█████████████████████████████████████████████████▋                                                            | 1807/3996 [2:14:38<2:34:32,  4.24s/it] 45%|█████████████████████████████████████████████████▊                                                            | 1808/3996 [2:14:43<2:39:52,  4.38s/it] 45%|██████████████████████████████████��██████████████▊                                                            | 1809/3996 [2:14:47<2:37:47,  4.33s/it] 45%|█████████████████████████████████████████████████▊                                                            | 1810/3996 [2:14:51<2:36:21,  4.29s/it] 45%|█████████████████████████████████████████████████▊                                                            | 1811/3996 [2:14:55<2:35:01,  4.26s/it] 45%|█████████████████████████████████████████████████▉                                                            | 1812/3996 [2:15:00<2:34:22,  4.24s/it] 45%|█████████████████████████████████████████████████▉                                                            | 1813/3996 [2:15:04<2:33:46,  4.23s/it] 45%|█████████████████████████████████████████████████▉                                                            | 1814/3996 [2:15:08<2:33:11,  4.21s/it] 45%|█████████████████████████████████████████████████▉                                                            | 1815/3996 [2:15:13<2:38:45,  4.37s/it] 45%|█████████████████████████████████████████████████▉                                                            | 1816/3996 [2:15:17<2:36:45,  4.31s/it] 45%|██████████████████████████████████████████████████                                                            | 1817/3996 [2:15:21<2:35:18,  4.28s/it] 45%|██████████████████████████████████████████████████                                                            | 1818/3996 [2:15:25<2:34:07,  4.25s/it] 46%|██████████████████████████████████████████████████                                                            | 1819/3996 [2:15:29<2:33:23,  4.23s/it] 46%|██████████████████████████████████████████████████                                                            | 1820/3996 [2:15:34<2:32:47,  4.21s/it] 46%|██████████████████████████████████████████████████▏                                                           | 1821/3996 [2:15:38<2:32:23,  4.20s/it] 46%|██████████████████████████████████████████████████▏                                                           | 1822/3996 [2:15:42<2:37:56,  4.36s/it] 46%|██████████████████████████████████████████████████▏                                                           | 1823/3996 [2:15:47<2:36:03,  4.31s/it] 46%|██████████████████████████████████████████████████▏                                                           | 1824/3996 [2:15:51<2:34:36,  4.27s/it] 46%|██████████████████████████████████████████████████▏                                                           | 1825/3996 [2:15:55<2:33:33,  4.24s/it]                                                                                                                                                           {'loss': 0.5011, 'grad_norm': 0.17189238965511322, 'learning_rate': 0.00011796448837103129, 'ppl': 1.6505, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4277.26, 'total_tokens': 35125624, 'epoch': 1.37}
+ 46%|██████████████████████████████████████████████████▏                                                           | 1825/3996 [2:15:55<2:33:33,  4.24s/it] 46%|█████████████████████████████████████████████████��▎                                                           | 1826/3996 [2:15:59<2:32:55,  4.23s/it] 46%|██████████████████████████████████████████████████▎                                                           | 1827/3996 [2:16:03<2:32:12,  4.21s/it] 46%|██████████████████████████████████████████████████▎                                                           | 1828/3996 [2:16:08<2:31:44,  4.20s/it] 46%|██████████████████████████████████████████████████▎                                                           | 1829/3996 [2:16:12<2:37:12,  4.35s/it] 46%|██████████████████████████████████████████████████▍                                                           | 1830/3996 [2:16:16<2:35:22,  4.30s/it] 46%|██████████████████████████████████████████████████▍                                                           | 1831/3996 [2:16:21<2:33:55,  4.27s/it] 46%|██████████████████████████████████████████████████▍                                                           | 1832/3996 [2:16:25<2:32:57,  4.24s/it] 46%|██████████████████████████████████████████████████▍                                                           | 1833/3996 [2:16:29<2:32:13,  4.22s/it] 46%|██████████████████████████████████████████████████▍                                                           | 1834/3996 [2:16:33<2:31:34,  4.21s/it] 46%|██████████████████████████████████████████████████▌                                                           | 1835/3996 [2:16:37<2:31:20,  4.20s/it] 46%|██████████████████████████████████████████████████▌                                                           | 1836/3996 [2:16:42<2:36:48,  4.36s/it] 46%|██████████████████████████████████████████████████▌                                                           | 1837/3996 [2:16:46<2:34:42,  4.30s/it] 46%|██████████████████████████████████████████████████▌                                                           | 1838/3996 [2:16:50<2:33:20,  4.26s/it] 46%|██████████████████████████████████████████████████▌                                                           | 1839/3996 [2:16:55<2:32:07,  4.23s/it] 46%|██████████████████████████████████████████████████▋                                                           | 1840/3996 [2:16:59<2:31:29,  4.22s/it] 46%|██████████████████████████████████████████████████▋                                                           | 1841/3996 [2:17:03<2:31:10,  4.21s/it] 46%|██████████████████████████████████████████████████▋                                                           | 1842/3996 [2:17:07<2:30:52,  4.20s/it] 46%|██████████████████████████████████████████████████▋                                                           | 1843/3996 [2:17:12<2:36:19,  4.36s/it] 46%|██████████████████████████████████████████████████▊                                                           | 1844/3996 [2:17:16<2:34:12,  4.30s/it] 46%|██████████████████████████████████████████████████▊                                                           | 1845/3996 [2:17:20<2:32:42,  4.26s/it] 46%|████████████████████████████████████���█████████████▊                                                           | 1846/3996 [2:17:24<2:31:41,  4.23s/it] 46%|██████████████████████████████████████████████████▊                                                           | 1847/3996 [2:17:29<2:31:06,  4.22s/it] 46%|██████████████████████████████████████████████████▊                                                           | 1848/3996 [2:17:33<2:30:46,  4.21s/it] 46%|██████████████████████████████████████████████████▉                                                           | 1849/3996 [2:17:37<2:30:24,  4.20s/it] 46%|██████████████████████████████████████████████████▉                                                           | 1850/3996 [2:17:42<2:35:44,  4.35s/it]                                                                                                                                                           {'loss': 0.4994, 'grad_norm': 0.19443106651306152, 'learning_rate': 0.00011597785924626616, 'ppl': 1.6477, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3766.52, 'total_tokens': 35568850, 'epoch': 1.39}
+ 46%|██████████████████████████████████████████████████▉                                                           | 1850/3996 [2:17:42<2:35:44,  4.35s/it] 46%|██████████████████████████████████████████████████▉                                                           | 1851/3996 [2:17:46<2:38:50,  4.44s/it] 46%|██████████████████████████████████████████████████▉                                                           | 1852/3996 [2:17:50<2:35:48,  4.36s/it] 46%|███████████████████████████████████████████████████                                                           | 1853/3996 [2:17:55<2:33:46,  4.31s/it] 46%|███████████████████████████████████████████████████                                                           | 1854/3996 [2:17:59<2:32:18,  4.27s/it] 46%|███████████████████████████████████████████████████                                                           | 1855/3996 [2:18:03<2:31:07,  4.24s/it] 46%|███████████████████████████████████████████████████                                                           | 1856/3996 [2:18:07<2:30:25,  4.22s/it] 46%|███████████████████████████████████████████████████                                                           | 1857/3996 [2:18:12<2:35:37,  4.37s/it] 46%|███████████████████████████████████████████████████▏                                                          | 1858/3996 [2:18:16<2:33:41,  4.31s/it] 47%|███████████████████████████████████████████████████▏                                                          | 1859/3996 [2:18:20<2:31:59,  4.27s/it] 47%|███████████████████████████████████████████████████▏                                                          | 1860/3996 [2:18:24<2:30:57,  4.24s/it] 47%|███████████████████████████████████████████████████▏                                                          | 1861/3996 [2:18:29<2:30:15,  4.22s/it] 47%|███████████████████████████████████████████████████▎                                                          | 1862/3996 [2:18:33<2:29:32,  4.20s/it] 47%|███████████████████████████████████████████████████▎                                                          | 1863/3996 [2:18:37<2:29:11,  4.20s/it] 47%|███████████████████████████████████████████████████▎                                                          | 1864/3996 [2:18:42<2:34:37,  4.35s/it] 47%|███████████████████████████████████████████████████▎                                                          | 1865/3996 [2:18:46<2:32:43,  4.30s/it] 47%|███████████████████████████████████████████████████▎                                                          | 1866/3996 [2:18:50<2:31:18,  4.26s/it] 47%|███████████████████████████████████████████████████▍                                                          | 1867/3996 [2:18:54<2:30:17,  4.24s/it] 47%|███████████████████████████████████████████████████▍                                                          | 1868/3996 [2:18:58<2:29:51,  4.23s/it] 47%|███████████████████████████████████████████████████▍                                                          | 1869/3996 [2:19:03<2:30:36,  4.25s/it] 47%|███████████████████████████████████████████████████▍                                                          | 1870/3996 [2:19:07<2:30:38,  4.25s/it] 47%|███████████████████████████████████████████████████▌                                                          | 1871/3996 [2:19:12<2:35:45,  4.40s/it] 47%|███████████████████████████████████████████████████▌                                                          | 1872/3996 [2:19:16<2:33:21,  4.33s/it] 47%|███████████████████████████████████████████████████▌                                                          | 1873/3996 [2:19:20<2:31:44,  4.29s/it] 47%|███████████████████████████████████████████████████▌                                                          | 1874/3996 [2:19:24<2:31:32,  4.29s/it] 47%|███████████████████████████████████████████████████▌                                                          | 1875/3996 [2:19:28<2:30:32,  4.26s/it]                                                                                                                                                           {'loss': 0.5083, 'grad_norm': 0.1810811311006546, 'learning_rate': 0.00011398473711631764, 'ppl': 1.6625, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4204.76, 'total_tokens': 36009980, 'epoch': 1.41}
+ 47%|███████████████████████████████████████████████████▌                                                          | 1875/3996 [2:19:28<2:30:32,  4.26s/it] 47%|███████████████████████████████████████████████████▋                                                          | 1876/3996 [2:19:33<2:29:25,  4.23s/it] 47%|███████████████████████████████████████████████████▋                                                          | 1877/3996 [2:19:37<2:28:54,  4.22s/it] 47%|███████████████████████████████████████████████████▋                                                          | 1878/3996 [2:19:42<2:34:13,  4.37s/it] 47%|███████████████████████████████████████████████████▋                                                          | 1879/3996 [2:19:46<2:32:13,  4.31s/it] 47%|███████████████████████████████████���███████████████▊                                                          | 1880/3996 [2:19:50<2:30:46,  4.28s/it] 47%|███████████████████████████████████████████████████▊                                                          | 1881/3996 [2:19:54<2:29:35,  4.24s/it] 47%|███████████████████████████████████████████████████▊                                                          | 1882/3996 [2:19:58<2:28:57,  4.23s/it] 47%|███████████████████████████████████████████████████▊                                                          | 1883/3996 [2:20:02<2:28:21,  4.21s/it] 47%|███████████████████████████████████████████████████▊                                                          | 1884/3996 [2:20:07<2:28:07,  4.21s/it] 47%|███████████████████████████████████████████████████▉                                                          | 1885/3996 [2:20:11<2:33:42,  4.37s/it] 47%|███████████████████████████████████████████████████▉                                                          | 1886/3996 [2:20:16<2:31:43,  4.31s/it] 47%|███████████████████████████████████████████████████▉                                                          | 1887/3996 [2:20:20<2:30:15,  4.27s/it] 47%|███████████████████████████████████████████████████▉                                                          | 1888/3996 [2:20:24<2:29:13,  4.25s/it] 47%|███████████████████████████████████████████████████▉                                                          | 1889/3996 [2:20:28<2:28:41,  4.23s/it] 47%|████████████████████████████████████████████████████                                                          | 1890/3996 [2:20:32<2:28:13,  4.22s/it] 47%|████████████████████████████████████████████████████                                                          | 1891/3996 [2:20:37<2:27:47,  4.21s/it] 47%|████████████████████████████████████████████████████                                                          | 1892/3996 [2:20:41<2:32:58,  4.36s/it] 47%|████████████████████████████████████████████████████                                                          | 1893/3996 [2:20:46<2:34:29,  4.41s/it] 47%|████████████████████████████████████████████████████▏                                                         | 1894/3996 [2:20:50<2:32:02,  4.34s/it] 47%|████████████████████████████████████████████████████▏                                                         | 1895/3996 [2:20:54<2:30:17,  4.29s/it] 47%|████████████████████████████████████████████████████▏                                                         | 1896/3996 [2:20:58<2:30:57,  4.31s/it] 47%|████████████████████████████████████████████████████▏                                                         | 1897/3996 [2:21:03<2:29:44,  4.28s/it] 47%|████████████████████████████████████████████████████▏                                                         | 1898/3996 [2:21:07<2:28:40,  4.25s/it] 48%|████████████████████████████████████████████████████▎                                                         | 1899/3996 [2:21:12<2:33:37,  4.40s/it] 48%|████��███████████████████████████████████████████████▎                                                         | 1900/3996 [2:21:16<2:31:22,  4.33s/it]                                                                                                                                                           {'loss': 0.5141, 'grad_norm': 0.19805970788002014, 'learning_rate': 0.00011198593193651958, 'ppl': 1.6721, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4270.21, 'total_tokens': 36457032, 'epoch': 1.43}
+ 48%|████████████████████████████████████████████████████▎                                                         | 1900/3996 [2:21:16<2:31:22,  4.33s/it] 48%|████████████████████████████████████████████████████▎                                                         | 1901/3996 [2:21:20<2:29:54,  4.29s/it] 48%|████████████████████████████████████████████████████▎                                                         | 1902/3996 [2:21:24<2:28:46,  4.26s/it] 48%|████████████████████████████████████████████████████▍                                                         | 1903/3996 [2:21:28<2:28:06,  4.25s/it] 48%|████████████████████████████████████████████████████▍                                                         | 1904/3996 [2:21:33<2:27:31,  4.23s/it] 48%|████████████████████████████████████████████████████▍                                                         | 1905/3996 [2:21:37<2:27:08,  4.22s/it] 48%|████████████████████████████████████████████████████▍                                                         | 1906/3996 [2:21:42<2:36:35,  4.50s/it] 48%|████████████████████████████████████████████████████▍                                                         | 1907/3996 [2:21:46<2:33:28,  4.41s/it] 48%|████████████████████████████████████████████████████▌                                                         | 1908/3996 [2:21:50<2:31:12,  4.35s/it] 48%|████████████████████████████████████████████████████▌                                                         | 1909/3996 [2:21:55<2:29:29,  4.30s/it] 48%|████████████████████████████████████████████████████▌                                                         | 1910/3996 [2:21:59<2:28:26,  4.27s/it] 48%|████████████████████████████████████████████████████▌                                                         | 1911/3996 [2:22:03<2:27:42,  4.25s/it] 48%|████████████████████████████████████████████████████▋                                                         | 1912/3996 [2:22:07<2:27:10,  4.24s/it] 48%|████████████████████████████████████████████████████▋                                                         | 1913/3996 [2:22:12<2:32:39,  4.40s/it] 48%|████████████████████████████████████████████████████▋                                                         | 1914/3996 [2:22:16<2:30:25,  4.34s/it] 48%|████████████████████████████████████████████████████▋                                                         | 1915/3996 [2:22:20<2:28:52,  4.29s/it] 48%|████████████████████████████████████████████████████▋                                                         | 1916/3996 [2:22:24<2:27:31,  4.26s/it] 48%|████████████████████████████████████████████████████▊                                                         | 1917/3996 [2:22:29<2:26:58,  4.24s/it] 48%|████████████████████████████████████████████████████▊                                                         | 1918/3996 [2:22:33<2:26:21,  4.23s/it] 48%|████████████████████████████████████████████████████▊                                                         | 1919/3996 [2:22:37<2:26:01,  4.22s/it] 48%|████████████████████████████████████████████████████▊                                                         | 1920/3996 [2:22:42<2:31:15,  4.37s/it] 48%|████████████████████████████████████████████████████▉                                                         | 1921/3996 [2:22:46<2:29:22,  4.32s/it] 48%|████████████████████████████████████████████████████▉                                                         | 1922/3996 [2:22:50<2:27:50,  4.28s/it] 48%|████████████████████████████████████████████████████▉                                                         | 1923/3996 [2:22:54<2:26:50,  4.25s/it] 48%|████████████████████████████████████████████████████▉                                                         | 1924/3996 [2:22:59<2:29:51,  4.34s/it] 48%|████████████████████████████████████████████████████▉                                                         | 1925/3996 [2:23:03<2:28:19,  4.30s/it]                                                                                                                                                           {'loss': 0.5045, 'grad_norm': 0.1936168372631073, 'learning_rate': 0.00010998225597165628, 'ppl': 1.6562, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4275.24, 'total_tokens': 36905590, 'epoch': 1.44}
+ 48%|████████████████████████████████████████████████████▉                                                         | 1925/3996 [2:23:03<2:28:19,  4.30s/it] 48%|█████████████████████████████████████████████████████                                                         | 1926/3996 [2:23:07<2:27:18,  4.27s/it] 48%|█████████████████████████████████████████████████████                                                         | 1927/3996 [2:23:12<2:32:09,  4.41s/it] 48%|█████████████████████████████████████████████████████                                                         | 1928/3996 [2:23:16<2:29:56,  4.35s/it] 48%|█████████████████████████████████████████████████████                                                         | 1929/3996 [2:23:20<2:28:14,  4.30s/it] 48%|█████████████████████████████████████████████████████▏                                                        | 1930/3996 [2:23:25<2:26:52,  4.27s/it] 48%|█████████████████████████████████████████████████████▏                                                        | 1931/3996 [2:23:29<2:26:07,  4.25s/it] 48%|█████████████████████████████████████████████████████▏                                                        | 1932/3996 [2:23:33<2:25:31,  4.23s/it] 48%|█████████████████████████████████████████████████████▏                                                        | 1933/3996 [2:23:37<2:25:11,  4.22s/it] 48%|█████████████████████████████████████████████████████▏                                                        | 1934/3996 [2:23:42<2:30:18,  4.37s/it] 48%|█████████████████████████████████████████████████████▎                                                        | 1935/3996 [2:23:46<2:28:32,  4.32s/it] 48%|█████████████████████████████████████████████████████▎                                                        | 1936/3996 [2:23:50<2:27:11,  4.29s/it] 48%|█████████████████████████████████████████████████████▎                                                        | 1937/3996 [2:23:55<2:26:07,  4.26s/it] 48%|█████████████████████████████████████████████████████▎                                                        | 1938/3996 [2:23:59<2:25:31,  4.24s/it] 49%|█████████████████████████████████████████████████████▍                                                        | 1939/3996 [2:24:03<2:24:59,  4.23s/it] 49%|█████████████████████████████████████████████████████▍                                                        | 1940/3996 [2:24:07<2:24:38,  4.22s/it] 49%|█████████████████████████████████████████████████████▍                                                        | 1941/3996 [2:24:12<2:30:16,  4.39s/it] 49%|█████████████████████████████████████████████████████▍                                                        | 1942/3996 [2:24:16<2:28:46,  4.35s/it] 49%|█████████████████████████████████████████████████████▍                                                        | 1943/3996 [2:24:20<2:27:07,  4.30s/it] 49%|█████████████████████████████████████████████████████▌                                                        | 1944/3996 [2:24:25<2:25:45,  4.26s/it] 49%|█████████████████████████████████████████████████████▌                                                        | 1945/3996 [2:24:29<2:24:56,  4.24s/it] 49%|█████████████████████████████████████████████████████▌                                                        | 1946/3996 [2:24:33<2:24:25,  4.23s/it] 49%|█████████████████████████████████████████████████████▌                                                        | 1947/3996 [2:24:37<2:24:01,  4.22s/it] 49%|█████████████████████████████████████████████████████▌                                                        | 1948/3996 [2:24:42<2:29:11,  4.37s/it] 49%|█████████████████████████████████████████████████████▋                                                        | 1949/3996 [2:24:46<2:27:25,  4.32s/it] 49%|█████████████████████████████████████████████████████▋                                                        | 1950/3996 [2:24:50<2:26:00,  4.28s/it]                                                                                                                                                           {'loss': 0.5025, 'grad_norm': 0.19065748155117035, 'learning_rate': 0.00010797452346587798, 'ppl': 1.6528, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4285.81, 'total_tokens': 37354436, 'epoch': 1.46}
+ 49%|███████████████████████████���█████████████████████████▋                                                        | 1950/3996 [2:24:50<2:26:00,  4.28s/it] 49%|█████████████████████████████████████████████████████▋                                                        | 1951/3996 [2:24:54<2:24:51,  4.25s/it] 49%|█████████████████████████████████████████████████████▋                                                        | 1952/3996 [2:24:59<2:24:13,  4.23s/it] 49%|█████████████████████████████████████████████████████▊                                                        | 1953/3996 [2:25:03<2:23:31,  4.22s/it] 49%|█████████████████████████████████████████████████████▊                                                        | 1954/3996 [2:25:07<2:23:09,  4.21s/it] 49%|█████████████████████████████████████████████████████▊                                                        | 1955/3996 [2:25:12<2:28:26,  4.36s/it] 49%|█████████████████████████████████████████████████████▊                                                        | 1956/3996 [2:25:16<2:26:46,  4.32s/it] 49%|█████████████████████████████████████████████████████▊                                                        | 1957/3996 [2:25:20<2:25:23,  4.28s/it] 49%|█████████████████████████████████████████████████████▉                                                        | 1958/3996 [2:25:24<2:24:14,  4.25s/it] 49%|█████████████████████████████████████████████████████▉                                                        | 1959/3996 [2:25:28<2:23:42,  4.23s/it] 49%|█████████████████████████████████████████████████████▉                                                        | 1960/3996 [2:25:33<2:24:03,  4.25s/it] 49%|█████████████████████████████████████████████████████▉                                                        | 1961/3996 [2:25:37<2:23:29,  4.23s/it] 49%|██████████████████████████████████████████████████████                                                        | 1962/3996 [2:25:42<2:28:30,  4.38s/it] 49%|██████████████████████████████████████████████████████                                                        | 1963/3996 [2:25:46<2:26:32,  4.32s/it] 49%|██████████████████████████████████████████████████████                                                        | 1964/3996 [2:25:50<2:25:02,  4.28s/it] 49%|██████████████████████████████████████████████████████                                                        | 1965/3996 [2:25:54<2:23:53,  4.25s/it] 49%|██████████████████████████████████████████████████████                                                        | 1966/3996 [2:25:58<2:23:15,  4.23s/it] 49%|██████████████████████████████████████████████████████▏                                                       | 1967/3996 [2:26:03<2:22:43,  4.22s/it] 49%|██████████████████████████████████████████████████████▏                                                       | 1968/3996 [2:26:07<2:22:18,  4.21s/it] 49%|██████████████████████████████████████████████████████▏                                                       | 1969/3996 [2:26:12<2:27:29,  4.37s/it] 49%|██████████████████████████████████████████████████████▏                                                       | 1970/3996 [2:26:16<2:25:45,  4.32s/it] 49%|██████████████████████████████████████████████████████▎                                                       | 1971/3996 [2:26:20<2:24:29,  4.28s/it] 49%|██████████████████████████████████████████████████████▎                                                       | 1972/3996 [2:26:24<2:23:25,  4.25s/it] 49%|██████████████████████████████████████████████████████▎                                                       | 1973/3996 [2:26:28<2:22:46,  4.23s/it] 49%|██████████████████████████████████████████████████████▎                                                       | 1974/3996 [2:26:32<2:22:14,  4.22s/it] 49%|██████████████████████████████████████████████████████▎                                                       | 1975/3996 [2:26:37<2:21:56,  4.21s/it]                                                                                                                                                           {'loss': 0.5102, 'grad_norm': 0.18647657334804535, 'learning_rate': 0.0001059635503118125, 'ppl': 1.6656, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4259.76, 'total_tokens': 37801500, 'epoch': 1.48}
+ 49%|██████████████████████████████████████████████████████▎                                                       | 1975/3996 [2:26:37<2:21:56,  4.21s/it] 49%|██████████████████████████████████████████████████████▍                                                       | 1976/3996 [2:26:41<2:27:06,  4.37s/it] 49%|██████████████████████████████████████████████████████▍                                                       | 1977/3996 [2:26:46<2:25:11,  4.31s/it] 49%|██████████████████████████████████████████████████████▍                                                       | 1978/3996 [2:26:50<2:26:06,  4.34s/it] 50%|██████████████████████████████████████████████████████▍                                                       | 1979/3996 [2:26:54<2:24:28,  4.30s/it] 50%|██████████████████████████████████████████████████████▌                                                       | 1980/3996 [2:26:58<2:23:22,  4.27s/it] 50%|██████████████████████████████████████████████████████▌                                                       | 1981/3996 [2:27:03<2:22:29,  4.24s/it] 50%|██████████████████████████████████████████████████████▌                                                       | 1982/3996 [2:27:07<2:21:50,  4.23s/it] 50%|██████████████████████████████████████████████████████▌                                                       | 1983/3996 [2:27:12<2:26:46,  4.37s/it] 50%|██████████████████████████████████████████████████████▌                                                       | 1984/3996 [2:27:16<2:24:49,  4.32s/it] 50%|██████████████████████████████████████████████████████▋                                                       | 1985/3996 [2:27:20<2:23:22,  4.28s/it] 50%|██████████████████████████████████████████████████████▋                                                       | 1986/3996 [2:27:24<2:22:22,  4.25s/it] 50%|██████████████████████████████████████████████████████▋                                                       | 1987/3996 [2:27:28<2:21:54,  4.24s/it] 50%|██████████████████████████████████████████████████████▋                                                       | 1988/3996 [2:27:32<2:21:20,  4.22s/it] 50%|██████████████████████████████████████████████████████▊                                                       | 1989/3996 [2:27:37<2:20:57,  4.21s/it] 50%|██████████████████████████████████████████████████████▊                                                       | 1990/3996 [2:27:41<2:26:02,  4.37s/it] 50%|██████████████████████████████████████████████████████▊                                                       | 1991/3996 [2:27:46<2:24:11,  4.32s/it] 50%|██████████████████████████████████████████████████████▊                                                       | 1992/3996 [2:27:50<2:22:48,  4.28s/it] 50%|██████████████████████████████████████████████████████▊                                                       | 1993/3996 [2:27:54<2:21:47,  4.25s/it] 50%|██████████████████████████████████████████████████████▉                                                       | 1994/3996 [2:27:58<2:21:15,  4.23s/it] 50%|██████████████████████████████████████████████████████▉                                                       | 1995/3996 [2:28:02<2:20:37,  4.22s/it] 50%|██████████████████████████████████████████████████████▉                                                       | 1996/3996 [2:28:06<2:20:11,  4.21s/it] 50%|██████████████████████████████████████████████████████▉                                                       | 1997/3996 [2:28:11<2:25:23,  4.36s/it] 50%|███████████████████████████████████████████████████████                                                       | 1998/3996 [2:28:15<2:23:30,  4.31s/it] 50%|███████████████████████████████████████████████████████                                                       | 1999/3996 [2:28:20<2:22:18,  4.28s/it] 50%|███████████████████████████████████████████████████████                                                       | 2000/3996 [2:28:24<2:21:13,  4.25s/it]                                                                                                                                                           {'loss': 0.5052, 'grad_norm': 0.21211788058280945, 'learning_rate': 0.00010395015371900663, 'ppl': 1.6573, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4250.7, 'total_tokens': 38244936, 'epoch': 1.5}
+ 50%|███████████████████████████████████████████████████████                                                       | 2000/3996 [2:28:24<2:21:13,  4.25s/it][2025-12-29 05:18:09,532] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:3751] Running evaluation step...
+[2025-12-29 05:18:10,400] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.39612317085266113
+[2025-12-29 05:18:10,813] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.41332387924194336
+[2025-12-29 05:18:11,238] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.4233283996582031
+[2025-12-29 05:18:11,703] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.46494436264038086
+[2025-12-29 05:18:11,703] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:3751] gather_len_batches: [72]
 
-  0%|                                                                                                                               | 0/90 [00:00<?, ?it/s][A
-  2%|██▋                                                                                                                    | 2/90 [00:00<00:36,  2.41it/s][A
-  3%|███▉                                                                                                                   | 3/90 [00:01<00:54,  1.59it/s][A
-  4%|█████▎                                                                                                                 | 4/90 [00:02<01:00,  1.43it/s][A
-  6%|██████▌                                                                                                                | 5/90 [00:03<01:05,  1.29it/s][A
-  7%|███████▉                                                                                                               | 6/90 [00:04<01:05,  1.28it/s][A
-  8%|█████████▎                                                                                                             | 7/90 [00:05<01:08,  1.21it/s][A
-  9%|██████████▌                                                                                                            | 8/90 [00:06<01:07,  1.22it/s][A
- 10%|███████████▉                                                                                                           | 9/90 [00:06<01:08,  1.18it/s][A
- 11%|█████████████                                                                                                         | 10/90 [00:07<01:06,  1.19it/s][A
- 12%|██████████████▍                                                                                                       | 11/90 [00:08<01:07,  1.17it/s][A
- 13%|███████████████▋                                                                                                      | 12/90 [00:09<01:05,  1.18it/s][A
- 14%|█████████████████                                                                                                     | 13/90 [00:10<01:06,  1.16it/s][A
- 16%|██████████████████▎                                                                                                   | 14/90 [00:11<01:04,  1.18it/s][A
- 17%|███████████████████▋                                                                                                  | 15/90 [00:12<01:05,  1.15it/s][A
- 18%|████████████████████▉                                                                                                 | 16/90 [00:12<01:03,  1.17it/s][A
- 19%|██████████████████████▎                                                                                               | 17/90 [00:13<01:04,  1.14it/s][A
- 20%|███████████████████████▌                                                                                              | 18/90 [00:14<01:01,  1.16it/s][A
- 21%|████████████████████████▉                                                                                             | 19/90 [00:15<01:01,  1.15it/s][A
- 22%|██████████████████████████▏                                                                                           | 20/90 [00:16<00:59,  1.17it/s][A
- 23%|███████████████████████████▌                                                                                          | 21/90 [00:17<00:59,  1.15it/s][A
- 24%|████████████████████████████▊                                                                                         | 22/90 [00:18<00:57,  1.17it/s][A
- 26%|██████████████████████████████▏                                                                                       | 23/90 [00:18<00:58,  1.15it/s][A
- 27%|███████████████████████████████▍                                                                                      | 24/90 [00:19<00:56,  1.17it/s][A
- 28%|████████████████████████████████▊                                                                                     | 25/90 [00:20<00:56,  1.15it/s][A
- 29%|██████████████████████████████████                                                                                    | 26/90 [00:21<00:54,  1.17it/s][A
- 30%|███████████████████████████████████▍                                                                                  | 27/90 [00:22<00:54,  1.15it/s][A
- 31%|████████████████████████████████████▋                                                                                 | 28/90 [00:23<00:52,  1.17it/s][A
- 32%|██████████████████████████████████████                                                                                | 29/90 [00:24<00:53,  1.15it/s][A
- 33%|███████████████████████████████████████▎                                                                              | 30/90 [00:24<00:51,  1.17it/s][A
- 34%|████████████████████████████████████████▋                                                                             | 31/90 [00:25<00:51,  1.15it/s][A
- 36%|█████████████████████████████████████████▉                                                                            | 32/90 [00:26<00:49,  1.17it/s][A
- 37%|███████████████████████████████████████████▎                                                                          | 33/90 [00:27<00:50,  1.14it/s][A
- 38%|████████████████████████████████████████████▌                                                                         | 34/90 [00:28<00:48,  1.16it/s][A
- 39%|█████████████████████████████████████████████▉                                                                        | 35/90 [00:29<00:48,  1.14it/s][A
- 40%|███████████████████████████████████████████████▏                                                                      | 36/90 [00:30<00:46,  1.15it/s][A
- 41%|████████████████████████████████████████████████▌                                                                     | 37/90 [00:31<00:47,  1.12it/s][A
- 42%|█████████████████████████████████████████████████▊                                                                    | 38/90 [00:31<00:44,  1.16it/s][A
- 43%|███████████████████████████████████████████████████▏                                                                  | 39/90 [00:32<00:44,  1.14it/s][A
- 44%|████████████████████████████████████████████████████▍                                                                 | 40/90 [00:34<00:50,  1.01s/it][A
- 46%|█████████████████████████████████████████████████████▊                                                                | 41/90 [00:35<00:47,  1.04it/s][A
- 47%|███████████████████████████████████████████████████████                                                               | 42/90 [00:35<00:42,  1.13it/s][A
- 48%|████████████████████████████████████████████████████████▍                                                             | 43/90 [00:36<00:42,  1.12it/s][A
- 49%|█████████████████████████████████████████████████████████▋                                                            | 44/90 [00:37<00:40,  1.15it/s][A
- 50%|███████████████████████████████████████████████████████████                                                           | 45/90 [00:38<00:39,  1.14it/s][A
- 51%|████████████████████████████████████████████████████████████▎                                                         | 46/90 [00:39<00:37,  1.16it/s][A
- 52%|█████████████████████████████████████████████████████████████▌                                                        | 47/90 [00:40<00:37,  1.15it/s][A
- 53%|██████████████████████████████████████████████████████████████▉                                                       | 48/90 [00:40<00:35,  1.17it/s][A
- 54%|████████████████████████████████████████████████████████████████▏                                                     | 49/90 [00:41<00:35,  1.15it/s][A
- 56%|█████████████████████████████████████████████████████████████████▌                                                    | 50/90 [00:42<00:34,  1.17it/s][A
- 57%|██████████████████████████████████████████████████████████████████▊                                                   | 51/90 [00:43<00:33,  1.15it/s][A
- 58%|████████████████████████████████████████████████████████████████████▏                                                 | 52/90 [00:44<00:32,  1.17it/s][A
- 59%|█████████████████████████████████████████████████████████████████████▍                                                | 53/90 [00:45<00:32,  1.15it/s][A
- 60%|██████████████████████████████████████████████████████████████████████▊                                               | 54/90 [00:46<00:30,  1.17it/s][A
- 61%|████████████████████████████████████████████████████████████████████████                                              | 55/90 [00:46<00:30,  1.15it/s][A
- 62%|█████████████████████████████████████████████████████████████████████████▍                                            | 56/90 [00:47<00:28,  1.18it/s][A
- 63%|██████████████████████████████████████████████████████████████████████████▋                                           | 57/90 [00:48<00:28,  1.15it/s][A
- 64%|████████████████████████████████████████████████████████████████████████████                                          | 58/90 [00:49<00:27,  1.18it/s][A
- 66%|█████████████████████████████████████████████████████████████████████████████▎                                        | 59/90 [00:50<00:26,  1.15it/s][A
- 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 60/90 [00:51<00:25,  1.17it/s][A
- 68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 61/90 [00:52<00:25,  1.15it/s][A
- 69%|████████████████████████████████████████████████████████████████████████████���████▎                                    | 62/90 [00:52<00:23,  1.17it/s][A
- 70%|██████████████████████████████████████████████████████████████████████████████████▌                                   | 63/90 [00:53<00:23,  1.15it/s][A
- 71%|███████████████████████████████████████████████████████████████████████████████████▉                                  | 64/90 [00:54<00:22,  1.17it/s][A
- 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 65/90 [00:55<00:21,  1.15it/s][A
- 73%|██████████████████████████████████████████████████████████████████████████████████████▌                               | 66/90 [00:56<00:20,  1.17it/s][A
- 74%|███████████████████████████████████████████████████████████████████████████████████████▊                              | 67/90 [00:57<00:19,  1.15it/s][A
- 76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 68/90 [00:58<00:18,  1.17it/s][A
- 77%|██████████████████████████████████████████████████████████████████████████████████████████▍                           | 69/90 [00:59<00:18,  1.15it/s][A
- 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 70/90 [00:59<00:17,  1.17it/s][A
- 79%|█████████████████████████████████████████████████████████████████████████████████████████████                         | 71/90 [01:00<00:16,  1.15it/s][A
- 80%|██████████████████████████████████████████████████████████████████████████████████████████████▍                       | 72/90 [01:01<00:15,  1.17it/s][A
- 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 73/90 [01:02<00:14,  1.15it/s][A
- 82%|█████████████████████████████████████████████████████████████████████████████████████████████████                     | 74/90 [01:03<00:13,  1.17it/s][A
- 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 75/90 [01:04<00:12,  1.16it/s][A
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 76/90 [01:05<00:11,  1.18it/s][A
- 86%|█████████████████████████████████████████████████████████████████████���██████████████████████████████▉                 | 77/90 [01:05<00:11,  1.16it/s][A
- 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 78/90 [01:06<00:10,  1.18it/s][A
- 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 79/90 [01:07<00:09,  1.16it/s][A
- 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 80/90 [01:08<00:08,  1.18it/s][A
- 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 81/90 [01:09<00:07,  1.15it/s][A
- 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 82/90 [01:10<00:06,  1.17it/s][A
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 83/90 [01:11<00:06,  1.14it/s][A
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 84/90 [01:11<00:05,  1.17it/s][A
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 85/90 [01:12<00:04,  1.14it/s][A
- 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 86/90 [01:13<00:03,  1.17it/s][A
- 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 87/90 [01:14<00:02,  1.14it/s][A
- 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 88/90 [01:15<00:01,  1.17it/s][A
- 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 89/90 [01:16<00:00,  1.14it/s][A
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.14it/s][A                                                                                                                                                           
-                                                                                                                                                           [A{'eval_loss': 0.5417217016220093, 'eval_runtime': 79.1722, 'eval_samples_per_second': 9.22, 'eval_steps_per_second': 2.311, 'eval_ppl': 1.719, 'memory/max_active (GiB)': 12.83, 'memory/max_allocated (GiB)': 6.85, 'memory/device_reserved (GiB)': 20.19, 'epoch': 0.84}
- 28%|███████████████████████████████                                                                                | 700/2499 [1:24:46<3:08:09,  6.28s/it]
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.14it/s][A
-                                                                                                                                                           [A 28%|██████████████████████████████▊                                                                               | 701/2499 [1:24:52<15:51:22, 31.75s/it]                                                                                                                                                           {'loss': 0.565, 'grad_norm': 0.20224806666374207, 'learning_rate': 0.00016441295298774849, 'ppl': 1.7594, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4508.16, 'total_tokens': 30197925, 'epoch': 0.84}
- 28%|██████████████████████████████▊                                                                               | 701/2499 [1:24:52<15:51:22, 31.75s/it] 28%|██████████████████████████████▉                                                                               | 702/2499 [1:24:59<12:01:51, 24.10s/it]                                                                                                                                                           {'loss': 0.5731, 'grad_norm': 0.16955940425395966, 'learning_rate': 0.00016431635466365588, 'ppl': 1.7738, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4483.16, 'total_tokens': 30225994, 'epoch': 0.84}
- 28%|██████████████████████████████▉                                                                               | 702/2499 [1:24:59<12:01:51, 24.10s/it] 28%|███████████████████████████████▏                                                                               | 703/2499 [1:25:05<9:21:18, 18.75s/it]                                                                                                                                                           {'loss': 0.5525, 'grad_norm': 0.15249280631542206, 'learning_rate': 0.00016421965387556088, 'ppl': 1.7376, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4607.61, 'total_tokens': 30254865, 'epoch': 0.84}
- 28%|███████████████████████████████▏                                                                               | 703/2499 [1:25:05<9:21:18, 18.75s/it] 28%|███████████████████████████████▎                                                                               | 704/2499 [1:25:11<7:28:49, 15.00s/it]                                                                                                                                                           {'loss': 0.5425, 'grad_norm': 0.1723303347826004, 'learning_rate': 0.00016412285077751997, 'ppl': 1.7203, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4369.08, 'total_tokens': 30282176, 'epoch': 0.85}
- 28%|███████████████████████████████▎                                                                               | 704/2499 [1:25:11<7:28:49, 15.00s/it] 28%|███████████████████████████████▎                                                                               | 705/2499 [1:25:17<6:10:12, 12.38s/it]                                                                                                                                                           {'loss': 0.5519, 'grad_norm': 0.15896157920360565, 'learning_rate': 0.00016402594552375263, 'ppl': 1.7365, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4565.22, 'total_tokens': 30310768, 'epoch': 0.85}
- 28%|███████████████████████████████▎                                                                               | 705/2499 [1:25:17<6:10:12, 12.38s/it] 28%|███████████████████████████████▎                                                                               | 706/2499 [1:25:24<5:15:39, 10.56s/it]                                                                                                                                                           {'loss': 0.5752, 'grad_norm': 0.16958479583263397, 'learning_rate': 0.00016392893826864104, 'ppl': 1.7775, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4643.26, 'total_tokens': 30340100, 'epoch': 0.85}
- 28%|███████████████████████████████▎                                                                               | 706/2499 [1:25:24<5:15:39, 10.56s/it] 28%|███████████████████████████████▍                                                                               | 707/2499 [1:25:30<4:37:28,  9.29s/it]                                                                                                                                                           {'loss': 0.5338, 'grad_norm': 0.1593128889799118, 'learning_rate': 0.00016383182916672988, 'ppl': 1.7054, 'memory/max_active (GiB)': 17.82, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4479.9, 'total_tokens': 30368404, 'epoch': 0.85}
- 28%|███████████████████████████████▍                                                                               | 707/2499 [1:25:30<4:37:28,  9.29s/it] 28%|███████████████████████████████▍                                                                               | 708/2499 [1:25:36<4:10:27,  8.39s/it]                                                                                                                                                           {'loss': 0.612, 'grad_norm': 0.17639009654521942, 'learning_rate': 0.0001637346183727261, 'ppl': 1.8441, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4575.21, 'total_tokens': 30397166, 'epoch': 0.85}
- 28%|███████████████████████████████▍                                                                               | 708/2499 [1:25:36<4:10:27,  8.39s/it] 28%|███████████████████████████████▍                                                                               | 709/2499 [1:25:43<3:51:15,  7.75s/it]                                                                                                                                                           {'loss': 0.5829, 'grad_norm': 0.16138216853141785, 'learning_rate': 0.0001636373060414987, 'ppl': 1.7912, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4527.66, 'total_tokens': 30425501, 'epoch': 0.85}
- 28%|███████████████████████████████▍                                                                               | 709/2499 [1:25:43<3:51:15,  7.75s/it] 28%|███████████████████████████████▌                                                                               | 710/2499 [1:25:49<3:38:03,  7.31s/it]                                                                                                                                                           {'loss': 0.5956, 'grad_norm': 0.15134470164775848, 'learning_rate': 0.00016353989232807838, 'ppl': 1.8141, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4679.04, 'total_tokens': 30454926, 'epoch': 0.85}
- 28%|███████████████████████████████▌                                                                               | 710/2499 [1:25:49<3:38:03,  7.31s/it] 28%|███████████████████████████████▌                                                                               | 711/2499 [1:25:55<3:28:35,  7.00s/it]                                                                                                                                                           {'loss': 0.568, 'grad_norm': 0.15280140936374664, 'learning_rate': 0.00016344237738765736, 'ppl': 1.7647, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4557.84, 'total_tokens': 30483483, 'epoch': 0.85}
- 28%|███████████████████████████████▌                                                                               | 711/2499 [1:25:55<3:28:35,  7.00s/it] 28%|███████████████████████████████▋                                                                               | 712/2499 [1:26:01<3:21:51,  6.78s/it]                                                                                                                                                           {'loss': 0.5629, 'grad_norm': 0.1602308750152588, 'learning_rate': 0.00016334476137558918, 'ppl': 1.7558, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4569.03, 'total_tokens': 30512071, 'epoch': 0.85}
- 28%|███████████████████████████████▋                                                                               | 712/2499 [1:26:01<3:21:51,  6.78s/it] 29%|███████████████████████████████▋                                                                               | 713/2499 [1:26:08<3:17:22,  6.63s/it]                                                                                                                                                           {'loss': 0.5874, 'grad_norm': 0.1549394726753235, 'learning_rate': 0.00016324704444738833, 'ppl': 1.7993, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4828.45, 'total_tokens': 30542421, 'epoch': 0.86}
- 29%|███████████████████████████████▋                                                                               | 713/2499 [1:26:08<3:17:22,  6.63s/it] 29%|███████████████████████████████▋                                                                               | 714/2499 [1:26:14<3:14:10,  6.53s/it]                                                                                                                                                           {'loss': 0.5733, 'grad_norm': 0.16239850223064423, 'learning_rate': 0.0001631492267587301, 'ppl': 1.7741, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4661.58, 'total_tokens': 30571708, 'epoch': 0.86}
- 29%|███████████████████████████████▋                                                                               | 714/2499 [1:26:14<3:14:10,  6.53s/it] 29%|███████████████████████████████▊                                                                               | 715/2499 [1:26:20<3:11:56,  6.46s/it]                                                                                                                                                           {'loss': 0.522, 'grad_norm': 0.154056578874588, 'learning_rate': 0.00016305130846545036, 'ppl': 1.6854, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4365.39, 'total_tokens': 30599150, 'epoch': 0.86}
- 29%|███████████████████████████████▊                                                                               | 715/2499 [1:26:20<3:11:56,  6.46s/it] 29%|███████████████████████████████▊                                                                               | 716/2499 [1:26:27<3:10:06,  6.40s/it]                                                                                                                                                           {'loss': 0.5257, 'grad_norm': 0.1525743454694748, 'learning_rate': 0.00016295328972354515, 'ppl': 1.6916, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4667.34, 'total_tokens': 30628366, 'epoch': 0.86}
- 29%|███████████████████████████████▊                                                                               | 716/2499 [1:26:27<3:10:06,  6.40s/it] 29%|███████████████████████████████▊                                                                               | 717/2499 [1:26:33<3:08:44,  6.36s/it]                                                                                                                                                           {'loss': 0.5435, 'grad_norm': 0.1493917852640152, 'learning_rate': 0.00016285517068917064, 'ppl': 1.722, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4464.33, 'total_tokens': 30656287, 'epoch': 0.86}
- 29%|███████████████████████████████▊                                                                               | 717/2499 [1:26:33<3:08:44,  6.36s/it] 29%|███████████████████████████████▉                                                                               | 718/2499 [1:26:39<3:07:36,  6.32s/it]                                                                                                                                                           {'loss': 0.5321, 'grad_norm': 0.15722903609275818, 'learning_rate': 0.0001627569515186427, 'ppl': 1.7025, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4426.51, 'total_tokens': 30683897, 'epoch': 0.86}
- 29%|███████████████████████████████▉                                                                               | 718/2499 [1:26:39<3:07:36,  6.32s/it] 29%|███████████████████████████████▉                                                                               | 719/2499 [1:26:45<3:06:59,  6.30s/it]                                                                                                                                                           {'loss': 0.6011, 'grad_norm': 0.15095295011997223, 'learning_rate': 0.00016265863236843676, 'ppl': 1.8241, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4590.16, 'total_tokens': 30712629, 'epoch': 0.86}
- 29%|███████████████████████████████▉                                                                               | 719/2499 [1:26:45<3:06:59,  6.30s/it] 29%|███████████████████████████████▉                                                                               | 720/2499 [1:26:52<3:06:24,  6.29s/it]                                                                                                                                                           {'loss': 0.5869, 'grad_norm': 0.15645472705364227, 'learning_rate': 0.00016256021339518758, 'ppl': 1.7984, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4481.63, 'total_tokens': 30740626, 'epoch': 0.86}
- 29%|███████████████████████████████▉                                                                               | 720/2499 [1:26:52<3:06:24,  6.29s/it] 29%|████████████████████████████████                                                                               | 721/2499 [1:26:58<3:06:28,  6.29s/it]                                                                                                                                                           {'loss': 0.4806, 'grad_norm': 0.15596990287303925, 'learning_rate': 0.00016246169475568885, 'ppl': 1.617, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4632.04, 'total_tokens': 30769829, 'epoch': 0.87}
- 29%|████████████████████████████████                                                                               | 721/2499 [1:26:58<3:06:28,  6.29s/it] 29%|████████████████████████████████                                                                               | 722/2499 [1:27:04<3:06:12,  6.29s/it]                                                                                                                                                           {'loss': 0.5909, 'grad_norm': 0.18050049245357513, 'learning_rate': 0.0001623630766068931, 'ppl': 1.8056, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4588.45, 'total_tokens': 30798606, 'epoch': 0.87}
- 29%|████████████████████████████████                                                                               | 722/2499 [1:27:04<3:06:12,  6.29s/it] 29%|████████████████████████████████                                                                               | 723/2499 [1:27:10<3:05:43,  6.27s/it]                                                                                                                                                           {'loss': 0.5575, 'grad_norm': 0.15670737624168396, 'learning_rate': 0.00016226435910591137, 'ppl': 1.7463, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4363.67, 'total_tokens': 30825842, 'epoch': 0.87}
- 29%|████████████████████████████████                                                                               | 723/2499 [1:27:10<3:05:43,  6.27s/it] 29%|████████████████████████████████▏                                                                              | 724/2499 [1:27:17<3:05:20,  6.26s/it]                                                                                                                                                           {'loss': 0.5402, 'grad_norm': 0.1583596020936966, 'learning_rate': 0.00016216554241001304, 'ppl': 1.7164, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4469.72, 'total_tokens': 30853736, 'epoch': 0.87}
- 29%|████████████████████████████████▏                                                                              | 724/2499 [1:27:17<3:05:20,  6.26s/it] 29%|████████████████████████████████▏                                                                              | 725/2499 [1:27:23<3:05:10,  6.26s/it]                                                                                                                                                           {'loss': 0.5711, 'grad_norm': 0.16624586284160614, 'learning_rate': 0.00016206662667662543, 'ppl': 1.7702, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4475.01, 'total_tokens': 30881736, 'epoch': 0.87}
- 29%|████████████████████████████████▏                                                                              | 725/2499 [1:27:23<3:05:10,  6.26s/it] 29%|████████████████████████████████▏                                                                              | 726/2499 [1:27:29<3:05:00,  6.26s/it]                                                                                                                                                           {'loss': 0.5675, 'grad_norm': 0.1706494837999344, 'learning_rate': 0.00016196761206333372, 'ppl': 1.7639, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.21, 'tokens_per_second_per_gpu': 4510.05, 'total_tokens': 30909939, 'epoch': 0.87}
- 29%|████████████████████████████████▏                                                                              | 726/2499 [1:27:29<3:05:00,  6.26s/it] 29%|████████████████████████████████▎                                                                              | 727/2499 [1:27:35<3:05:09,  6.27s/it]                                                                                                                                                           {'loss': 0.4818, 'grad_norm': 0.15161283314228058, 'learning_rate': 0.0001618684987278806, 'ppl': 1.619, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4650.17, 'total_tokens': 30939175, 'epoch': 0.87}
- 29%|████████████████████████████████▎                                                                              | 727/2499 [1:27:35<3:05:09,  6.27s/it] 29%|████████████████████████████████▎                                                                              | 728/2499 [1:27:42<3:04:58,  6.27s/it]                                                                                                                                                           {'loss': 0.5631, 'grad_norm': 0.15963025391101837, 'learning_rate': 0.00016176928682816593, 'ppl': 1.7561, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4538.66, 'total_tokens': 30967571, 'epoch': 0.87}
- 29%|████████████████████████████████▎                                                                              | 728/2499 [1:27:42<3:04:58,  6.27s/it] 29%|████████████████████████████████▍                                                                              | 729/2499 [1:27:48<3:04:38,  6.26s/it]                                                                                                                                                           {'loss': 0.5683, 'grad_norm': 0.15409500896930695, 'learning_rate': 0.00016166997652224675, 'ppl': 1.7653, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4435.31, 'total_tokens': 30995244, 'epoch': 0.88}
- 29%|████████████████████████████████▍                                                                              | 729/2499 [1:27:48<3:04:38,  6.26s/it] 29%|████████████████████████████████▍                                                                              | 730/2499 [1:27:54<3:04:25,  6.26s/it]                                                                                                                                                           {'loss': 0.5345, 'grad_norm': 0.1505703181028366, 'learning_rate': 0.00016157056796833676, 'ppl': 1.7066, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4474.51, 'total_tokens': 31023185, 'epoch': 0.88}
- 29%|████████████████████████████████▍                                                                              | 730/2499 [1:27:54<3:04:25,  6.26s/it] 29%|████████████████████████████████▍                                                                              | 731/2499 [1:28:00<3:04:22,  6.26s/it]                                                                                                                                                           {'loss': 0.5862, 'grad_norm': 0.15465688705444336, 'learning_rate': 0.00016147106132480626, 'ppl': 1.7971, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4602.88, 'total_tokens': 31051995, 'epoch': 0.88}
- 29%|████████████████████████████████▍                                                                              | 731/2499 [1:28:00<3:04:22,  6.26s/it] 29%|████████████████████████████████▌                                                                              | 732/2499 [1:28:07<3:04:03,  6.25s/it]                                                                                                                                                           {'loss': 0.5423, 'grad_norm': 0.16041669249534607, 'learning_rate': 0.0001613714567501818, 'ppl': 1.72, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4323.79, 'total_tokens': 31078937, 'epoch': 0.88}
- 29%|████████████████████████████████▌                                                                              | 732/2499 [1:28:07<3:04:03,  6.25s/it] 29%|████████████████████████████████▌                                                                              | 733/2499 [1:28:13<3:04:13,  6.26s/it]                                                                                                                                                           {'loss': 0.5709, 'grad_norm': 0.15239129960536957, 'learning_rate': 0.00016127175440314596, 'ppl': 1.7699, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4708.34, 'total_tokens': 31108497, 'epoch': 0.88}
- 29%|████████████████████████���███████▌                                                                              | 733/2499 [1:28:13<3:04:13,  6.26s/it] 29%|████████████████████████████████▌                                                                              | 734/2499 [1:28:19<3:04:30,  6.27s/it]                                                                                                                                                           {'loss': 0.5298, 'grad_norm': 0.15932819247245789, 'learning_rate': 0.00016117195444253696, 'ppl': 1.6986, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4452.06, 'total_tokens': 31136547, 'epoch': 0.88}
- 29%|████████████████████████████████▌                                                                              | 734/2499 [1:28:19<3:04:30,  6.27s/it] 29%|████████████████████████████████▋                                                                              | 735/2499 [1:28:25<3:04:26,  6.27s/it]                                                                                                                                                           {'loss': 0.5579, 'grad_norm': 0.16990432143211365, 'learning_rate': 0.0001610720570273487, 'ppl': 1.747, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4584.98, 'total_tokens': 31165311, 'epoch': 0.88}
- 29%|████████████████████████████████▋                                                                              | 735/2499 [1:28:25<3:04:26,  6.27s/it] 29%|████████████████████████████████▋                                                                              | 736/2499 [1:28:32<3:04:20,  6.27s/it]                                                                                                                                                           {'loss': 0.605, 'grad_norm': 0.1646908074617386, 'learning_rate': 0.00016097206231673023, 'ppl': 1.8313, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4569.2, 'total_tokens': 31193969, 'epoch': 0.88}
- 29%|████████████████████████████████▋                                                                              | 736/2499 [1:28:32<3:04:20,  6.27s/it] 29%|████████████████████████████████▋                                                                              | 737/2499 [1:28:38<3:04:00,  6.27s/it]                                                                                                                                                           {'loss': 0.5668, 'grad_norm': 0.16785207390785217, 'learning_rate': 0.00016087197046998566, 'ppl': 1.7626, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4384.7, 'total_tokens': 31221351, 'epoch': 0.88}
- 29%|████████████████████████████████▋                                                                              | 737/2499 [1:28:38<3:04:00,  6.27s/it] 30%|████████████████████████████████▊                                                                              | 738/2499 [1:28:44<3:03:49,  6.26s/it]                                                                                                                                                           {'loss': 0.5376, 'grad_norm': 0.1626354157924652, 'learning_rate': 0.00016077178164657384, 'ppl': 1.7119, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4431.69, 'total_tokens': 31249067, 'epoch': 0.89}
- 30%|████████████████████████████████▊                                                                              | 738/2499 [1:28:44<3:03:49,  6.26s/it] 30%|████████████████████████████████▊                                                                              | 739/2499 [1:28:51<3:03:45,  6.26s/it]                                                                                                                                                           {'loss': 0.5673, 'grad_norm': 0.155157670378685, 'learning_rate': 0.00016067149600610807, 'ppl': 1.7635, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4556.76, 'total_tokens': 31277622, 'epoch': 0.89}
- 30%|████████████████████████████████▊                                                                              | 739/2499 [1:28:51<3:03:45,  6.26s/it] 30%|████████████████████████████████▊                                                                              | 740/2499 [1:28:57<3:04:05,  6.28s/it]                                                                                                                                                           {'loss': 0.5287, 'grad_norm': 0.15059494972229004, 'learning_rate': 0.00016057111370835597, 'ppl': 1.6967, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4635.29, 'total_tokens': 31306875, 'epoch': 0.89}
- 30%|████████████████████████████████▊                                                                              | 740/2499 [1:28:57<3:04:05,  6.28s/it] 30%|████████████████████████████████▉                                                                              | 741/2499 [1:29:03<3:04:00,  6.28s/it]                                                                                                                                                           {'loss': 0.5562, 'grad_norm': 0.17175139486789703, 'learning_rate': 0.00016047063491323905, 'ppl': 1.744, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4406.56, 'total_tokens': 31334542, 'epoch': 0.89}
- 30%|████████████████████████████████▉                                                                              | 741/2499 [1:29:03<3:04:00,  6.28s/it] 30%|████████████████████████████████▉                                                                              | 742/2499 [1:29:09<3:03:55,  6.28s/it]                                                                                                                                                           {'loss': 0.5384, 'grad_norm': 0.1837666630744934, 'learning_rate': 0.00016037005978083264, 'ppl': 1.7133, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4472.03, 'total_tokens': 31362623, 'epoch': 0.89}
- 30%|████████████████████████████████▉                                                                              | 742/2499 [1:29:09<3:03:55,  6.28s/it] 30%|█████████████████████████████████                                                                              | 743/2499 [1:29:16<3:03:44,  6.28s/it]                                                                                                                                                           {'loss': 0.5274, 'grad_norm': 0.1696690171957016, 'learning_rate': 0.00016026938847136547, 'ppl': 1.6945, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4592.04, 'total_tokens': 31391413, 'epoch': 0.89}
- 30%|█████████████████████████████████                                                                              | 743/2499 [1:29:16<3:03:44,  6.28s/it] 30%|█████████████████████████████████                                                                              | 744/2499 [1:29:22<3:03:33,  6.28s/it]                                                                                                                                                           {'loss': 0.5377, 'grad_norm': 0.16248169541358948, 'learning_rate': 0.00016016862114521963, 'ppl': 1.7121, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4493.63, 'total_tokens': 31419578, 'epoch': 0.89}
- 30%|█████████████████████████████████                                                                              | 744/2499 [1:29:22<3:03:33,  6.28s/it] 30%|█████████████████████████████████                                                                              | 745/2499 [1:29:28<3:03:21,  6.27s/it]                                                                                                                                                           {'loss': 0.5036, 'grad_norm': 0.1554591804742813, 'learning_rate': 0.00016006775796293003, 'ppl': 1.6547, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4533.36, 'total_tokens': 31447965, 'epoch': 0.89}
- 30%|█████████████████████████████████                                                                              | 745/2499 [1:29:28<3:03:21,  6.27s/it] 30%|█████████████████████████████████▏                                                                             | 746/2499 [1:29:35<3:03:28,  6.28s/it]                                                                                                                                                           {'loss': 0.5041, 'grad_norm': 0.16030484437942505, 'learning_rate': 0.0001599667990851843, 'ppl': 1.6555, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4585.24, 'total_tokens': 31476832, 'epoch': 0.9}
- 30%|█████████████████████████████████▏                                                                             | 746/2499 [1:29:35<3:03:28,  6.28s/it] 30%|█████████████████████████████████▏                                                                             | 747/2499 [1:29:41<3:03:35,  6.29s/it]                                                                                                                                                           {'loss': 0.5446, 'grad_norm': 0.16970005631446838, 'learning_rate': 0.0001598657446728226, 'ppl': 1.7239, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4677.17, 'total_tokens': 31506305, 'epoch': 0.9}
- 30%|█████████████████████████████████▏                                                                             | 747/2499 [1:29:41<3:03:35,  6.29s/it] 30%|█████████████████████████████████▏                                                                             | 748/2499 [1:29:47<3:03:18,  6.28s/it]                                                                                                                                                           {'loss': 0.5235, 'grad_norm': 0.15128681063652039, 'learning_rate': 0.00015976459488683728, 'ppl': 1.6879, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4639.67, 'total_tokens': 31535371, 'epoch': 0.9}
- 30%|█████████████████████████████████▏                                                                             | 748/2499 [1:29:47<3:03:18,  6.28s/it] 30%|█████████████████████████████████▎                                                                             | 749/2499 [1:29:53<3:03:01,  6.28s/it]                                                                                                                                                           {'loss': 0.5248, 'grad_norm': 0.1509389579296112, 'learning_rate': 0.00015966334988837258, 'ppl': 1.6901, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4623.7, 'total_tokens': 31564315, 'epoch': 0.9}
- 30%|█████████████████████████████████▎                                                                             | 749/2499 [1:29:53<3:03:01,  6.28s/it] 30%|█████████████████████████████████▎                                                                             | 750/2499 [1:30:00<3:02:50,  6.27s/it]                                                                                                                                                           {'loss': 0.5745, 'grad_norm': 0.16577394306659698, 'learning_rate': 0.00015956200983872448, 'ppl': 1.7762, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4551.42, 'total_tokens': 31592819, 'epoch': 0.9}
- 30%|█████████████████████████████████▎                                                                             | 750/2499 [1:30:00<3:02:50,  6.27s/it] 30%|█████████████████████████████████▎                                                                             | 751/2499 [1:30:06<3:02:39,  6.27s/it]                                                                                                                                                           {'loss': 0.5912, 'grad_norm': 0.15780609846115112, 'learning_rate': 0.00015946057489934034, 'ppl': 1.8062, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4580.38, 'total_tokens': 31621502, 'epoch': 0.9}
- 30%|█████████████████████████████████▎                                                                             | 751/2499 [1:30:06<3:02:39,  6.27s/it] 30%|█████████████████████████████████▍                                                                             | 752/2499 [1:30:12<3:02:52,  6.28s/it]                                                                                                                                                           {'loss': 0.4995, 'grad_norm': 0.15355201065540314, 'learning_rate': 0.0001593590452318187, 'ppl': 1.6479, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4607.08, 'total_tokens': 31650544, 'epoch': 0.9}
- 30%|█████████████████████████████████▍                                                                             | 752/2499 [1:30:12<3:02:52,  6.28s/it] 30%|█████████████████████████████████▍                                                                             | 753/2499 [1:30:18<3:02:41,  6.28s/it]                                                                                                                                                           {'loss': 0.5469, 'grad_norm': 0.16567420959472656, 'learning_rate': 0.00015925742099790906, 'ppl': 1.7279, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4397.59, 'total_tokens': 31678110, 'epoch': 0.9}
- 30%|█████████████████████████████████▍                                                                             | 753/2499 [1:30:18<3:02:41,  6.28s/it] 30%|█████████████████████████████████▍                                                                             | 754/2499 [1:30:25<3:02:26,  6.27s/it]                                                                                                                                                           {'loss': 0.5663, 'grad_norm': 0.1523253619670868, 'learning_rate': 0.00015915570235951152, 'ppl': 1.7617, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4396.31, 'total_tokens': 31705623, 'epoch': 0.91}
- 30%|█████████████████████████████████▍                                                                             | 754/2499 [1:30:25<3:02:26,  6.27s/it] 30%|█████████████████████████████████▌                                                                             | 755/2499 [1:30:31<3:02:03,  6.26s/it]                                                                                                                                                           {'loss': 0.5856, 'grad_norm': 0.16661697626113892, 'learning_rate': 0.00015905388947867662, 'ppl': 1.7961, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4343.58, 'total_tokens': 31732726, 'epoch': 0.91}
- 30%|█████████████████████████████████▌                                                                             | 755/2499 [1:30:31<3:02:03,  6.26s/it] 30%|█████████████████████████████████▌                                                                             | 756/2499 [1:30:37<3:01:56,  6.26s/it]                                                                                                                                                           {'loss': 0.5887, 'grad_norm': 0.16167092323303223, 'learning_rate': 0.00015895198251760498, 'ppl': 1.8016, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4538.97, 'total_tokens': 31761137, 'epoch': 0.91}
- 30%|█████████████████████████████████▌                                                                             | 756/2499 [1:30:37<3:01:56,  6.26s/it] 30%|█████████████████████████████████▌                                                                             | 757/2499 [1:30:43<3:01:51,  6.26s/it]                                                                                                                                                           {'loss': 0.5713, 'grad_norm': 0.17005272209644318, 'learning_rate': 0.0001588499816386472, 'ppl': 1.7706, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4576.99, 'total_tokens': 31789807, 'epoch': 0.91}
- 30%|█████████████████████████████████▌                                                                             | 757/2499 [1:30:43<3:01:51,  6.26s/it] 30%|█████████████████████████████████▋                                                                             | 758/2499 [1:30:50<3:01:53,  6.27s/it]                                                                                                                                                           {'loss': 0.5854, 'grad_norm': 0.175898477435112, 'learning_rate': 0.0001587478870043034, 'ppl': 1.7957, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4658.87, 'total_tokens': 31819052, 'epoch': 0.91}
- 30%|█████████████████████████████████▋                                                                             | 758/2499 [1:30:50<3:01:53,  6.27s/it] 30%|█████████████████████████████████▋                                                                             | 759/2499 [1:30:56<3:02:07,  6.28s/it]                                                                                                                                                           {'loss': 0.5608, 'grad_norm': 0.15077874064445496, 'learning_rate': 0.00015864569877722316, 'ppl': 1.7521, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4518.24, 'total_tokens': 31847537, 'epoch': 0.91}
- 30%|█████████████████████████████████▋                                                                             | 759/2499 [1:30:56<3:02:07,  6.28s/it] 30%|█████████████████████████████████▊                                                                             | 760/2499 [1:31:02<3:01:40,  6.27s/it]                                                                                                                                                           {'loss': 0.5751, 'grad_norm': 0.1493740826845169, 'learning_rate': 0.00015854341712020508, 'ppl': 1.7773, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4319.39, 'total_tokens': 31874476, 'epoch': 0.91}
- 30%|█████████████████████████████████▊                                                                             | 760/2499 [1:31:02<3:01:40,  6.27s/it] 30%|█████████████████████████████████▊                                                                             | 761/2499 [1:31:09<3:01:26,  6.26s/it]                                                                                                                                                           {'loss': 0.5335, 'grad_norm': 0.1708398163318634, 'learning_rate': 0.00015844104219619665, 'ppl': 1.7049, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4383.94, 'total_tokens': 31901879, 'epoch': 0.91}
- 30%|█████████████████████████████████▊                                                                             | 761/2499 [1:31:09<3:01:26,  6.26s/it] 30%|█████████████████████████████████▊                                                                             | 762/2499 [1:31:15<3:01:16,  6.26s/it]                                                                                                                                                           {'loss': 0.5301, 'grad_norm': 0.14762543141841888, 'learning_rate': 0.00015833857416829388, 'ppl': 1.6991, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4475.92, 'total_tokens': 31929878, 'epoch': 0.91}
- 30%|█████████████████████████████████▊                                                                             | 762/2499 [1:31:15<3:01:16,  6.26s/it] 31%|█████████████████████████████████▉                                                                             | 763/2499 [1:31:21<3:01:17,  6.27s/it]                                                                                                                                                           {'loss': 0.6072, 'grad_norm': 0.1617388278245926, 'learning_rate': 0.00015823601319974126, 'ppl': 1.8353, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4742.64, 'total_tokens': 31959631, 'epoch': 0.92}
- 31%|█████████████████████████████████▉                                                                             | 763/2499 [1:31:21<3:01:17,  6.27s/it] 31%|█████████████████████████████████▉                                                                             | 764/2499 [1:31:27<3:01:13,  6.27s/it]                                                                                                                                                           {'loss': 0.5234, 'grad_norm': 0.1600262075662613, 'learning_rate': 0.0001581333594539312, 'ppl': 1.6878, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4627.93, 'total_tokens': 31988635, 'epoch': 0.92}
- 31%|█████████████████████████████████▉                                                                             | 764/2499 [1:31:27<3:01:13,  6.27s/it] 31%|█████████████████████████████████▉                                                                             | 765/2499 [1:31:34<3:01:31,  6.28s/it]                                                                                                                                                           {'loss': 0.5283, 'grad_norm': 0.14879342913627625, 'learning_rate': 0.00015803061309440394, 'ppl': 1.696, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4565.48, 'total_tokens': 32017455, 'epoch': 0.92}
- 31%|█████████████████████████████████▉                                                                             | 765/2499 [1:31:34<3:01:31,  6.28s/it] 31%|██████████████████████████████████                                                                             | 766/2499 [1:31:40<3:01:13,  6.27s/it]                                                                                                                                                           {'loss': 0.5884, 'grad_norm': 0.15819264948368073, 'learning_rate': 0.00015792777428484737, 'ppl': 1.8011, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4405.56, 'total_tokens': 32045015, 'epoch': 0.92}
- 31%|██████████████████████████████████                                                                             | 766/2499 [1:31:40<3:01:13,  6.27s/it] 31%|██████████████████████████████████                                                                             | 767/2499 [1:31:46<3:00:57,  6.27s/it]                                                                                                                                                           {'loss': 0.5787, 'grad_norm': 0.1562289297580719, 'learning_rate': 0.00015782484318909646, 'ppl': 1.7837, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4493.41, 'total_tokens': 32073112, 'epoch': 0.92}
- 31%|██████████████████████████████████                                                                             | 767/2499 [1:31:46<3:00:57,  6.27s/it] 31%|██████████████████████████████████                                                                             | 768/2499 [1:31:52<3:00:50,  6.27s/it]                                                                                                                                                           {'loss': 0.5137, 'grad_norm': 0.15492472052574158, 'learning_rate': 0.00015772181997113344, 'ppl': 1.6715, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4498.38, 'total_tokens': 32101299, 'epoch': 0.92}
- 31%|██████████████████████████████████                                                                             | 768/2499 [1:31:52<3:00:50,  6.27s/it] 31%|██████████████████████████████████▏                                                                            | 769/2499 [1:31:59<3:00:39,  6.27s/it]                                                                                                                                                           {'loss': 0.5724, 'grad_norm': 0.15212927758693695, 'learning_rate': 0.00015761870479508717, 'ppl': 1.7725, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4483.39, 'total_tokens': 32129344, 'epoch': 0.92}
- 31%|██████████████████████████████████▏                                                                            | 769/2499 [1:31:59<3:00:39,  6.27s/it] 31%|██████████████████████████████████▏                                                                            | 770/2499 [1:32:05<3:00:31,  6.26s/it]                                                                                                                                                           {'loss': 0.554, 'grad_norm': 0.1595274955034256, 'learning_rate': 0.000157515497825233, 'ppl': 1.7402, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4437.13, 'total_tokens': 32157127, 'epoch': 0.92}
- 31%|██████████████████████████████████▏                                                                            | 770/2499 [1:32:05<3:00:31,  6.26s/it] 31%|██████████████████████████████████▏                                                                            | 771/2499 [1:32:11<3:00:39,  6.27s/it]                                                                                                                                                           {'loss': 0.5321, 'grad_norm': 0.15527474880218506, 'learning_rate': 0.00015741219922599253, 'ppl': 1.7025, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4421.95, 'total_tokens': 32184942, 'epoch': 0.93}
- 31%|██████████████████████████████████▏                                                                            | 771/2499 [1:32:11<3:00:39,  6.27s/it] 31%|██████████████████████████████████▎                                                                            | 772/2499 [1:32:18<3:00:53,  6.28s/it]                                                                                                                                                           {'loss': 0.5571, 'grad_norm': 0.15651631355285645, 'learning_rate': 0.00015730880916193339, 'ppl': 1.7456, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4396.43, 'total_tokens': 32212676, 'epoch': 0.93}
- 31%|██████████████████████████████████▎                                                                            | 772/2499 [1:32:18<3:00:53,  6.28s/it] 31%|██████████████████████████████████▎                                                                            | 773/2499 [1:32:24<3:00:47,  6.28s/it]                                                                                                                                                           {'loss': 0.5452, 'grad_norm': 0.16266778111457825, 'learning_rate': 0.0001572053277977689, 'ppl': 1.725, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4635.82, 'total_tokens': 32241789, 'epoch': 0.93}
- 31%|██████████████████████████████████▎                                                                            | 773/2499 [1:32:24<3:00:47,  6.28s/it] 31%|██████████████████████████████████▍                                                                            | 774/2499 [1:32:30<3:00:34,  6.28s/it]                                                                                                                                                           {'loss': 0.5728, 'grad_norm': 0.16812606155872345, 'learning_rate': 0.0001571017552983578, 'ppl': 1.7732, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4453.43, 'total_tokens': 32269716, 'epoch': 0.93}
- 31%|██████████████████████████████████▍                                                                            | 774/2499 [1:32:30<3:00:34,  6.28s/it] 31%|██████████████████████████████████▍                                                                            | 775/2499 [1:32:36<3:00:18,  6.28s/it]                                                                                                                                                           {'loss': 0.5525, 'grad_norm': 0.17196150124073029, 'learning_rate': 0.00015699809182870408, 'ppl': 1.7376, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4301.26, 'total_tokens': 32296637, 'epoch': 0.93}
- 31%|██████████████████████████████████▍                                                                            | 775/2499 [1:32:36<3:00:18,  6.28s/it] 31%|██████████████████████████████████▍                                                                            | 776/2499 [1:32:43<3:00:11,  6.27s/it]                                                                                                                                                           {'loss': 0.5695, 'grad_norm': 0.15856219828128815, 'learning_rate': 0.00015689433755395658, 'ppl': 1.7674, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4565.26, 'total_tokens': 32325266, 'epoch': 0.93}
- 31%|██████████████████████████████████▍                                                                            | 776/2499 [1:32:43<3:00:11,  6.27s/it] 31%|██████████████████████████████████▌                                                                            | 777/2499 [1:32:49<2:59:54,  6.27s/it]                                                                                                                                                           {'loss': 0.5745, 'grad_norm': 0.16656816005706787, 'learning_rate': 0.00015679049263940886, 'ppl': 1.7762, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4389.85, 'total_tokens': 32352709, 'epoch': 0.93}
- 31%|██████████████████████████████████▌                                                                            | 777/2499 [1:32:49<2:59:54,  6.27s/it] 31%|██████████████████████████████████▌                                                                            | 778/2499 [1:32:55<3:00:02,  6.28s/it]                                                                                                                                                           {'loss': 0.5508, 'grad_norm': 0.16310793161392212, 'learning_rate': 0.00015668655725049885, 'ppl': 1.7346, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4532.43, 'total_tokens': 32381234, 'epoch': 0.93}
- 31%|██████████████████████████████████▌                                                                            | 778/2499 [1:32:55<3:00:02,  6.28s/it] 31%|██████████████████████████████████▌                                                                            | 779/2499 [1:33:02<2:59:57,  6.28s/it]                                                                                                                                                           {'loss': 0.5621, 'grad_norm': 0.16509102284908295, 'learning_rate': 0.00015658253155280869, 'ppl': 1.7544, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4355.28, 'total_tokens': 32408569, 'epoch': 0.94}
- 31%|██████████████████████████████████▌                                                                            | 779/2499 [1:33:02<2:59:57,  6.28s/it] 31%|██████████████████████████████████▋                                                                            | 780/2499 [1:33:08<2:59:46,  6.27s/it]                                                                                                                                                           {'loss': 0.5407, 'grad_norm': 0.15348419547080994, 'learning_rate': 0.00015647841571206426, 'ppl': 1.7172, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4583.34, 'total_tokens': 32437286, 'epoch': 0.94}
- 31%|██████████████████████████████████▋                                                                            | 780/2499 [1:33:08<2:59:46,  6.27s/it] 31%|██████████████████████████████████▋                                                                            | 781/2499 [1:33:14<2:59:37,  6.27s/it]                                                                                                                                                           {'loss': 0.5852, 'grad_norm': 0.1582723706960678, 'learning_rate': 0.00015637420989413517, 'ppl': 1.7954, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4560.78, 'total_tokens': 32465872, 'epoch': 0.94}
- 31%|██████████████████████████████████▋                                                                            | 781/2499 [1:33:14<2:59:37,  6.27s/it] 31%|██████████████████████████████████▋                                                                            | 782/2499 [1:33:20<2:59:22,  6.27s/it]                                                                                                                                                           {'loss': 0.5516, 'grad_norm': 0.15862534940242767, 'learning_rate': 0.00015626991426503434, 'ppl': 1.736, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4551.21, 'total_tokens': 32494335, 'epoch': 0.94}
- 31%|██████████████████████████████████▋                                                                            | 782/2499 [1:33:20<2:59:22,  6.27s/it] 31%|██████████████████████████████████▊                                                                            | 783/2499 [1:33:27<2:59:23,  6.27s/it]                                                                                                                                                           {'loss': 0.5604, 'grad_norm': 0.17056556046009064, 'learning_rate': 0.0001561655289909177, 'ppl': 1.7514, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4619.88, 'total_tokens': 32523348, 'epoch': 0.94}
- 31%|██████████████████████████████████▊                                                                            | 783/2499 [1:33:27<2:59:23,  6.27s/it] 31%|██████████████████████████████████▊                                                                            | 784/2499 [1:33:33<2:59:09,  6.27s/it]                                                                                                                                                           {'loss': 0.522, 'grad_norm': 0.1711031049489975, 'learning_rate': 0.0001560610542380841, 'ppl': 1.6854, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4453.59, 'total_tokens': 32551204, 'epoch': 0.94}
- 31%|██████████████████████████████████▊                                                                            | 784/2499 [1:33:33<2:59:09,  6.27s/it] 31%|██████████████████████████████████▊                                                                            | 785/2499 [1:33:39<2:59:11,  6.27s/it]                                                                                                                                                           {'loss': 0.5556, 'grad_norm': 0.15930446982383728, 'learning_rate': 0.00015595649017297495, 'ppl': 1.743, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4334.13, 'total_tokens': 32578431, 'epoch': 0.94}
- 31%|██████████████████████████████████▊                                                                            | 785/2499 [1:33:39<2:59:11,  6.27s/it] 31%|██████████████████████████████████▉                                                                            | 786/2499 [1:33:45<2:59:06,  6.27s/it]                                                                                                                                                           {'loss': 0.5105, 'grad_norm': 0.15259447693824768, 'learning_rate': 0.00015585183696217376, 'ppl': 1.6661, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4524.64, 'total_tokens': 32606804, 'epoch': 0.94}
- 31%|██████████████████████████████████▉                                                                            | 786/2499 [1:33:45<2:59:06,  6.27s/it] 31%|██████████████████████████████████▉                                                                            | 787/2499 [1:33:52<2:58:56,  6.27s/it]                                                                                                                                                           {'loss': 0.5947, 'grad_norm': 0.16778172552585602, 'learning_rate': 0.0001557470947724063, 'ppl': 1.8125, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4500.07, 'total_tokens': 32634993, 'epoch': 0.94}
- 31%|██████████████████████████████████▉                                                                            | 787/2499 [1:33:52<2:58:56,  6.27s/it] 32%|███████████████████████████████████                                                                            | 788/2499 [1:33:58<2:58:56,  6.28s/it]                                                                                                                                                           {'loss': 0.5268, 'grad_norm': 0.1585581749677658, 'learning_rate': 0.00015564226377053997, 'ppl': 1.6935, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4699.12, 'total_tokens': 32664513, 'epoch': 0.95}
- 32%|███████████████████████████████████                                                                            | 788/2499 [1:33:58<2:58:56,  6.28s/it] 32%|███████████████████████████████████                                                                            | 789/2499 [1:34:04<2:58:46,  6.27s/it]                                                                                                                                                           {'loss': 0.5573, 'grad_norm': 0.16107720136642456, 'learning_rate': 0.0001555373441235836, 'ppl': 1.746, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4517.19, 'total_tokens': 32692816, 'epoch': 0.95}
- 32%|███████████████████████████████████                                                                            | 789/2499 [1:34:04<2:58:46,  6.27s/it] 32%|███████████████████████████████████                                                                            | 790/2499 [1:34:10<2:58:30,  6.27s/it]                                                                                                                                                           {'loss': 0.5212, 'grad_norm': 0.16135258972644806, 'learning_rate': 0.00015543233599868742, 'ppl': 1.684, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4423.93, 'total_tokens': 32720470, 'epoch': 0.95}
- 32%|███████████████████████████████████                                                                            | 790/2499 [1:34:10<2:58:30,  6.27s/it] 32%|███████████████████████████████████▏                                                                           | 791/2499 [1:34:17<2:58:21,  6.27s/it]                                                                                                                                                           {'loss': 0.5447, 'grad_norm': 0.163282573223114, 'learning_rate': 0.0001553272395631425, 'ppl': 1.7241, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4540.97, 'total_tokens': 32748900, 'epoch': 0.95}
- 32%|███████████████████████████████████▏                                                                           | 791/2499 [1:34:17<2:58:21,  6.27s/it] 32%|███████████████████████████████████▏                                                                           | 792/2499 [1:34:23<2:58:26,  6.27s/it]                                                                                                                                                           {'loss': 0.4688, 'grad_norm': 0.16475090384483337, 'learning_rate': 0.00015522205498438055, 'ppl': 1.5981, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4425.91, 'total_tokens': 32776712, 'epoch': 0.95}
- 32%|███████████████████████████████████▏                                                                           | 792/2499 [1:34:23<2:58:26,  6.27s/it] 32%|███████████████████████████████████▏                                                                           | 793/2499 [1:34:29<2:58:20,  6.27s/it]                                                                                                                                                           {'loss': 0.6043, 'grad_norm': 0.15547741949558258, 'learning_rate': 0.0001551167824299738, 'ppl': 1.83, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4378.39, 'total_tokens': 32804162, 'epoch': 0.95}
- 32%|███████████████████████████████████▏                                                                           | 793/2499 [1:34:29<2:58:20,  6.27s/it] 32%|███████████████████████████████████▎                                                                           | 794/2499 [1:34:36<2:57:59,  6.26s/it]                                                                                                                                                           {'loss': 0.572, 'grad_norm': 0.17574763298034668, 'learning_rate': 0.0001550114220676346, 'ppl': 1.7718, 'memory/max_active (GiB)': 18.08, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4278.44, 'total_tokens': 32830864, 'epoch': 0.95}
- 32%|███████████████████████████████████▎                                                                           | 794/2499 [1:34:36<2:57:59,  6.26s/it] 32%|███████████████████████████████████▎                                                                           | 795/2499 [1:34:42<2:57:47,  6.26s/it]                                                                                                                                                           {'loss': 0.5346, 'grad_norm': 0.1534729152917862, 'learning_rate': 0.00015490597406521523, 'ppl': 1.7068, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4439.31, 'total_tokens': 32858614, 'epoch': 0.95}
- 32%|███████████████████████████████████▎                                                                           | 795/2499 [1:34:42<2:57:47,  6.26s/it] 32%|███████████████████████████████████▎                                                                           | 796/2499 [1:34:48<2:57:28,  6.25s/it]                                                                                                                                                           {'loss': 0.5156, 'grad_norm': 0.15551310777664185, 'learning_rate': 0.0001548004385907075, 'ppl': 1.6746, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4302.36, 'total_tokens': 32885428, 'epoch': 0.96}
- 32%|███████████████████████████████████▎                                                                           | 796/2499 [1:34:48<2:57:28,  6.25s/it] 32%|███████████████████████████████████▍                                                                           | 797/2499 [1:34:54<2:57:33,  6.26s/it]                                                                                                                                                           {'loss': 0.5561, 'grad_norm': 0.1516779214143753, 'learning_rate': 0.00015469481581224272, 'ppl': 1.7439, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4665.25, 'total_tokens': 32914695, 'epoch': 0.96}
- 32%|███████████████████████████████████▍                                                                           | 797/2499 [1:34:54<2:57:33,  6.26s/it] 32%|███████████████████████████████████▍                                                                           | 798/2499 [1:35:01<2:57:57,  6.28s/it]                                                                                                                                                           {'loss': 0.6199, 'grad_norm': 0.15012866258621216, 'learning_rate': 0.00015458910589809106, 'ppl': 1.8587, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4722.7, 'total_tokens': 32944520, 'epoch': 0.96}
- 32%|███████████████████████████████████▍                                                                           | 798/2499 [1:35:01<2:57:57,  6.28s/it] 32%|███████████████████████████████████▍                                                                           | 799/2499 [1:35:07<2:58:13,  6.29s/it]                                                                                                                                                           {'loss': 0.5909, 'grad_norm': 0.16060224175453186, 'learning_rate': 0.00015448330901666175, 'ppl': 1.8056, 'memory/max_active (GiB)': 18.05, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4528.95, 'total_tokens': 32973133, 'epoch': 0.96}
- 32%|███████████████████████████████████▍                                                                           | 799/2499 [1:35:07<2:58:13,  6.29s/it] 32%|███████████████████████████████████▌                                                                           | 800/2499 [1:35:13<2:57:56,  6.28s/it]                                                                                                                                                           {'loss': 0.5605, 'grad_norm': 0.16525596380233765, 'learning_rate': 0.00015437742533650243, 'ppl': 1.7515, 'memory/max_active (GiB)': 18.11, 'memory/max_allocated (GiB)': 12.52, 'memory/device_reserved (GiB)': 20.25, 'tokens_per_second_per_gpu': 4510.81, 'total_tokens': 33001395, 'epoch': 0.96}
- 32%|███████████████████████████████████▌                                                                           | 800/2499 [1:35:13<2:57:56,  6.28s/it][2025-12-28 12:40:49,853] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:42410] Running evaluation step...
-[2025-12-28 12:40:51,617] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8908905982971191
-[2025-12-28 12:40:52,485] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.867694616317749
-[2025-12-28 12:40:53,341] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8542790412902832
-[2025-12-28 12:40:54,200] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:42410] generate_batches time: 0.8589270114898682
-[2025-12-28 12:40:54,201] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:42410] gather_len_batches: [90]
+  0%|                                                                                                                               | 0/72 [00:00<?, ?it/s][A
+  3%|███▎                                                                                                                   | 2/72 [00:01<01:08,  1.03it/s][A
+  4%|████▉                                                                                                                  | 3/72 [00:03<01:34,  1.37s/it][A
+  6%|██████▌                                                                                                                | 4/72 [00:05<01:47,  1.58s/it][A
+  7%|████████▎                                                                                                              | 5/72 [00:07<01:53,  1.69s/it][A
+  8%|█████████▉                                                                                                             | 6/72 [00:09<01:57,  1.77s/it][A
+ 10%|███████████▌                                                                                                           | 7/72 [00:11<02:00,  1.85s/it][A
+ 11%|█████████████▏                                                                                                         | 8/72 [00:13<02:00,  1.89s/it][A
+ 12%|██████████████▉                                                                                                        | 9/72 [00:15<01:59,  1.90s/it][A
+ 14%|████████████████▍                                                                                                     | 10/72 [00:17<01:57,  1.90s/it][A
+ 15%|██████████████████                                                                                                    | 11/72 [00:19<01:56,  1.91s/it][A
+ 17%|███████████████████▋                                                                                                  | 12/72 [00:21<01:54,  1.92s/it][A
+ 18%|█████████████████████▎                                                                                                | 13/72 [00:23<01:53,  1.92s/it][A
+ 19%|██████████████████████▉                                                                                               | 14/72 [00:25<01:51,  1.92s/it][A
+ 21%|████████████████████████▌                                                                                             | 15/72 [00:27<01:49,  1.93s/it][A
+ 22%|██████████████████████████▏                                                                                           | 16/72 [00:29<01:47,  1.93s/it][A
+ 24%|███████████████████████████▊                                                                                          | 17/72 [00:30<01:46,  1.93s/it][A
+ 25%|█████████████████████████████▌                                                                                        | 18/72 [00:32<01:44,  1.93s/it][A
+ 26%|███████████████████████████████▏                                                                                      | 19/72 [00:34<01:41,  1.92s/it][A
+ 28%|████████████████████████████████▊                                                                                     | 20/72 [00:36<01:39,  1.91s/it][A
+ 29%|██████████████████████████████████▍                                                                                   | 21/72 [00:38<01:37,  1.92s/it][A
+ 31%|████████████████████████████████████                                                                                  | 22/72 [00:40<01:36,  1.92s/it][A
+ 32%|█████████████████████████████████████▋                                                                                | 23/72 [00:42<01:34,  1.92s/it][A
+ 33%|███████████████████████████████████████▎                                                                              | 24/72 [00:45<01:41,  2.12s/it][A
+ 35%|████████████████████████████████████████▉                                                                             | 25/72 [00:47<01:43,  2.21s/it][A
+ 36%|████████████��█████████████████████████████▌                                                                           | 26/72 [00:49<01:40,  2.19s/it][A
+ 38%|████████████████████████████████████████████▎                                                                         | 27/72 [00:51<01:35,  2.11s/it][A
+ 39%|█████████████████████████████████████████████▉                                                                        | 28/72 [00:53<01:30,  2.05s/it][A
+ 40%|███████████████████████████████████████████████▌                                                                      | 29/72 [00:55<01:32,  2.16s/it][A
+ 42%|█████████████████████████████████████████████████▏                                                                    | 30/72 [00:57<01:27,  2.08s/it][A
+ 43%|██████████████████████████████████████████████████▊                                                                   | 31/72 [00:59<01:23,  2.03s/it][A
+ 44%|████████████████████████████████████████████████████▍                                                                 | 32/72 [01:01<01:19,  2.00s/it][A
+ 46%|██████████████████████████████████████████████████████                                                                | 33/72 [01:03<01:16,  1.97s/it][A
+ 47%|███████████████████████████████████████████████████████▋                                                              | 34/72 [01:05<01:14,  1.96s/it][A
+ 49%|█████████████████████████████████████████████████████████▎                                                            | 35/72 [01:07<01:12,  1.95s/it][A
+ 50%|███████████████████████████████████████████████████████████                                                           | 36/72 [01:09<01:09,  1.94s/it][A
+ 51%|████████████████████████████████████████████████████████████▋                                                         | 37/72 [01:11<01:07,  1.94s/it][A
+ 53%|██████████████████████████████████████████████████████████████▎                                                       | 38/72 [01:13<01:05,  1.93s/it][A
+ 54%|███████████████████████████████████████████████████████████████▉                                                      | 39/72 [01:15<01:03,  1.92s/it][A
+ 56%|█████████████████████████████████████████████████████████████████▌                                                    | 40/72 [01:16<01:01,  1.91s/it][A
+ 57%|███████████████████████████████████████████████████████████████████▏                                                  | 41/72 [01:18<00:59,  1.92s/it][A
+ 58%|████████████████████████████████████████████████████████████████████▊                                                 | 42/72 [01:20<00:57,  1.92s/it][A
+ 60%|██████████████████████████████████████████████████████████████████████▍                                               | 43/72 [01:22<00:55,  1.92s/it][A
+ 61%|████████████████████████████████████████████████████████████████████████                                              | 44/72 [01:24<00:53,  1.92s/it][A
+ 62%|█████████████████████████████████████████████████████████████████████████▊                                            | 45/72 [01:26<00:51,  1.92s/it][A
+ 64%|███████████████████████████████████████████████████████████████████████████▍                                          | 46/72 [01:28<00:49,  1.92s/it][A
+ 65%|█████████████████████████████████████████████████████████████████████████████                                         | 47/72 [01:30<00:48,  1.92s/it][A
+ 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 48/72 [01:32<00:46,  1.93s/it][A
+ 68%|████████████████████████████████████████████████████████████████████████████████▎                                     | 49/72 [01:34<00:44,  1.92s/it][A
+ 69%|█████████████████████████████████████████████████████████████████████████████████▉                                    | 50/72 [01:36<00:42,  1.91s/it][A
+ 71%|███████████████████████████████████████████████████████████████████████████████████▌                                  | 51/72 [01:38<00:40,  1.91s/it][A
+ 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 52/72 [01:39<00:38,  1.91s/it][A
+ 74%|██████████████████████████████████████████████████████████████████████████████████████▊                               | 53/72 [01:41<00:36,  1.91s/it][A
+ 75%|████████████████████████████████████████████████████████████████████████████████████████▌                             | 54/72 [01:43<00:34,  1.91s/it][A
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████▏                           | 55/72 [01:45<00:32,  1.92s/it][A
+ 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 56/72 [01:47<00:30,  1.92s/it][A
+ 79%|█████████████████████████████████████████████████████████████████████████████████████████████▍                        | 57/72 [01:49<00:28,  1.92s/it][A
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████                       | 58/72 [01:51<00:26,  1.92s/it][A
+ 82%|████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 59/72 [01:53<00:25,  1.92s/it][A
+ 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 60/72 [01:55<00:22,  1.92s/it][A
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 61/72 [01:57<00:21,  1.91s/it][A
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 62/72 [01:59<00:19,  1.91s/it][A
+ 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 63/72 [02:01<00:17,  1.91s/it][A
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 64/72 [02:02<00:15,  1.92s/it][A
+ 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 65/72 [02:04<00:13,  1.92s/it][A
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 66/72 [02:06<00:11,  1.92s/it][A
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 67/72 [02:08<00:09,  1.92s/it][A
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 68/72 [02:10<00:07,  1.92s/it][A
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 69/72 [02:13<00:06,  2.07s/it][A
+ 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 70/72 [02:15<00:04,  2.02s/it][A
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 71/72 [02:16<00:01,  1.98s/it][A
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [02:18<00:00,  1.98s/it][A                                                                                                                                                           
+                                                                                                                                                           [A{'eval_loss': 0.5063687562942505, 'eval_runtime': 141.112, 'eval_samples_per_second': 5.173, 'eval_steps_per_second': 1.035, 'eval_ppl': 1.6593, 'memory/max_active (GiB)': 19.1, 'memory/max_allocated (GiB)': 19.1, 'memory/device_reserved (GiB)': 139.06, 'epoch': 1.5}
+ 50%|███████████████████████████████████████████████████████                                                       | 2000/3996 [2:30:47<2:21:13,  4.25s/it]
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [02:19<00:00,  1.98s/it][A
+                                                                                                                                                           [A[2025-12-29 05:20:32,819] [INFO] [axolotl.core.trainers.base._save:692] [PID:3751] Saving model checkpoint to ./outputs/luau-codellama-h200-fast/checkpoint-2000
+ 50%|██████████████████████████████████████████████████████▌                                                      | 2001/3996 [2:30:51<26:11:28, 47.26s/it] 50%|██████████████████████████████████████████████████████▌                                                      | 2002/3996 [2:30:56<19:01:20, 34.34s/it] 50%|██████████████████████████████████████████████████████▋                                                      | 2003/3996 [2:31:00<14:05:39, 25.46s/it] 50%|██████████████████████████████████████████████████████▋                                                      | 2004/3996 [2:31:05<10:33:08, 19.07s/it] 50%|███████████████████████████████████████████████████████▏                                                      | 2005/3996 [2:31:09<8:04:36, 14.60s/it] 50%|███████████████████████████████████████████████████████▏                                                      | 2006/3996 [2:31:13<6:20:41, 11.48s/it] 50%|███████████████████████████████████████████████████████▏                                                      | 2007/3996 [2:31:17<5:08:09,  9.30s/it] 50%|███████████████████████████████████████████████████████▎                                                      | 2008/3996 [2:31:21<4:17:15,  7.76s/it] 50%|███████████████████████████████████████████████████████▎                                                      | 2009/3996 [2:31:25<3:41:44,  6.70s/it] 50%|███████████████████████████████████████████████████████▎                                                      | 2010/3996 [2:31:30<3:22:07,  6.11s/it] 50%|███████████████████████████████████████████████████████▎                                                      | 2011/3996 [2:31:34<3:02:58,  5.53s/it] 50%|███████████████████████████████████████████████████████▍                                                      | 2012/3996 [2:31:39<2:49:31,  5.13s/it] 50%|███████████████████████████████████████████████████████▍                                                      | 2013/3996 [2:31:43<2:40:02,  4.84s/it] 50%|███████████████████████████████████████████████████████▍                                                      | 2014/3996 [2:31:47<2:33:31,  4.65s/it] 50%|███████████████████████████████████████████████████████▍                                                      | 2015/3996 [2:31:51<2:28:54,  4.51s/it] 50%|███████████████████████████████████████████████████████▍                                                      | 2016/3996 [2:31:55<2:25:42,  4.42s/it] 50%|███████████████████████████████████████████████████████▌                                                      | 2017/3996 [2:32:00<2:28:50,  4.51s/it] 51%|███████████████████████████████████████████████████████▌                                                      | 2018/3996 [2:32:04<2:25:25,  4.41s/it] 51%|███████████████████████████████████████████████████████▌                                                      | 2019/3996 [2:32:08<2:23:09,  4.34s/it] 51%|███████████████████████████████████████████████████████▌                                                      | 2020/3996 [2:32:13<2:21:32,  4.30s/it] 51%|███████████████████████████████████████████████████████▋                                                      | 2021/3996 [2:32:17<2:20:37,  4.27s/it] 51%|███████████████████████████████████████████████████████▋                                                      | 2022/3996 [2:32:21<2:19:42,  4.25s/it] 51%|███████████████████████████████████████████████████████▋                                                      | 2023/3996 [2:32:25<2:19:11,  4.23s/it] 51%|███████████████████████████████████████████████████████▋                                                      | 2024/3996 [2:32:30<2:24:06,  4.38s/it] 51%|███████████████████████████████████████████████████████▋                                                      | 2025/3996 [2:32:34<2:22:09,  4.33s/it]                                                                                                                                                           {'loss': 0.4892, 'grad_norm': 0.20089760422706604, 'learning_rate': 0.00010193515188183245, 'ppl': 1.631, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4246.58, 'total_tokens': 39959888, 'epoch': 1.52}
+ 51%|███████████████████████████████████████████████████████▋                                                      | 2025/3996 [2:32:34<2:22:09,  4.33s/it] 51%|███████████████████████████████████████████████████████▊                                                      | 2026/3996 [2:32:38<2:20:50,  4.29s/it] 51%|███████████████████████████████████████████████████████▊                                                      | 2027/3996 [2:32:43<2:19:48,  4.26s/it] 51%|███████████████████████████████████████████████████████▊                                                      | 2028/3996 [2:32:47<2:19:10,  4.24s/it] 51%|███████████████████████████████████████████████████████▊                                                      | 2029/3996 [2:32:51<2:18:36,  4.23s/it] 51%|███████████████████████████████████████████████████████▉                                                      | 2030/3996 [2:32:55<2:18:18,  4.22s/it] 51%|█████████████████████████████████████████████████████��█▉                                                      | 2031/3996 [2:33:00<2:23:17,  4.38s/it] 51%|███████████████████████████████████████████████████████▉                                                      | 2032/3996 [2:33:04<2:21:34,  4.32s/it] 51%|███████████████████████████████████████████████████████▉                                                      | 2033/3996 [2:33:08<2:20:03,  4.28s/it] 51%|███████████████████████████████████████████████████████▉                                                      | 2034/3996 [2:33:12<2:19:02,  4.25s/it] 51%|████████████████████████████████████████████████████████                                                      | 2035/3996 [2:33:17<2:18:28,  4.24s/it] 51%|████████████████████████████████████████████████████████                                                      | 2036/3996 [2:33:21<2:18:01,  4.23s/it] 51%|████████████████████████████████████████████████████████                                                      | 2037/3996 [2:33:25<2:17:37,  4.22s/it] 51%|████████████████████████████████████████████████████████                                                      | 2038/3996 [2:33:30<2:22:35,  4.37s/it] 51%|████████████████████████████████████████████████████████▏                                                     | 2039/3996 [2:33:34<2:20:50,  4.32s/it] 51%|████████████████████████████████████████████████████████▏                                                     | 2040/3996 [2:33:38<2:19:34,  4.28s/it] 51%|████████████████████████████████████████████████████████▏                                                     | 2041/3996 [2:33:42<2:18:29,  4.25s/it] 51%|████████████████████████████████████████████████████████▏                                                     | 2042/3996 [2:33:47<2:17:48,  4.23s/it] 51%|████████████████████████████████████████████████████████▏                                                     | 2043/3996 [2:33:51<2:17:29,  4.22s/it] 51%|████████████████████████████████████████████████████████▎                                                     | 2044/3996 [2:33:55<2:17:15,  4.22s/it] 51%|████████████████████████████████████████████████████████▎                                                     | 2045/3996 [2:34:00<2:22:13,  4.37s/it] 51%|████████████████████████████████████████████████████████▎                                                     | 2046/3996 [2:34:04<2:20:20,  4.32s/it] 51%|████████████████████████████████████████████████████████▎                                                     | 2047/3996 [2:34:08<2:18:58,  4.28s/it] 51%|████████████████████████████████████████████████████████▍                                                     | 2048/3996 [2:34:12<2:18:00,  4.25s/it] 51%|████████████████████████████████████████████████████████▍                                                     | 2049/3996 [2:34:16<2:17:29,  4.24s/it] 51%|███████████████████████████████████████████████████████��▍                                                     | 2050/3996 [2:34:21<2:16:55,  4.22s/it]                                                                                                                                                           {'loss': 0.503, 'grad_norm': 0.19840118288993835, 'learning_rate': 9.991936364699348e-05, 'ppl': 1.6537, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4320.38, 'total_tokens': 40411902, 'epoch': 1.54}
+ 51%|████████████████████████████████████████████████████████▍                                                     | 2050/3996 [2:34:21<2:16:55,  4.22s/it] 51%|████████████████████████████████████████████████████████▍                                                     | 2051/3996 [2:34:25<2:16:36,  4.21s/it] 51%|████████████████████████████████████████████████████████▍                                                     | 2052/3996 [2:34:30<2:21:38,  4.37s/it] 51%|████████████████████████████████████████████████████████▌                                                     | 2053/3996 [2:34:34<2:19:57,  4.32s/it] 51%|████████████████████████████████████████████████████████▌                                                     | 2054/3996 [2:34:38<2:18:41,  4.29s/it] 51%|████████████████████████████████████████████████████████▌                                                     | 2055/3996 [2:34:42<2:17:36,  4.25s/it] 51%|████████████████████████████████████████████████████████▌                                                     | 2056/3996 [2:34:46<2:17:03,  4.24s/it] 51%|████████████████████████████████████████████████████████▌                                                     | 2057/3996 [2:34:51<2:16:38,  4.23s/it] 52%|████████████████████████████████████████████████████████▋                                                     | 2058/3996 [2:34:55<2:16:21,  4.22s/it] 52%|████████████████████████████████████████████████████████▋                                                     | 2059/3996 [2:35:00<2:21:17,  4.38s/it] 52%|████████████████████████████████████████████████████████▋                                                     | 2060/3996 [2:35:04<2:19:31,  4.32s/it] 52%|████████████████████████████████████████████████████████▋                                                     | 2061/3996 [2:35:08<2:18:08,  4.28s/it] 52%|████████████████████████████████████████████████████████▊                                                     | 2062/3996 [2:35:12<2:17:04,  4.25s/it] 52%|████████████████████████████████████████████████████████▊                                                     | 2063/3996 [2:35:16<2:16:27,  4.24s/it] 52%|████████████████████████████████████████████████████████▊                                                     | 2064/3996 [2:35:20<2:16:06,  4.23s/it] 52%|████████████████████████████████████████████████████████▊                                                     | 2065/3996 [2:35:25<2:15:44,  4.22s/it] 52%|████████████████████████████████████████████████████████▊                                                     | 2066/3996 [2:35:29<2:20:38,  4.37s/it] 52%|████████████████████████████████████████████████████████▉                                                     | 2067/3996 [2:35:34<2:18:50,  4.32s/it] 52%|████████████████████████████████████████████████████████▉                                                     | 2068/3996 [2:35:38<2:17:37,  4.28s/it] 52%|████████████████████████████████████████████████████████▉                                                     | 2069/3996 [2:35:42<2:16:27,  4.25s/it] 52%|████████████████████████████████████████████████████████▉                                                     | 2070/3996 [2:35:46<2:15:53,  4.23s/it] 52%|█████████████████████████████████████████████████████████                                                     | 2071/3996 [2:35:50<2:15:21,  4.22s/it] 52%|█████████████████████████████████████████████████████████                                                     | 2072/3996 [2:35:55<2:15:05,  4.21s/it] 52%|█████████████████████████████████████████████████████████                                                     | 2073/3996 [2:35:59<2:20:33,  4.39s/it] 52%|█████████████████████████████████████████████████████████                                                     | 2074/3996 [2:36:04<2:18:36,  4.33s/it] 52%|█████████████████████████████████████████████████████████                                                     | 2075/3996 [2:36:08<2:17:07,  4.28s/it]                                                                                                                                                           {'loss': 0.5127, 'grad_norm': 0.20045842230319977, 'learning_rate': 9.790360818076577e-05, 'ppl': 1.6698, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4245.02, 'total_tokens': 40855384, 'epoch': 1.56}
+ 52%|█████████████████████████████████████████████████████████                                                     | 2075/3996 [2:36:08<2:17:07,  4.28s/it] 52%|█████████████████████████████████████████████████████████▏                                                    | 2076/3996 [2:36:12<2:16:11,  4.26s/it] 52%|█████████████████████████████████████████████████████████▏                                                    | 2077/3996 [2:36:16<2:15:35,  4.24s/it] 52%|█████████████████████████████████████████████████████████▏                                                    | 2078/3996 [2:36:20<2:15:04,  4.23s/it] 52%|█████████████████████████████████████████████████████████▏                                                    | 2079/3996 [2:36:24<2:14:43,  4.22s/it] 52%|█████████████████████████████████████████████████████████▎                                                    | 2080/3996 [2:36:29<2:19:32,  4.37s/it] 52%|█████████████████████████████████████████████████████████▎                                                    | 2081/3996 [2:36:33<2:17:43,  4.32s/it] 52%|█████████████████████████████████████████████████████████▎                                                    | 2082/3996 [2:36:38<2:16:26,  4.28s/it] 52%|█████████████████████████████████████████████████████████▎                                                    | 2083/3996 [2:36:42<2:15:22,  4.25s/it] 52%|█████████████████████████████████████████████████████████▎                                                    | 2084/3996 [2:36:46<2:14:56,  4.23s/it] 52%|█████████████████████████████████████████████████████████▍                                                    | 2085/3996 [2:36:50<2:14:19,  4.22s/it] 52%|█████████████████████████████████████████████████████████▍                                                    | 2086/3996 [2:36:54<2:14:02,  4.21s/it] 52%|█████████████████████████████████████████████████████████▍                                                    | 2087/3996 [2:36:59<2:18:55,  4.37s/it] 52%|█████████████████████████████████████████████████████████▍                                                    | 2088/3996 [2:37:03<2:17:08,  4.31s/it] 52%|█████████████████████████████████████████████████████████▌                                                    | 2089/3996 [2:37:07<2:15:46,  4.27s/it] 52%|█████████████████████████████████████████████████████████▌                                                    | 2090/3996 [2:37:12<2:14:50,  4.24s/it] 52%|█████████████████████████████████████████████████████████▌                                                    | 2091/3996 [2:37:16<2:14:14,  4.23s/it] 52%|█████████████████████████████████████████████████████████▌                                                    | 2092/3996 [2:37:20<2:13:37,  4.21s/it] 52%|█████████████████████████████████████████████████████████▌                                                    | 2093/3996 [2:37:24<2:13:22,  4.21s/it] 52%|█████████████████████████████████████████████████████████▋                                                    | 2094/3996 [2:37:29<2:18:18,  4.36s/it] 52%|█████████████████████████████████████████████████████████▋                                                    | 2095/3996 [2:37:33<2:16:42,  4.32s/it] 52%|█████████████████████████████████████████████████████████▋                                                    | 2096/3996 [2:37:37<2:15:22,  4.27s/it] 52%|█████████████████████████████████████████████████████████▋                                                    | 2097/3996 [2:37:41<2:14:21,  4.25s/it] 53%|█████████████████████████████████████████████████████████▊                                                    | 2098/3996 [2:37:46<2:13:42,  4.23s/it] 53%|█████████████████████████████████████████████████████████▊                                                    | 2099/3996 [2:37:50<2:13:22,  4.22s/it] 53%|█████████████████████████████████████████████████████████▊                                                    | 2100/3996 [2:37:54<2:13:07,  4.21s/it]                                                                                                                                                           {'loss': 0.4994, 'grad_norm': 0.19669026136398315, 'learning_rate': 9.588870463610893e-05, 'ppl': 1.6477, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4174.18, 'total_tokens': 41293525, 'epoch': 1.58}
+ 53%|█████████████████████████████████████████████████████████▊                                                    | 2100/3996 [2:37:54<2:13:07,  4.21s/it] 53%|█████████████████████████████████████████████████████████▊                                                    | 2101/3996 [2:37:59<2:17:58,  4.37s/it] 53%|█████████████████████████████████████████████████████████▊                                                    | 2102/3996 [2:38:03<2:16:10,  4.31s/it] 53%|█████████████████████████████████████████████████████████▉                                                    | 2103/3996 [2:38:07<2:14:52,  4.27s/it] 53%|█████████████████████████████████████████████████████████▉                                                    | 2104/3996 [2:38:11<2:13:55,  4.25s/it] 53%|█████████████████████████████████████████████████████████▉                                                    | 2105/3996 [2:38:16<2:13:31,  4.24s/it] 53%|█████████████████████████████████████████████████████████▉                                                    | 2106/3996 [2:38:20<2:12:58,  4.22s/it] 53%|██████████████████████████████████████████████████████████                                                    | 2107/3996 [2:38:24<2:13:01,  4.23s/it] 53%|██████████████████████████████████████████████████████████                                                    | 2108/3996 [2:38:29<2:17:50,  4.38s/it] 53%|██████████████████████████████████████████████████████████                                                    | 2109/3996 [2:38:33<2:16:04,  4.33s/it] 53%|██████████████████████████████████████████████████████████                                                    | 2110/3996 [2:38:37<2:14:47,  4.29s/it] 53%|██████████████████████████████████████████████████████████                                                    | 2111/3996 [2:38:41<2:13:41,  4.26s/it] 53%|██████████████████████████████████████████████████████████▏                                                   | 2112/3996 [2:38:45<2:13:05,  4.24s/it] 53%|██████████████████████████████████████████████████████████▏                                                   | 2113/3996 [2:38:50<2:12:37,  4.23s/it] 53%|██████████████████████████████████████████████████████████▏                                                   | 2114/3996 [2:38:54<2:12:11,  4.21s/it] 53%|██████████████████████████████████████████████████████████▏                                                   | 2115/3996 [2:38:59<2:16:58,  4.37s/it] 53%|██████████████████████████████████████████████████████████▏                                                   | 2116/3996 [2:39:03<2:16:40,  4.36s/it] 53%|██████████████████████████████████████████████████████████▎                                                   | 2117/3996 [2:39:07<2:18:18,  4.42s/it] 53%|██████████████████████████████████████████████████████████▎                                                   | 2118/3996 [2:39:12<2:16:11,  4.35s/it] 53%|██████████████████████████████████████████████████████████▎                                                   | 2119/3996 [2:39:16<2:14:50,  4.31s/it] 53%|██████████████████████████████████████████████████████████▎                                                   | 2120/3996 [2:39:20<2:13:40,  4.28s/it] 53%|██████████████████████████████████████████████████████████▍                                                   | 2121/3996 [2:39:24<2:12:49,  4.25s/it] 53%|██████████████████████████████████████████████████████████▍                                                   | 2122/3996 [2:39:29<2:17:24,  4.40s/it] 53%|██████████████████████████████████████████████████████████▍                                                   | 2123/3996 [2:39:33<2:15:26,  4.34s/it] 53%|██████████████████████████████████████████████████████████▍                                                   | 2124/3996 [2:39:37<2:13:57,  4.29s/it] 53%|██████████████████████████████████████████████████████████▍                                                   | 2125/3996 [2:39:42<2:13:18,  4.27s/it]                                                                                                                                                           {'loss': 0.5009, 'grad_norm': 0.19754259288311005, 'learning_rate': 9.387547181978291e-05, 'ppl': 1.6502, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4200.06, 'total_tokens': 41737747, 'epoch': 1.59}
+ 53%|██████████████████████████████████████████████████████████▍                                                   | 2125/3996 [2:39:42<2:13:18,  4.27s/it] 53%|██████████████████████████████████████████████████████████▌                                                   | 2126/3996 [2:39:46<2:12:27,  4.25s/it] 53%|██████████████████████████████████████████████████████████▌                                                   | 2127/3996 [2:39:50<2:11:49,  4.23s/it] 53%|██████████████████████████████████████████████████████████▌                                                   | 2128/3996 [2:39:54<2:11:24,  4.22s/it] 53%|██████████████████████████████████████████████████████████▌                                                   | 2129/3996 [2:39:59<2:16:14,  4.38s/it] 53%|██████████████████████████████████████████████████████████▋                                                   | 2130/3996 [2:40:03<2:14:32,  4.33s/it] 53%|██████████████████████████████████████████████████████████▋                                                   | 2131/3996 [2:40:07<2:13:12,  4.29s/it] 53%|██████████████████████████████████████████████████████████▋                                                   | 2132/3996 [2:40:12<2:12:10,  4.25s/it] 53%|██████████████████████████████████████████████████████████▋                                                   | 2133/3996 [2:40:16<2:11:34,  4.24s/it] 53%|████████��█████████████████████████████████████████████████▋                                                   | 2134/3996 [2:40:20<2:10:59,  4.22s/it] 53%|██████████████████████████████████████████████████████████▊                                                   | 2135/3996 [2:40:24<2:10:40,  4.21s/it] 53%|██████████████████████████████████████████████████████████▊                                                   | 2136/3996 [2:40:29<2:15:35,  4.37s/it] 53%|██████████████████████████████████████████████████████████▊                                                   | 2137/3996 [2:40:33<2:13:48,  4.32s/it] 54%|██████████████████████████████████████████████████████████▊                                                   | 2138/3996 [2:40:37<2:12:38,  4.28s/it] 54%|██████████████████████████████████████████████████████████▉                                                   | 2139/3996 [2:40:41<2:11:39,  4.25s/it] 54%|██████████████████████████████████████████████████████████▉                                                   | 2140/3996 [2:40:46<2:11:04,  4.24s/it] 54%|██████████████████████████████████████████████████████████▉                                                   | 2141/3996 [2:40:50<2:10:29,  4.22s/it] 54%|██████████████████████████████████████████████████████████▉                                                   | 2142/3996 [2:40:54<2:10:12,  4.21s/it] 54%|██████████████████████████████████████████████████████████▉                                                   | 2143/3996 [2:40:59<2:19:14,  4.51s/it] 54%|███████████████████████████████████████████████████████████                                                   | 2144/3996 [2:41:03<2:16:19,  4.42s/it] 54%|███████████████████████████████████████████████████████████                                                   | 2145/3996 [2:41:08<2:14:11,  4.35s/it] 54%|███████████████████████████████████████████████████████████                                                   | 2146/3996 [2:41:12<2:12:37,  4.30s/it] 54%|███████████████████████████████████████████████████████████                                                   | 2147/3996 [2:41:16<2:11:45,  4.28s/it] 54%|███████████████████████████████████████████████████████████▏                                                  | 2148/3996 [2:41:20<2:10:55,  4.25s/it] 54%|███████████████████████████████████████████████████████████▏                                                  | 2149/3996 [2:41:24<2:10:20,  4.23s/it] 54%|███████████████████████████████████████████████████████████▏                                                  | 2150/3996 [2:41:29<2:14:58,  4.39s/it]                                                                                                                                                           {'loss': 0.5002, 'grad_norm': 0.19482502341270447, 'learning_rate': 9.186472785960507e-05, 'ppl': 1.6491, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3696.76, 'total_tokens': 42176082, 'epoch': 1.61}
+ 54%|█████████���█████████████████████████████████████████████████▏                                                  | 2150/3996 [2:41:29<2:14:58,  4.39s/it] 54%|███████████████████████████████████████████████████████████▏                                                  | 2151/3996 [2:41:33<2:13:08,  4.33s/it] 54%|███████████████████████████████████████████████████████████▏                                                  | 2152/3996 [2:41:38<2:11:51,  4.29s/it] 54%|███████████████████████████████████████████████████████████▎                                                  | 2153/3996 [2:41:42<2:10:43,  4.26s/it] 54%|███████████████████████████████████████████████████████████▎                                                  | 2154/3996 [2:41:46<2:10:11,  4.24s/it] 54%|███████████████████████████████████████████████████████████▎                                                  | 2155/3996 [2:41:50<2:09:48,  4.23s/it] 54%|███████████████████████████████████████████████████████████▎                                                  | 2156/3996 [2:41:54<2:09:30,  4.22s/it] 54%|███████████████████████████████████████████████████████████▍                                                  | 2157/3996 [2:41:59<2:14:21,  4.38s/it] 54%|███████████████████████████████████████████████████████████▍                                                  | 2158/3996 [2:42:03<2:12:38,  4.33s/it] 54%|███████████████████████████████████████████████████████████▍                                                  | 2159/3996 [2:42:07<2:11:12,  4.29s/it] 54%|███████████████████████████████████████████████████████████▍                                                  | 2160/3996 [2:42:12<2:10:09,  4.25s/it] 54%|███████████████████████████████████████████████████████████▍                                                  | 2161/3996 [2:42:16<2:09:42,  4.24s/it] 54%|███████████████████████████████████████████████████████████▌                                                  | 2162/3996 [2:42:20<2:09:16,  4.23s/it] 54%|███████████████████████████████████████████████████████████▌                                                  | 2163/3996 [2:42:24<2:09:01,  4.22s/it] 54%|███████████████████████████████████████████████████████████▌                                                  | 2164/3996 [2:42:29<2:13:41,  4.38s/it] 54%|███████████████████████████████████████████████████████████▌                                                  | 2165/3996 [2:42:33<2:11:55,  4.32s/it] 54%|███████████████████████████████████████████████████████████▌                                                  | 2166/3996 [2:42:37<2:10:36,  4.28s/it] 54%|███████████████████████████████████████████████████████████▋                                                  | 2167/3996 [2:42:42<2:09:41,  4.25s/it] 54%|███████████████████████████████████████████████████████████▋                                                  | 2168/3996 [2:42:46<2:08:59,  4.23s/it] 54%|███████████████████████████████████████████████████████████▋                                                  | 2169/3996 [2:42:50<2:08:24,  4.22s/it] 54%|███████████████████████████████████████████████████████████▋                                                  | 2170/3996 [2:42:54<2:08:14,  4.21s/it] 54%|███████████████████████████████████████████████████████████▊                                                  | 2171/3996 [2:42:59<2:13:01,  4.37s/it] 54%|███████████████████████████████████████████████████████████▊                                                  | 2172/3996 [2:43:03<2:11:18,  4.32s/it] 54%|███████████████████████████████████████████████████████████▊                                                  | 2173/3996 [2:43:07<2:09:57,  4.28s/it] 54%|███████████████████████████████████████████████████████████▊                                                  | 2174/3996 [2:43:11<2:08:59,  4.25s/it] 54%|███████████████████████████████████████████████████████████▊                                                  | 2175/3996 [2:43:16<2:08:29,  4.23s/it]                                                                                                                                                           {'loss': 0.4959, 'grad_norm': 0.21606561541557312, 'learning_rate': 8.985728987198352e-05, 'ppl': 1.642, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4192.5, 'total_tokens': 42616372, 'epoch': 1.63}
+ 54%|███████████████████████████████████████████████████████████▊                                                  | 2175/3996 [2:43:16<2:08:29,  4.23s/it] 54%|███████████████████████████████████████████████████████████▉                                                  | 2176/3996 [2:43:20<2:08:06,  4.22s/it] 54%|███████████████████████████████████████████████████████████▉                                                  | 2177/3996 [2:43:24<2:07:53,  4.22s/it] 55%|███████████████████████████████████████████████████████████▉                                                  | 2178/3996 [2:43:29<2:12:30,  4.37s/it] 55%|███████████████████████████████████████████████████████████▉                                                  | 2179/3996 [2:43:33<2:10:53,  4.32s/it] 55%|████████████████████████████████████████████████████████████                                                  | 2180/3996 [2:43:37<2:09:41,  4.29s/it] 55%|████████████████████████████████████████████████████████████                                                  | 2181/3996 [2:43:41<2:08:43,  4.26s/it] 55%|████████████████████████████████████████████████████████████                                                  | 2182/3996 [2:43:46<2:08:03,  4.24s/it] 55%|████████████████████████████████████████████████████████████                                                  | 2183/3996 [2:43:50<2:07:31,  4.22s/it] 55%|████████████████████████████████████████████████████████████                                                  | 2184/3996 [2:43:54<2:07:12,  4.21s/it] 55%|████████████████████████████████████████████████████████████▏                                                 | 2185/3996 [2:43:59<2:12:03,  4.38s/it] 55%|████████████████████████████████████████████████████████████▏                                                 | 2186/3996 [2:44:03<2:10:24,  4.32s/it] 55%|████████████████████████████████████████████████████████████▏                                                 | 2187/3996 [2:44:07<2:09:07,  4.28s/it] 55%|████████████████████████████████████████████████████████████▏                                                 | 2188/3996 [2:44:11<2:08:05,  4.25s/it] 55%|████████████████████████████████████████████████████████████▎                                                 | 2189/3996 [2:44:15<2:07:35,  4.24s/it] 55%|████████████████████████████████████████████████████████████▎                                                 | 2190/3996 [2:44:20<2:07:02,  4.22s/it] 55%|████████████████████████████████████████████████████████████▎                                                 | 2191/3996 [2:44:24<2:06:47,  4.21s/it] 55%|████████████████████████████████████████████████████████████▎                                                 | 2192/3996 [2:44:29<2:11:26,  4.37s/it] 55%|████████████████████████████████████████████████████████████▎                                                 | 2193/3996 [2:44:33<2:09:53,  4.32s/it] 55%|████████████████████████████████████████████████████████████▍                                                 | 2194/3996 [2:44:37<2:08:44,  4.29s/it] 55%|████████████████████████████████████████████████████████████▍                                                 | 2195/3996 [2:44:41<2:07:47,  4.26s/it] 55%|████████████████████████████████████████████████████████████▍                                                 | 2196/3996 [2:44:45<2:07:08,  4.24s/it] 55%|████████████████████████████████████████████████████████████▍                                                 | 2197/3996 [2:44:50<2:06:34,  4.22s/it] 55%|████████████████████████████████████████████████████████████▌                                                 | 2198/3996 [2:44:54<2:10:31,  4.36s/it] 55%|████████████████████████████████████████████████████████████▌                                                 | 2199/3996 [2:44:59<2:13:56,  4.47s/it] 55%|████████████████████████████████████████████████████████████▌                                                 | 2200/3996 [2:45:03<2:11:24,  4.39s/it]                                                                                                                                                           {'loss': 0.5031, 'grad_norm': 0.1979638934135437, 'learning_rate': 8.785397362986114e-05, 'ppl': 1.6538, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4211.67, 'total_tokens': 43058315, 'epoch': 1.65}
+ 55%|████████████████████████████████████████████████████████████▌                                                 | 2200/3996 [2:45:03<2:11:24,  4.39s/it] 55%|████████████████████████████████████████████████████████████▌                                                 | 2201/3996 [2:45:07<2:09:21,  4.32s/it] 55%|████████████████████████████████████████████████████████████▌                                                 | 2202/3996 [2:45:12<2:08:05,  4.28s/it] 55%|████████████████████████████████████████████████████████████▋                                                 | 2203/3996 [2:45:16<2:07:19,  4.26s/it] 55%|████████████████████████████████████████████████████████████▋                                                 | 2204/3996 [2:45:20<2:06:36,  4.24s/it] 55%|████████████████████████████████████████████████████████████▋                                                 | 2205/3996 [2:45:24<2:06:16,  4.23s/it] 55%|████████████████████████████████████████████████████████████▋                                                 | 2206/3996 [2:45:29<2:10:45,  4.38s/it] 55%|████████████████████████████████████████████████████████████▊                                                 | 2207/3996 [2:45:33<2:09:03,  4.33s/it] 55%|████████████████████████████████████████████████████████████▊                                                 | 2208/3996 [2:45:37<2:07:49,  4.29s/it] 55%|████████████████████████████████████████████████████████████▊                                                 | 2209/3996 [2:45:41<2:06:48,  4.26s/it] 55%|████████████████████████████████████████████████████████████▊                                                 | 2210/3996 [2:45:46<2:06:13,  4.24s/it] 55%|████████████████████████████████████████████████████████████▊                                                 | 2211/3996 [2:45:50<2:05:38,  4.22s/it] 55%|████████████████████████████████████████████████████████████▉                                                 | 2212/3996 [2:45:54<2:05:19,  4.22s/it] 55%|████████████████████████████████████████████████████████████▉                                                 | 2213/3996 [2:45:59<2:09:58,  4.37s/it] 55%|████████████████████████████████████████████████████████████▉                                                 | 2214/3996 [2:46:03<2:08:17,  4.32s/it] 55%|████████████████████████████████████████████████████████████▉                                                 | 2215/3996 [2:46:07<2:07:04,  4.28s/it] 55%|█████████████████████████████████████████████████████████████                                                 | 2216/3996 [2:46:11<2:06:11,  4.25s/it] 55%|█████████████████████████████████████████████████████████████                                                 | 2217/3996 [2:46:16<2:05:46,  4.24s/it] 56%|█████████████████████████████████████████████████████████████                                                 | 2218/3996 [2:46:20<2:05:18,  4.23s/it] 56%|█████████████████████████████████████████████████████████████                                                 | 2219/3996 [2:46:24<2:05:03,  4.22s/it] 56%|█████████████████████████████████████████████████████████████                                                 | 2220/3996 [2:46:29<2:09:33,  4.38s/it] 56%|█████████████████████████████████████████████████████████████▏                                                | 2221/3996 [2:46:33<2:07:56,  4.32s/it] 56%|█████████████████████████████████████████████████████████████▏                                                | 2222/3996 [2:46:37<2:06:35,  4.28s/it] 56%|█████████████████████████████████████████████████████████████▏                                                | 2223/3996 [2:46:41<2:05:35,  4.25s/it] 56%|█████████████████████████████████████████████████████████████▏                                                | 2224/3996 [2:46:46<2:05:03,  4.23s/it] 56%|█████████████████████████████████████████████████████████████▏                                                | 2225/3996 [2:46:50<2:04:32,  4.22s/it]                                                                                                                                                           {'loss': 0.4986, 'grad_norm': 0.20717743039131165, 'learning_rate': 8.58555932312059e-05, 'ppl': 1.6464, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4242.04, 'total_tokens': 43501960, 'epoch': 1.67}
+ 56%|█████████████████████████████████████████████████████████████▏                                                | 2225/3996 [2:46:50<2:04:32,  4.22s/it] 56%|█████████████████████████████████████████████████████████████▎                                                | 2226/3996 [2:46:54<2:04:17,  4.21s/it] 56%|█████████████████████████████████████████████████████████████▎                                                | 2227/3996 [2:46:59<2:08:49,  4.37s/it] 56%|█████████████████████████████████████████████████████████████▎                                                | 2228/3996 [2:47:03<2:07:13,  4.32s/it] 56%|█████████████████████████████████████████████████████████████▎                                                | 2229/3996 [2:47:07<2:05:53,  4.27s/it] 56%|█████████████████████████████████████████████████████████████▍                                                | 2230/3996 [2:47:11<2:04:58,  4.25s/it] 56%|█████████████████████████████████████████████████████████████▍                                                | 2231/3996 [2:47:15<2:04:36,  4.24s/it] 56%|█████████████████████████████████████████████████████████████▍                                                | 2232/3996 [2:47:20<2:04:13,  4.23s/it] 56%|█████████████████████████████████████████████████████████████▍                                                | 2233/3996 [2:47:24<2:03:57,  4.22s/it] 56%|██████████████████████████████████████████��██████████████████▍                                                | 2234/3996 [2:47:29<2:08:29,  4.38s/it] 56%|█████████████████████████████████████████████████████████████▌                                                | 2235/3996 [2:47:33<2:06:51,  4.32s/it] 56%|█████████████████████████████████████████████████████████████▌                                                | 2236/3996 [2:47:37<2:05:36,  4.28s/it] 56%|█████████████████████████████████████████████████████████████▌                                                | 2237/3996 [2:47:41<2:04:47,  4.26s/it] 56%|█████████████████████████████████████████████████████████████▌                                                | 2238/3996 [2:47:45<2:04:12,  4.24s/it] 56%|█████████████████████████████████████████████████████████████▋                                                | 2239/3996 [2:47:50<2:03:42,  4.22s/it] 56%|█████████████████████████████████████████████████████████████▋                                                | 2240/3996 [2:47:54<2:03:21,  4.21s/it] 56%|█████████████████████████████████████████████████████████████▋                                                | 2241/3996 [2:47:58<2:07:58,  4.38s/it] 56%|█████████████████████████████████████████████████████████████▋                                                | 2242/3996 [2:48:03<2:06:26,  4.33s/it] 56%|█████████████████████████████████████████████████████████████▋                                                | 2243/3996 [2:48:07<2:05:10,  4.28s/it] 56%|█████████████████████████████████████████████████████████████▊                                                | 2244/3996 [2:48:11<2:04:23,  4.26s/it] 56%|█████████████████████████████████████████████████████████████▊                                                | 2245/3996 [2:48:15<2:03:48,  4.24s/it] 56%|█████████████████████████████████████████████████████████████▊                                                | 2246/3996 [2:48:19<2:03:21,  4.23s/it] 56%|█████████████████████████████████████████████████████████████▊                                                | 2247/3996 [2:48:24<2:03:04,  4.22s/it] 56%|█████████████████████████████████████████████████████████████▉                                                | 2248/3996 [2:48:28<2:07:32,  4.38s/it] 56%|█████████████████████████████████████████████████████████████▉                                                | 2249/3996 [2:48:33<2:06:01,  4.33s/it] 56%|█████████████████████████████████████████████████████████████▉                                                | 2250/3996 [2:48:37<2:04:53,  4.29s/it]                                                                                                                                                           {'loss': 0.4898, 'grad_norm': 0.18736609816551208, 'learning_rate': 8.38629607681815e-05, 'ppl': 1.632, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4235.21, 'total_tokens': 43947235, 'epoch': 1.69}
+ 56%|█████████████████████████████████████████████████████████████▉                                                | 2250/3996 [2:48:37<2:04:53,  4.29s/it] 56%|█████████████████████████████████████████████████████████████▉                                                | 2251/3996 [2:48:41<2:03:58,  4.26s/it] 56%|█████████████████████████████████████████████████████████████▉                                                | 2252/3996 [2:48:45<2:03:20,  4.24s/it] 56%|██████████████████████████████████████████████████████████████                                                | 2253/3996 [2:48:49<2:02:46,  4.23s/it] 56%|██████████████████████████████████████████████████████████████                                                | 2254/3996 [2:48:54<2:02:35,  4.22s/it] 56%|██████████████████████████████████████████████████████████████                                                | 2255/3996 [2:48:59<2:10:13,  4.49s/it] 56%|██████████████████████████████████████████████████████████████                                                | 2256/3996 [2:49:03<2:07:47,  4.41s/it] 56%|██████████████████████████████████████████████████████████████▏                                               | 2257/3996 [2:49:07<2:05:45,  4.34s/it] 57%|██████████████████████████████████████████████████████████████▏                                               | 2258/3996 [2:49:11<2:04:30,  4.30s/it] 57%|██████████████████████████████████████████████████████████████▏                                               | 2259/3996 [2:49:16<2:04:38,  4.31s/it] 57%|██████████████████████████████████████████████████████████████▏                                               | 2260/3996 [2:49:20<2:03:34,  4.27s/it] 57%|██████████████████████████████████████████████████████████████▏                                               | 2261/3996 [2:49:24<2:02:46,  4.25s/it] 57%|██████████████████████████████████████████████████████████████▎                                               | 2262/3996 [2:49:29<2:07:02,  4.40s/it] 57%|██████████████████████████████████████████████████████████████▎                                               | 2263/3996 [2:49:33<2:05:12,  4.34s/it] 57%|██████████████████████████████████████████████████████████████▎                                               | 2264/3996 [2:49:37<2:03:57,  4.29s/it] 57%|██████████████████████████████████████████████████████████████▎                                               | 2265/3996 [2:49:41<2:02:56,  4.26s/it] 57%|██████████████████████████████████████████████████████████████▍                                               | 2266/3996 [2:49:46<2:02:22,  4.24s/it] 57%|██████████████████████████████████████████████████████████████▍                                               | 2267/3996 [2:49:50<2:01:54,  4.23s/it] 57%|███████████████████████████████���██████████████████████████████▍                                               | 2268/3996 [2:49:54<2:01:33,  4.22s/it] 57%|██████████████████████████████████████████████████████████████▍                                               | 2269/3996 [2:49:59<2:05:54,  4.37s/it] 57%|██████████████████████████████████████████████████████████████▍                                               | 2270/3996 [2:50:03<2:04:20,  4.32s/it] 57%|██████████████████████████████████████████████████████████████▌                                               | 2271/3996 [2:50:07<2:03:06,  4.28s/it] 57%|██████████████████████████████████████████████████████████████▌                                               | 2272/3996 [2:50:11<2:02:15,  4.26s/it] 57%|██████████████████████████████████████████████████████████████▌                                               | 2273/3996 [2:50:15<2:01:45,  4.24s/it] 57%|██████████████████████████████████████████████████████████████▌                                               | 2274/3996 [2:50:20<2:01:23,  4.23s/it] 57%|██████████████████████████████████████████████████████████████▋                                               | 2275/3996 [2:50:24<2:01:00,  4.22s/it]                                                                                                                                                           {'loss': 0.4925, 'grad_norm': 0.2056591659784317, 'learning_rate': 8.187688599713333e-05, 'ppl': 1.6364, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4256.41, 'total_tokens': 44393451, 'epoch': 1.71}
+ 57%|██████████████████████████████████████████████████████████████▋                                               | 2275/3996 [2:50:24<2:01:00,  4.22s/it] 57%|██████████████████████████████████████████████████████████████▋                                               | 2276/3996 [2:50:29<2:05:28,  4.38s/it] 57%|██████████████████████████████████████████████████████████████▋                                               | 2277/3996 [2:50:33<2:03:58,  4.33s/it] 57%|██████████████████████████████████████████████████████████████▋                                               | 2278/3996 [2:50:37<2:02:41,  4.29s/it] 57%|██████████████████████████████████████████████████████████████▋                                               | 2279/3996 [2:50:41<2:01:49,  4.26s/it] 57%|██████████████████████████████████████████████████████████████▊                                               | 2280/3996 [2:50:45<2:01:16,  4.24s/it] 57%|██████████████████████████████████████████████████████████████▊                                               | 2281/3996 [2:50:50<2:00:45,  4.23s/it] 57%|██████████████████████████████████████████████████████████████▊                                               | 2282/3996 [2:50:54<2:00:30,  4.22s/it] 57%|██████████████████████████████████████████████████████████████▊                                               | 2283/3996 [2:50:59<2:04:57,  4.38s/it] 57%|██████████████████████████████████████████████████████████████▊                                               | 2284/3996 [2:51:03<2:03:29,  4.33s/it] 57%|██████████████████████████████████████████████████████████████▉                                               | 2285/3996 [2:51:07<2:02:44,  4.30s/it] 57%|██████████████████████████████████████████████████████████████▉                                               | 2286/3996 [2:51:11<2:01:45,  4.27s/it] 57%|██████████████████████████████████████████████████████████████▉                                               | 2287/3996 [2:51:15<2:01:07,  4.25s/it] 57%|██████████████████████████████████████████████████████████████▉                                               | 2288/3996 [2:51:20<2:07:25,  4.48s/it] 57%|███████████████████████████████████████████████████████████████                                               | 2289/3996 [2:51:25<2:05:00,  4.39s/it] 57%|███████████████████████████████████████████████████████████████                                               | 2290/3996 [2:51:29<2:07:52,  4.50s/it] 57%|███████████████████████████████████████████████████████████████                                               | 2291/3996 [2:51:34<2:05:15,  4.41s/it] 57%|███████████████████████████████████████████████████████████████                                               | 2292/3996 [2:51:38<2:03:18,  4.34s/it] 57%|███████████████████████████████████████████████████████████████                                               | 2293/3996 [2:51:42<2:01:51,  4.29s/it] 57%|███████████████████████████████████████████████████████████████▏                                              | 2294/3996 [2:51:46<2:00:54,  4.26s/it] 57%|███████████████████████████████████████████████████████████████▏                                              | 2295/3996 [2:51:50<2:00:11,  4.24s/it] 57%|███████████████████████████████████████████████████████████████▏                                              | 2296/3996 [2:51:54<1:59:44,  4.23s/it] 57%|███████████████████████████████████████████████████████████████▏                                              | 2297/3996 [2:51:59<2:03:55,  4.38s/it] 58%|███████████████████████████████████████████████████████████████▎                                              | 2298/3996 [2:52:03<2:02:16,  4.32s/it] 58%|███████████████████████████████████████████████████████████████▎                                              | 2299/3996 [2:52:08<2:01:00,  4.28s/it] 58%|███████████████████████████████████████████████████████████████▎                                              | 2300/3996 [2:52:12<2:00:14,  4.25s/it]                                                                                                                                                           {'loss': 0.4952, 'grad_norm': 0.19774597883224487, 'learning_rate': 7.989817600952376e-05, 'ppl': 1.6408, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4224.5, 'total_tokens': 44836590, 'epoch': 1.73}
+ 58%|███████████████████████████████████████████████████████████████▎                                              | 2300/3996 [2:52:12<2:00:14,  4.25s/it] 58%|███████████████████████████████████████████████████████████████▎                                              | 2301/3996 [2:52:16<1:59:48,  4.24s/it] 58%|███████████████████████████████████████████████████████████████▎                                              | 2302/3996 [2:52:20<1:59:11,  4.22s/it] 58%|███████████████████████████████████████████████████████████████▍                                              | 2303/3996 [2:52:24<1:59:01,  4.22s/it] 58%|███████████████████████████████████████████████████████████████▍                                              | 2304/3996 [2:52:29<2:03:15,  4.37s/it] 58%|███████████████████████████████████████████████████████████████▍                                              | 2305/3996 [2:52:33<2:01:51,  4.32s/it] 58%|███████████████████████████████████████████████████████████████▍                                              | 2306/3996 [2:52:38<2:02:30,  4.35s/it] 58%|███████████████████████████████████████████████████████████████▌                                              | 2307/3996 [2:52:42<2:01:00,  4.30s/it] 58%|███████████████████████████████████████████████████████████████▌                                              | 2308/3996 [2:52:46<2:00:10,  4.27s/it] 58%|███████████████████████████████████████████████████████████████▌                                              | 2309/3996 [2:52:50<1:59:30,  4.25s/it] 58%|███████████████████████████████████████████████████████████████▌                                              | 2310/3996 [2:52:55<1:59:02,  4.24s/it] 58%|███████████████████████████████████████████████████████████████▌                                              | 2311/3996 [2:52:59<2:03:09,  4.39s/it] 58%|███████████████████████████████████████████████████████████████▋                                              | 2312/3996 [2:53:03<2:01:26,  4.33s/it] 58%|███████████████████████████████████████████████████████████████▋                                              | 2313/3996 [2:53:08<2:00:06,  4.28s/it] 58%|███████████████████████████████████████████████████████████████▋                                              | 2314/3996 [2:53:12<1:59:14,  4.25s/it] 58%|███████████████████████████████████████████████████████████████▋                                              | 2315/3996 [2:53:16<1:58:44,  4.24s/it] 58%|███████████████████████████████████████████████████████████████▊                                              | 2316/3996 [2:53:20<1:58:10,  4.22s/it] 58%|███████████████████████████████████████���███████████████████████▊                                              | 2317/3996 [2:53:24<1:57:55,  4.21s/it] 58%|███████████████████████████████████████████████████████████████▊                                              | 2318/3996 [2:53:29<2:02:11,  4.37s/it] 58%|███████████████████████████████████████████████████████████████▊                                              | 2319/3996 [2:53:33<2:00:37,  4.32s/it] 58%|███████████████████████████████████████████████████████████████▊                                              | 2320/3996 [2:53:37<1:59:22,  4.27s/it] 58%|███████████████████████████████████████████████████████████████▉                                              | 2321/3996 [2:53:42<1:58:39,  4.25s/it] 58%|███████████████████████████████████████████████████████████████▉                                              | 2322/3996 [2:53:46<1:58:06,  4.23s/it] 58%|███████████████████████████████████████████████████████████████▉                                              | 2323/3996 [2:53:50<1:57:39,  4.22s/it] 58%|███████████████████████████████████████████████████████████████▉                                              | 2324/3996 [2:53:54<1:57:25,  4.21s/it] 58%|████████████████████████████████████████████████████████████████                                              | 2325/3996 [2:53:59<2:01:44,  4.37s/it]                                                                                                                                                           {'loss': 0.4977, 'grad_norm': 0.19662383198738098, 'learning_rate': 7.792763490394984e-05, 'ppl': 1.6449, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3741.52, 'total_tokens': 45279799, 'epoch': 1.74}
+ 58%|████████████████████████████████████████████████████████████████                                              | 2325/3996 [2:53:59<2:01:44,  4.37s/it] 58%|████████████████████████████████████████████████████████████████                                              | 2326/3996 [2:54:03<2:00:11,  4.32s/it] 58%|████████████████████████████████████████████████████████████████                                              | 2327/3996 [2:54:07<1:59:00,  4.28s/it] 58%|████████████████████████████████████████████████████████████████                                              | 2328/3996 [2:54:12<1:58:07,  4.25s/it] 58%|████████████████████████████████████████████████████████████████                                              | 2329/3996 [2:54:16<1:57:43,  4.24s/it] 58%|████████████████████████████████████████████████████████████████▏                                             | 2330/3996 [2:54:20<1:57:18,  4.22s/it] 58%|████████████████████████████████████████████████████████████████▏                                             | 2331/3996 [2:54:24<1:57:07,  4.22s/it] 58%|████████████████████████████████████████████████████████████████▏                                             | 2332/3996 [2:54:29<2:01:18,  4.37s/it] 58%|████████████████████████████████████████████████████████████████▏                                             | 2333/3996 [2:54:33<1:59:43,  4.32s/it] 58%|████████████████████████████████████████████████████████████████▏                                             | 2334/3996 [2:54:37<1:58:33,  4.28s/it] 58%|████████████████████████████████████████████████████████████████▎                                             | 2335/3996 [2:54:41<1:57:45,  4.25s/it] 58%|████████████████████████████████████████████████████████████████▎                                             | 2336/3996 [2:54:46<1:57:12,  4.24s/it] 58%|████████████████████████████████████████████████████████████████▎                                             | 2337/3996 [2:54:50<1:56:44,  4.22s/it] 59%|████████████████████████████████████████████████████████████████▎                                             | 2338/3996 [2:54:54<1:56:34,  4.22s/it] 59%|████████████████████████████████████████████████████████████████▍                                             | 2339/3996 [2:54:59<2:00:46,  4.37s/it] 59%|████████████████████████████████████████████████████████████████▍                                             | 2340/3996 [2:55:03<1:59:10,  4.32s/it] 59%|████████████████████████████████████████████████████████████████▍                                             | 2341/3996 [2:55:07<1:57:52,  4.27s/it] 59%|████████████████████████████████████████████████████████████████▍                                             | 2342/3996 [2:55:12<1:59:26,  4.33s/it] 59%|████████████████████████████████████████████████████████████████▍                                             | 2343/3996 [2:55:16<1:58:19,  4.29s/it] 59%|████████████████████████████████████████████████████████████████▌                                             | 2344/3996 [2:55:20<1:57:29,  4.27s/it] 59%|████████████████████████████████████████████████████████████████▌                                             | 2345/3996 [2:55:24<1:56:49,  4.25s/it] 59%|████████████████████████████████████████████████████████████████▌                                             | 2346/3996 [2:55:29<2:00:52,  4.40s/it] 59%|████████████████████████████████████████████████████████████████▌                                             | 2347/3996 [2:55:33<1:59:06,  4.33s/it] 59%|████████████████████████████████████████████████████████████████▋                                             | 2348/3996 [2:55:37<1:57:51,  4.29s/it] 59%|████████████████████████████████████████████████████████████████▋                                             | 2349/3996 [2:55:42<1:56:53,  4.26s/it] 59%|████████████████████████████████████████████████████████████████▋                                             | 2350/3996 [2:55:46<1:56:19,  4.24s/it]                                                                                                                                                           {'loss': 0.4965, 'grad_norm': 0.19400179386138916, 'learning_rate': 7.596606345937812e-05, 'ppl': 1.643, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4248.51, 'total_tokens': 45725602, 'epoch': 1.76}
+ 59%|████████████████████████████████████████████████████████████████▋                                             | 2350/3996 [2:55:46<1:56:19,  4.24s/it] 59%|████████████████████████████████████████████████████████████████▋                                             | 2351/3996 [2:55:50<1:55:42,  4.22s/it] 59%|████████████████████████████████████████████████████████████████▋                                             | 2352/3996 [2:55:54<1:55:30,  4.22s/it] 59%|████████████████████████████████████████████████████████████████▊                                             | 2353/3996 [2:55:59<1:59:45,  4.37s/it] 59%|████████████████████████████████████████████████████████████████▊                                             | 2354/3996 [2:56:03<1:58:09,  4.32s/it] 59%|████████████████████████████████████████████████████████████████▊                                             | 2355/3996 [2:56:07<1:57:02,  4.28s/it] 59%|████████████████████████████████████████████████████████████████▊                                             | 2356/3996 [2:56:11<1:56:06,  4.25s/it] 59%|████████████████████████████████████████████████████████████████▉                                             | 2357/3996 [2:56:16<1:55:36,  4.23s/it] 59%|████████████████████████████████████████████████████████████████▉                                             | 2358/3996 [2:56:20<1:55:07,  4.22s/it] 59%|████████████████████████████████████████████████████████████████▉                                             | 2359/3996 [2:56:24<1:54:58,  4.21s/it] 59%|████████████████████████████████████████████████████████████████▉                                             | 2360/3996 [2:56:29<1:59:08,  4.37s/it] 59%|████████████████████████████████████████████████████████████████▉                                             | 2361/3996 [2:56:33<1:57:36,  4.32s/it] 59%|█████████████████████████████████████████████████████████████████                                             | 2362/3996 [2:56:37<1:56:25,  4.28s/it] 59%|█████████████████████████████████████████████████████████████████                                             | 2363/3996 [2:56:41<1:55:30,  4.24s/it] 59%|█████████████████████████████████████████████████████████████████                                             | 2364/3996 [2:56:45<1:55:12,  4.24s/it] 59%|█████████████████████████████████████████████████████████████████                                             | 2365/3996 [2:56:50<1:54:39,  4.22s/it] 59%|████���████████████████████████████████████████████████████████████▏                                            | 2366/3996 [2:56:54<1:54:31,  4.22s/it] 59%|█████████████████████████████████████████████████████████████████▏                                            | 2367/3996 [2:56:59<1:58:44,  4.37s/it] 59%|█████████████████████████████████████████████████████████████████▏                                            | 2368/3996 [2:57:03<1:57:18,  4.32s/it] 59%|█████████████████████████████████████████████████████████████████▏                                            | 2369/3996 [2:57:07<1:55:59,  4.28s/it] 59%|█████████████████████████████████████████████████████████████████▏                                            | 2370/3996 [2:57:11<1:55:10,  4.25s/it] 59%|█████████████████████████████████████████████████████████████████▎                                            | 2371/3996 [2:57:15<1:54:44,  4.24s/it] 59%|█████████████████████████████████████████████████████████████████▎                                            | 2372/3996 [2:57:20<1:54:13,  4.22s/it] 59%|█████████████████████████████████████████████████████████████████▎                                            | 2373/3996 [2:57:24<1:54:01,  4.22s/it] 59%|█████████████████████████████████████████████████████████████████▎                                            | 2374/3996 [2:57:29<1:58:07,  4.37s/it] 59%|█████████████████████████████████████████████████████████████████▍                                            | 2375/3996 [2:57:33<1:56:38,  4.32s/it]                                                                                                                                                           {'loss': 0.5014, 'grad_norm': 0.20261766016483307, 'learning_rate': 7.401425880972742e-05, 'ppl': 1.651, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4216.2, 'total_tokens': 46167730, 'epoch': 1.78}
+ 59%|█████████████████████████████████████████████████████████████████▍                                            | 2375/3996 [2:57:33<1:56:38,  4.32s/it] 59%|█████████████████████████████████████████████████████████████████▍                                            | 2376/3996 [2:57:37<1:55:32,  4.28s/it] 59%|█████████████████████████████████████████████████████████████████▍                                            | 2377/3996 [2:57:41<1:54:33,  4.25s/it] 60%|█████████████████████████████████████████████████████████████████▍                                            | 2378/3996 [2:57:45<1:54:10,  4.23s/it] 60%|█████████████████████████████████████████████████████████████████▍                                            | 2379/3996 [2:57:49<1:53:45,  4.22s/it] 60%|█████████████████████████████████████████████████████████████████▌                                            | 2380/3996 [2:57:54<1:53:21,  4.21s/it] 60%|████████████████████████���████████████████████████████████████████▌                                            | 2381/3996 [2:57:58<1:57:33,  4.37s/it] 60%|█████████████████████████████████████████████████████████████████▌                                            | 2382/3996 [2:58:03<1:56:02,  4.31s/it] 60%|█████████████████████████████████████████████████████████████████▌                                            | 2383/3996 [2:58:07<1:55:00,  4.28s/it] 60%|█████████████████████████████████████████████████████████████████▋                                            | 2384/3996 [2:58:11<1:54:04,  4.25s/it] 60%|█████████████████████████████████████████████████████████████████▋                                            | 2385/3996 [2:58:15<1:53:40,  4.23s/it] 60%|█████████████████████████████████████████████████████████████████▋                                            | 2386/3996 [2:58:19<1:53:13,  4.22s/it] 60%|█████████████████████████████████████████████████████████████████▋                                            | 2387/3996 [2:58:24<1:52:59,  4.21s/it] 60%|█████████████████████████████████████████████████████████████████▋                                            | 2388/3996 [2:58:28<1:57:07,  4.37s/it] 60%|█████████████████████████████████████████████████████████████████▊                                            | 2389/3996 [2:58:32<1:55:41,  4.32s/it] 60%|█████████████████████████████████████████████████████████████████▊                                            | 2390/3996 [2:58:37<1:54:30,  4.28s/it] 60%|█████████████████████████████████████████████████████████████████▊                                            | 2391/3996 [2:58:41<1:53:38,  4.25s/it] 60%|█████████████████████████████████████████████████████████████████▊                                            | 2392/3996 [2:58:45<1:53:10,  4.23s/it] 60%|█████████████████████████████████████████████████████████████████▊                                            | 2393/3996 [2:58:50<1:55:34,  4.33s/it] 60%|█████████████████████████████████████████████████████████████████▉                                            | 2394/3996 [2:58:54<1:54:34,  4.29s/it] 60%|█████████████████████████████████████████████████████████████████▉                                            | 2395/3996 [2:58:59<1:58:10,  4.43s/it] 60%|█████████████████████████████████████████████████████████████████▉                                            | 2396/3996 [2:59:03<1:58:07,  4.43s/it] 60%|█████████████████████████████████████████████████████████████████▉                                            | 2397/3996 [2:59:07<1:55:57,  4.35s/it] 60%|██████████████████████████████████████████████████████████████████                                            | 2398/3996 [2:59:11<1:54:36,  4.30s/it] 60%|██████████████████████████████████████████████████████████████████                                            | 2399/3996 [2:59:16<1:53:50,  4.28s/it] 60%|██████████████████████████████████████████████████████████████████                                            | 2400/3996 [2:59:20<1:57:36,  4.42s/it]                                                                                                                                                           {'loss': 0.4901, 'grad_norm': 0.20447255671024323, 'learning_rate': 7.207301411993387e-05, 'ppl': 1.6325, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3727.37, 'total_tokens': 46611126, 'epoch': 1.8}
+ 60%|██████████████████████████████████████████████████████████████████                                            | 2400/3996 [2:59:20<1:57:36,  4.42s/it] 60%|██████████████████████████████████████████████████████████████████                                            | 2401/3996 [2:59:24<1:55:41,  4.35s/it] 60%|██████████████████████████████████████████████████████████████████                                            | 2402/3996 [2:59:29<1:58:32,  4.46s/it] 60%|██████████████████████████████████████████████████████████████████▏                                           | 2403/3996 [2:59:33<1:56:15,  4.38s/it] 60%|██████████████████████████████████████████████████████████████████▏                                           | 2404/3996 [2:59:38<1:54:44,  4.32s/it] 60%|██████████████████████████████████████████████████████████████████▏                                           | 2405/3996 [2:59:42<1:53:31,  4.28s/it] 60%|██████████████████████████████████████████████████████████████████▏                                           | 2406/3996 [2:59:46<1:52:48,  4.26s/it] 60%|██████████████████████████████████████████████████████████████████▎                                           | 2407/3996 [2:59:50<1:52:08,  4.23s/it] 60%|██████████████████████████████████████████████████████████████████▎                                           | 2408/3996 [2:59:54<1:51:44,  4.22s/it] 60%|██████████████████████████████████████████████████████████████████▎                                           | 2409/3996 [2:59:59<1:55:42,  4.37s/it] 60%|██████████████████████████████████████████████████████████████████▎                                           | 2410/3996 [3:00:03<1:54:17,  4.32s/it] 60%|██████████████████████████████████████████████████████████████████▎                                           | 2411/3996 [3:00:07<1:53:01,  4.28s/it] 60%|██████████████████████████████████████████████████████████████████▍                                           | 2412/3996 [3:00:12<1:52:17,  4.25s/it] 60%|██████████████████████████████████████████████████████████████████▍                                           | 2413/3996 [3:00:16<1:51:49,  4.24s/it] 60%|███████████████���██████████████████████████████████████████████████▍                                           | 2414/3996 [3:00:20<1:51:19,  4.22s/it] 60%|██████████████████████████████████████████████████████████████████▍                                           | 2415/3996 [3:00:24<1:51:03,  4.21s/it] 60%|██████████████████████████████████████████████████████████████████▌                                           | 2416/3996 [3:00:29<1:55:02,  4.37s/it] 60%|██████████████████████████████████████████████████████████████████▌                                           | 2417/3996 [3:00:33<1:53:37,  4.32s/it] 61%|██████████████████████████████████████████████████████████████████▌                                           | 2418/3996 [3:00:37<1:52:37,  4.28s/it] 61%|██████████████████████████████████████████████████████████████████▌                                           | 2419/3996 [3:00:42<1:51:53,  4.26s/it] 61%|██████████████████████████████████████████████████████████████████▌                                           | 2420/3996 [3:00:46<1:51:23,  4.24s/it] 61%|██████████████████████████████████████████████████████████████████▋                                           | 2421/3996 [3:00:50<1:50:50,  4.22s/it] 61%|██████████████████████████████████████████████████████████████████▋                                           | 2422/3996 [3:00:54<1:50:32,  4.21s/it] 61%|██████████████████████████████████████████████████████████████████▋                                           | 2423/3996 [3:00:59<1:54:36,  4.37s/it] 61%|██████████████████████████████████████████████████████████████████▋                                           | 2424/3996 [3:01:03<1:53:08,  4.32s/it] 61%|██████████████████████████████████████████████████████████████████▊                                           | 2425/3996 [3:01:07<1:52:01,  4.28s/it]                                                                                                                                                           {'loss': 0.4925, 'grad_norm': 0.19921696186065674, 'learning_rate': 7.014311826362804e-05, 'ppl': 1.6364, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4202.19, 'total_tokens': 47050763, 'epoch': 1.82}
+ 61%|██████████████████████████████████████████████████████████████████▊                                           | 2425/3996 [3:01:07<1:52:01,  4.28s/it] 61%|██████████████████████████████████████████████████████████████████▊                                           | 2426/3996 [3:01:11<1:51:10,  4.25s/it] 61%|██████████████████████████████████████████████████████████████████▊                                           | 2427/3996 [3:01:16<1:50:37,  4.23s/it] 61%|██████████████████████████████████████████████████████████████████▊                                           | 2428/3996 [3:01:20<1:50:16,  4.22s/it] 61%|██████████████████████████████████████████████████████████████████▊                                           | 2429/3996 [3:01:24<1:50:01,  4.21s/it] 61%|██████████████████████████████████████████████████████████████████▉                                           | 2430/3996 [3:01:29<1:53:56,  4.37s/it] 61%|██████████████████████████████████████████████████████████████████▉                                           | 2431/3996 [3:01:33<1:52:35,  4.32s/it] 61%|██████████████████████████████████████████████████████████████████▉                                           | 2432/3996 [3:01:37<1:51:30,  4.28s/it] 61%|██████████████████████████████████████████████████████████████████▉                                           | 2433/3996 [3:01:41<1:50:44,  4.25s/it] 61%|███████████████████████████████████████████████████████████████████                                           | 2434/3996 [3:01:46<1:50:20,  4.24s/it] 61%|███████████████████████████████████████████████████████████████████                                           | 2435/3996 [3:01:50<1:49:51,  4.22s/it] 61%|███████████████████████████████████████████████████████████████████                                           | 2436/3996 [3:01:54<1:49:39,  4.22s/it] 61%|███████████████████████████████████████████████████████████████████                                           | 2437/3996 [3:01:59<1:53:40,  4.37s/it] 61%|███████████████████████████████████████████████████████████████████                                           | 2438/3996 [3:02:03<1:52:16,  4.32s/it] 61%|███████████████████████████████████████████████████████████████████▏                                          | 2439/3996 [3:02:07<1:51:02,  4.28s/it] 61%|███████████████████████████████████████████████████████████████████▏                                          | 2440/3996 [3:02:11<1:50:14,  4.25s/it] 61%|███████████████████████████████████████████████████████████████████▏                                          | 2441/3996 [3:02:15<1:49:46,  4.24s/it] 61%|███████████████████████████████████████████████████████████████████▏                                          | 2442/3996 [3:02:20<1:49:22,  4.22s/it] 61%|███████████████████████████████████████████████████████████████████▏                                          | 2443/3996 [3:02:24<1:49:08,  4.22s/it] 61%|███████████████████████████████████████████████████████████████████▎                                          | 2444/3996 [3:02:29<1:53:10,  4.38s/it] 61%|███████████████████████████████████████████████████████████████████▎                                          | 2445/3996 [3:02:33<1:51:50,  4.33s/it] 61%|███████████████████████████████████████████████████████████████████▎                                          | 2446/3996 [3:02:37<1:50:48,  4.29s/it] 61%|███████████████████████████████████████████████████████████████████▎                                          | 2447/3996 [3:02:41<1:49:53,  4.26s/it] 61%|███████████████████████████████████████████████████████████████████▍                                          | 2448/3996 [3:02:45<1:49:22,  4.24s/it] 61%|███████████████████████████████████████████████████████████████████▍                                          | 2449/3996 [3:02:50<1:48:50,  4.22s/it] 61%|███████████████████████████████████████████████████████████████████▍                                          | 2450/3996 [3:02:54<1:48:45,  4.22s/it]                                                                                                                                                           {'loss': 0.494, 'grad_norm': 0.20095540583133698, 'learning_rate': 6.822535550255652e-05, 'ppl': 1.6389, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4230.16, 'total_tokens': 47496926, 'epoch': 1.84}
+ 61%|███████████████████████████████████████████████████████████████████▍                                          | 2450/3996 [3:02:54<1:48:45,  4.22s/it] 61%|███████████████████████████████████████████████████████████████████▍                                          | 2451/3996 [3:02:59<1:53:02,  4.39s/it] 61%|███████████████████████████████████████████████████████████████████▍                                          | 2452/3996 [3:03:03<1:51:29,  4.33s/it] 61%|███████████████████████████████████████████████████████████████████▌                                          | 2453/3996 [3:03:07<1:50:13,  4.29s/it] 61%|███████████████████████████████████████████████████████████████████▌                                          | 2454/3996 [3:03:11<1:49:22,  4.26s/it] 61%|███████████████████████████████████████████████████████████████████▌                                          | 2455/3996 [3:03:15<1:48:52,  4.24s/it] 61%|███████████████████████████████████████████████████████████████████▌                                          | 2456/3996 [3:03:19<1:48:28,  4.23s/it] 61%|███████████████████████████████████████████████████████████████████▋                                          | 2457/3996 [3:03:24<1:48:10,  4.22s/it] 62%|███████████████████████████████████████████████████████████████████▋                                          | 2458/3996 [3:03:28<1:52:05,  4.37s/it] 62%|███████████████████████████████████████████████████████████████████▋                                          | 2459/3996 [3:03:33<1:50:42,  4.32s/it] 62%|███████████████████████████████████████████████████████████████████▋                                          | 2460/3996 [3:03:37<1:49:40,  4.28s/it] 62%|███████████████████████████████████████████████████████████████████▋                                          | 2461/3996 [3:03:41<1:48:47,  4.25s/it] 62%|███████████████████████████████████████████████████████████████████▊                                          | 2462/3996 [3:03:45<1:48:22,  4.24s/it] 62%|███████████████████████████████████████████████████████████████████▊                                          | 2463/3996 [3:03:49<1:47:50,  4.22s/it] 62%|███████████████████████████████████████████████████████████████████▊                                          | 2464/3996 [3:03:54<1:47:36,  4.21s/it] 62%|███████████████████████████████████████████████████████████████████▊                                          | 2465/3996 [3:03:58<1:51:29,  4.37s/it] 62%|███████████████████████████████████████████████████████████████████▉                                          | 2466/3996 [3:04:03<1:50:10,  4.32s/it] 62%|███████████████████████████████████████████████████████████████████▉                                          | 2467/3996 [3:04:07<1:49:02,  4.28s/it] 62%|███████████████████████████████████████████████████████████████████▉                                          | 2468/3996 [3:04:11<1:48:23,  4.26s/it] 62%|███████████████████████████████████████████████████████████████████▉                                          | 2469/3996 [3:04:15<1:49:59,  4.32s/it] 62%|███████████████████████████████████████████████████████████████████▉                                          | 2470/3996 [3:04:20<1:48:53,  4.28s/it] 62%|████████████████████████████████████████████████████████████████████                                          | 2471/3996 [3:04:24<1:48:17,  4.26s/it] 62%|████████████████████████████████████████████████████████████████████                                          | 2472/3996 [3:04:29<1:51:51,  4.40s/it] 62%|████████████████████████████████████████████████████████████████████                                          | 2473/3996 [3:04:33<1:50:14,  4.34s/it] 62%|████████████████████████████████████████████████████████████████████                                          | 2474/3996 [3:04:37<1:49:06,  4.30s/it] 62%|████████████████████████████████████████████████████████████████████▏                                         | 2475/3996 [3:04:41<1:48:05,  4.26s/it]                                                                                                                                                           {'loss': 0.5036, 'grad_norm': 0.20210741460323334, 'learning_rate': 6.632050516787719e-05, 'ppl': 1.6547, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4256.1, 'total_tokens': 47941250, 'epoch': 1.86}
+ 62%|████████████████████████████████████████████████████████████████████▏                                         | 2475/3996 [3:04:41<1:48:05,  4.26s/it] 62%|████████████████████████████████████████████████████████████████████▏                                         | 2476/3996 [3:04:45<1:47:31,  4.24s/it] 62%|████████████████████████████████████████████████████████████████████▏                                         | 2477/3996 [3:04:49<1:47:00,  4.23s/it] 62%|████████████████████████████████████████████████████████████████████▏                                         | 2478/3996 [3:04:54<1:46:40,  4.22s/it] 62%|████████████████████████████████████████████████████████████████████▏                                         | 2479/3996 [3:04:58<1:50:33,  4.37s/it] 62%|████████████████████████████████████████████████████████████████████▎                                         | 2480/3996 [3:05:03<1:49:11,  4.32s/it] 62%|████████████████████████████████████████████████████████████████████▎                                         | 2481/3996 [3:05:07<1:48:02,  4.28s/it] 62%|████████████████████████████████████████████████████████████████████▎                                         | 2482/3996 [3:05:11<1:47:14,  4.25s/it] 62%|████████████████████████████████████████████████████████████████████▎                                         | 2483/3996 [3:05:15<1:46:50,  4.24s/it] 62%|████████████████████████████████████████████████████████████████████▍                                         | 2484/3996 [3:05:19<1:46:29,  4.23s/it] 62%|████████████████████████████████████████████████████████████████████▍                                         | 2485/3996 [3:05:24<1:46:15,  4.22s/it] 62%|████████████████████████████████████████████████████████████████████▍                                         | 2486/3996 [3:05:28<1:51:15,  4.42s/it] 62%|████████████████████████████████████████████████████████████████████▍                                         | 2487/3996 [3:05:33<1:49:31,  4.36s/it] 62%|████████████████████████████████████████████████████████████████████▍                                         | 2488/3996 [3:05:37<1:48:16,  4.31s/it] 62%|████████████████████████████████████████████████████████████████████▌                                         | 2489/3996 [3:05:41<1:47:15,  4.27s/it] 62%|████████████████████████████████████████████████████████████████████▌                                         | 2490/3996 [3:05:45<1:46:38,  4.25s/it] 62%|████████████████████████████████████████████████████████████████████▌                                         | 2491/3996 [3:05:49<1:46:05,  4.23s/it] 62%|████████████████████████████████████████████████████████████████████▌                                         | 2492/3996 [3:05:54<1:45:46,  4.22s/it] 62%|████████████████████████████████████████████████████████████████████▋                                         | 2493/3996 [3:05:58<1:49:32,  4.37s/it] 62%|████████████████████��███████████████████████████████████████████████▋                                         | 2494/3996 [3:06:03<1:48:06,  4.32s/it] 62%|████████████████████████████████████████████████████████████████████▋                                         | 2495/3996 [3:06:07<1:47:06,  4.28s/it] 62%|████████████████████████████████████████████████████████████████████▋                                         | 2496/3996 [3:06:11<1:46:24,  4.26s/it] 62%|████████████████████████████████████████████████████████████████████▋                                         | 2497/3996 [3:06:15<1:45:58,  4.24s/it] 63%|████████████████████████████████████████████████████████████████████▊                                         | 2498/3996 [3:06:19<1:45:28,  4.22s/it] 63%|████████████████████████████████████████████████████████████████████▊                                         | 2499/3996 [3:06:24<1:45:10,  4.22s/it] 63%|████████████████████████████████████████████████████████████████████▊                                         | 2500/3996 [3:06:28<1:49:03,  4.37s/it]                                                                                                                                                           {'loss': 0.5019, 'grad_norm': 0.21025419235229492, 'learning_rate': 6.442934134345871e-05, 'ppl': 1.6519, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3728.09, 'total_tokens': 48383306, 'epoch': 1.88}
+ 63%|████████████████████████████████████████████████████████████████████▊                                         | 2500/3996 [3:06:28<1:49:03,  4.37s/it] 63%|████████████████████████████████████████████████████████████████████▊                                         | 2501/3996 [3:06:32<1:47:40,  4.32s/it] 63%|████████████████████████████████████████████████████████████████████▊                                         | 2502/3996 [3:06:37<1:46:36,  4.28s/it] 63%|████████████████████████████████████████████████████████████████████▉                                         | 2503/3996 [3:06:41<1:45:43,  4.25s/it] 63%|████████████████████████████████████████████████████████████████████▉                                         | 2504/3996 [3:06:45<1:45:20,  4.24s/it] 63%|████████████████████████████████████████████████████████████████████▉                                         | 2505/3996 [3:06:49<1:44:56,  4.22s/it] 63%|████████████████████████████████████████████████████████████████████▉                                         | 2506/3996 [3:06:53<1:44:43,  4.22s/it] 63%|█████████████████████████████████████████████████████████████████████                                         | 2507/3996 [3:06:58<1:48:28,  4.37s/it] 63%|█████████████████████████████████████████████████████████████████████                                         | 2508/3996 [3:07:02<1:47:17,  4.33s/it] 63%|█████████████████████████████████████████████████████████████████████                                         | 2509/3996 [3:07:07<1:46:09,  4.28s/it] 63%|█████████████████████████████████████████████████████████████████████                                         | 2510/3996 [3:07:11<1:45:20,  4.25s/it] 63%|█████████████████████████████████████████████████████████████████████                                         | 2511/3996 [3:07:15<1:44:57,  4.24s/it] 63%|█████████████████████████████████████████████████████████████████████▏                                        | 2512/3996 [3:07:19<1:44:39,  4.23s/it] 63%|█████████████████████████████████████████████████████████████████████▏                                        | 2513/3996 [3:07:23<1:44:18,  4.22s/it] 63%|█████████████████████████████████████████████████████████████████████▏                                        | 2514/3996 [3:07:28<1:48:03,  4.37s/it] 63%|█████████████████████████████████████████████████████████████████████▏                                        | 2515/3996 [3:07:32<1:46:40,  4.32s/it] 63%|█████████████████████████████████████████████████████████████████████▎                                        | 2516/3996 [3:07:37<1:45:38,  4.28s/it] 63%|█████████████████████████████████████████████████████████████████████▎                                        | 2517/3996 [3:07:41<1:44:50,  4.25s/it] 63%|█████████████████████████████████████████████████████████████████████▎                                        | 2518/3996 [3:07:45<1:44:21,  4.24s/it] 63%|█████████████████████████████████████████████████████████████████████▎                                        | 2519/3996 [3:07:49<1:43:57,  4.22s/it] 63%|█████████████████████████████████████████████████████████████████████▎                                        | 2520/3996 [3:07:53<1:43:41,  4.22s/it] 63%|█████████████████████████████████████████████████████████████████████▍                                        | 2521/3996 [3:07:58<1:47:31,  4.37s/it] 63%|█████████████████████████████████████████████████████████████████████▍                                        | 2522/3996 [3:08:02<1:46:04,  4.32s/it] 63%|█████████████████████████████████████████████████████████████████████▍                                        | 2523/3996 [3:08:06<1:45:10,  4.28s/it] 63%|█████████████████████████████████████████████████████████████████████▍                                        | 2524/3996 [3:08:11<1:44:16,  4.25s/it] 63%|█████████████████████████████████████████████████████████████████████▌                                        | 2525/3996 [3:08:15<1:43:49,  4.23s/it]                                                                                                                                                           {'loss': 0.5022, 'grad_norm': 0.20130059123039246, 'learning_rate': 6.255263255131172e-05, 'ppl': 1.6524, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4178.95, 'total_tokens': 48821862, 'epoch': 1.89}
+ 63%|█████████████████████████████████████████████████████████████████████▌                                        | 2525/3996 [3:08:15<1:43:49,  4.23s/it] 63%|█████████████████████████████████████████████████████████████████████▌                                        | 2526/3996 [3:08:19<1:43:27,  4.22s/it] 63%|█████████████████████████████████████████████████████████████████████▌                                        | 2527/3996 [3:08:23<1:43:08,  4.21s/it] 63%|█████████████████████████████████████████████████████████████████████▌                                        | 2528/3996 [3:08:28<1:46:48,  4.37s/it] 63%|█████████████████████████████████████████████████████████████████████▌                                        | 2529/3996 [3:08:32<1:45:29,  4.31s/it] 63%|█████████████████████████████████████████████████████████████████████▋                                        | 2530/3996 [3:08:36<1:44:26,  4.27s/it] 63%|█████████████████████████████████████████████████████████████████████▋                                        | 2531/3996 [3:08:40<1:43:39,  4.25s/it] 63%|█████████████████████████████████████████████████████████████████████▋                                        | 2532/3996 [3:08:45<1:43:15,  4.23s/it] 63%|█████████████████████████████████████████████████████████████████████▋                                        | 2533/3996 [3:08:49<1:43:41,  4.25s/it] 63%|█████████████████████████████████████████████████████████████████████▊                                        | 2534/3996 [3:08:53<1:43:21,  4.24s/it] 63%|█████████████████████████████████████████████████████████████████████▊                                        | 2535/3996 [3:08:58<1:46:58,  4.39s/it] 63%|█████████████████████████████████████████████████████████████████████▊                                        | 2536/3996 [3:09:02<1:45:27,  4.33s/it] 63%|█████████████████████████████████████████████████████████████████████▊                                        | 2537/3996 [3:09:06<1:44:20,  4.29s/it] 64%|█████████████████████████████████████████████████████████████████████▊                                        | 2538/3996 [3:09:10<1:43:24,  4.26s/it] 64%|█████████████████████████████████████████████████████████████████████▉                                        | 2539/3996 [3:09:15<1:43:01,  4.24s/it] 64%|█████████████████████████████████████████████████████████████████████▉                                        | 2540/3996 [3:09:19<1:42:37,  4.23s/it] 64%|█████████████████████████████████████████████████████████████████████▉                                        | 2541/3996 [3:09:23<1:42:18,  4.22s/it] 64%|█████████████████████████████████████████████████████████████████████▉                                        | 2542/3996 [3:09:28<1:46:03,  4.38s/it] 64%|██████████████████████████████████████████████████████████████████████                                        | 2543/3996 [3:09:32<1:45:03,  4.34s/it] 64%|██████████████████████████████████████████████████████████████████████                                        | 2544/3996 [3:09:36<1:43:53,  4.29s/it] 64%|██████████████████████████████████████████████████████████████████████                                        | 2545/3996 [3:09:40<1:43:06,  4.26s/it] 64%|██████████████████████████████████████████████████████████████████████                                        | 2546/3996 [3:09:45<1:42:36,  4.25s/it] 64%|██████████████████████████████████████████████████████████████████████                                        | 2547/3996 [3:09:49<1:42:25,  4.24s/it] 64%|██████████████████████████████████████████████████████████████████████▏                                       | 2548/3996 [3:09:53<1:42:01,  4.23s/it] 64%|██████████████████████████████████████████████████████████████████████▏                                       | 2549/3996 [3:09:58<1:45:39,  4.38s/it] 64%|██████████████████████████████████████████████████████████████████████▏                                       | 2550/3996 [3:10:02<1:45:46,  4.39s/it]                                                                                                                                                           {'loss': 0.4876, 'grad_norm': 0.19601669907569885, 'learning_rate': 6.0691141439280785e-05, 'ppl': 1.6284, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3998.52, 'total_tokens': 49262344, 'epoch': 1.91}
+ 64%|██████████████████████████████████████████████████████████████████████▏                                       | 2550/3996 [3:10:02<1:45:46,  4.39s/it] 64%|██████████████████████████████████████████████████████████████████████▏                                       | 2551/3996 [3:10:06<1:44:12,  4.33s/it] 64%|██████████████████████████████████████████████████████████████████████▎                                       | 2552/3996 [3:10:11<1:43:05,  4.28s/it] 64%|██████████████████████████████████████████████████████████████████████▎                                       | 2553/3996 [3:10:15<1:42:57,  4.28s/it] 64%|██████████████████████████████████████████████████████████████████████▎                                       | 2554/3996 [3:10:19<1:42:19,  4.26s/it] 64%|██████████████████████████████████████████████████████████████████████▎                                       | 2555/3996 [3:10:23<1:41:54,  4.24s/it] 64%|██████████████████████████████████████████████████████████████████████▎                                       | 2556/3996 [3:10:28<1:45:21,  4.39s/it] 64%|██████████████████████████████████████████████████████████████████████▍                                       | 2557/3996 [3:10:32<1:43:56,  4.33s/it] 64%|██████████████████████████████████████████████████████████████████████▍                                       | 2558/3996 [3:10:36<1:42:55,  4.29s/it] 64%|██████████████████████████████████████████████████████████████████████▍                                       | 2559/3996 [3:10:41<1:44:23,  4.36s/it] 64%|██████████████████████████████████████████████████████████████████████▍                                       | 2560/3996 [3:10:45<1:43:19,  4.32s/it] 64%|██████████████████████████████████████████████████████████████████████▍                                       | 2561/3996 [3:10:49<1:42:16,  4.28s/it] 64%|██████████████████████████████████████████████████████████████████████▌                                       | 2562/3996 [3:10:54<1:41:37,  4.25s/it] 64%|██████████████████████████████████████████████████████████████████████▌                                       | 2563/3996 [3:10:58<1:45:00,  4.40s/it] 64%|██████████████████████████████████████████████████████████████████████▌                                       | 2564/3996 [3:11:02<1:43:36,  4.34s/it] 64%|██████████████████████████████████████████████████████████████████████▌                                       | 2565/3996 [3:11:07<1:42:29,  4.30s/it] 64%|██████████████████████████████████████████████████████████████████████▋                                       | 2566/3996 [3:11:11<1:41:38,  4.26s/it] 64%|██████████████████████████████████████████████████████████████████████▋                                       | 2567/3996 [3:11:15<1:41:11,  4.25s/it] 64%|██████████████████████████████████████████████████████████████████████▋                                       | 2568/3996 [3:11:19<1:40:39,  4.23s/it] 64%|██████████████████████████████████████████████████████████████████████▋                                       | 2569/3996 [3:11:23<1:40:23,  4.22s/it] 64%|██████████████████████████████████████████████████████████████████████▋                                       | 2570/3996 [3:11:28<1:43:55,  4.37s/it] 64%|██████████████████████████████████████████████████████████████████████▊                                       | 2571/3996 [3:11:32<1:42:41,  4.32s/it] 64%|██████████████████████████████████████████████████████████████████████▊                                       | 2572/3996 [3:11:37<1:41:42,  4.29s/it] 64%|████���█████████████████████████████████████████████████████████████████▊                                       | 2573/3996 [3:11:41<1:40:55,  4.26s/it] 64%|██████████████████████████████████████████████████████████████████████▊                                       | 2574/3996 [3:11:45<1:40:33,  4.24s/it] 64%|██████████████████████████████████████████████████████████████████████▉                                       | 2575/3996 [3:11:49<1:40:10,  4.23s/it]                                                                                                                                                           {'loss': 0.4796, 'grad_norm': 0.20538586378097534, 'learning_rate': 5.884562447112331e-05, 'ppl': 1.6154, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4192.8, 'total_tokens': 49702209, 'epoch': 1.93}
+ 64%|██████████████████████████████████████████████████████████████████████▉                                       | 2575/3996 [3:11:49<1:40:10,  4.23s/it] 64%|██████████████████████████████████████████████████████████████████████▉                                       | 2576/3996 [3:11:53<1:39:53,  4.22s/it] 64%|██████████████████████████████████████████████████████████████████████▉                                       | 2577/3996 [3:11:58<1:45:06,  4.44s/it] 65%|██████████████████████████████████████████████████████████████████████▉                                       | 2578/3996 [3:12:03<1:43:17,  4.37s/it] 65%|██████████████████████████████████████████████████████████████████████▉                                       | 2579/3996 [3:12:07<1:41:56,  4.32s/it] 65%|███████████████████████████████████████████████████████████████████████                                       | 2580/3996 [3:12:11<1:41:09,  4.29s/it] 65%|███████████████████████████████████████████████████████████████████████                                       | 2581/3996 [3:12:15<1:41:52,  4.32s/it] 65%|███████████████████████████████████████████████████████████████████████                                       | 2582/3996 [3:12:20<1:40:50,  4.28s/it] 65%|███████████████████████████████████████████████████████████████████████                                       | 2583/3996 [3:12:24<1:40:14,  4.26s/it] 65%|███████████████████████████████████████████████████████████████████████▏                                      | 2584/3996 [3:12:29<1:43:49,  4.41s/it] 65%|███████████████████████████████████████████████████████████████████████▏                                      | 2585/3996 [3:12:33<1:42:13,  4.35s/it] 65%|███████████████████████████████████████████████████████████████████████▏                                      | 2586/3996 [3:12:37<1:41:07,  4.30s/it] 65%|███████████████████████████████████████████████████████████████████████▏                                      | 2587/3996 [3:12:41<1:40:19,  4.27s/it] 65%|███████████████████████████████████████████████████████████████████████▏                                      | 2588/3996 [3:12:45<1:39:47,  4.25s/it] 65%|███████████████████████████████████████████████████████████████████████▎                                      | 2589/3996 [3:12:50<1:39:17,  4.23s/it] 65%|███████████████████████████████████████████████████████████████████████▎                                      | 2590/3996 [3:12:54<1:39:03,  4.23s/it] 65%|███████████████████████████████████████████████████████████████████████▎                                      | 2591/3996 [3:12:58<1:42:35,  4.38s/it] 65%|███████████████████████████████████████████████████████████████████████▎                                      | 2592/3996 [3:13:03<1:41:10,  4.32s/it] 65%|███████████████████████████████████████████████████████████████████████▍                                      | 2593/3996 [3:13:07<1:40:11,  4.28s/it] 65%|███████████████████████████████████████████████████████████████████████▍                                      | 2594/3996 [3:13:11<1:39:24,  4.25s/it] 65%|███████████████████████████████████████████████████████████████████████▍                                      | 2595/3996 [3:13:15<1:38:58,  4.24s/it] 65%|███████████████████████████████████████████████████████████████████████▍                                      | 2596/3996 [3:13:19<1:38:37,  4.23s/it] 65%|███████████████████████████████████████████████████████████████████████▍                                      | 2597/3996 [3:13:24<1:38:17,  4.22s/it] 65%|███████████████████████████████████████████████████████████████████████▌                                      | 2598/3996 [3:13:28<1:41:55,  4.37s/it] 65%|███████████████████████████████████████████████████████████████████████▌                                      | 2599/3996 [3:13:33<1:40:40,  4.32s/it] 65%|███████████████████████████████████████████████████████████████████████▌                                      | 2600/3996 [3:13:37<1:39:43,  4.29s/it]                                                                                                                                                           {'loss': 0.5017, 'grad_norm': 0.19957959651947021, 'learning_rate': 5.701683161910115e-05, 'ppl': 1.6515, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4244.94, 'total_tokens': 50147673, 'epoch': 1.95}
+ 65%|███████████████████████████████████████████████████████████████████████▌                                      | 2600/3996 [3:13:37<1:39:43,  4.29s/it] 65%|███████████████████████████████████████████████████████████████████████▌                                      | 2601/3996 [3:13:41<1:38:56,  4.26s/it] 65%|███████████████████████���███████████████████████████████████████████████▋                                      | 2602/3996 [3:13:45<1:38:32,  4.24s/it] 65%|███████████████████████████████████████████████████████████████████████▋                                      | 2603/3996 [3:13:49<1:37:59,  4.22s/it] 65%|███████████████████████████████████████████████████████████████████████▋                                      | 2604/3996 [3:13:54<1:37:45,  4.21s/it] 65%|███████████████████████████████████████████████████████████████████████▋                                      | 2605/3996 [3:13:58<1:41:20,  4.37s/it] 65%|███████████████████████████████████████████████████████████████████████▋                                      | 2606/3996 [3:14:02<1:40:06,  4.32s/it] 65%|███████████████████████████████████████████████████████████████████████▊                                      | 2607/3996 [3:14:07<1:40:40,  4.35s/it] 65%|███████████████████████████████████████████████████████████████████████▊                                      | 2608/3996 [3:14:11<1:39:32,  4.30s/it] 65%|███████████████████████████████████████████████████████████████████████▊                                      | 2609/3996 [3:14:15<1:38:42,  4.27s/it] 65%|███████████████████████████████████████████████████████████████████████▊                                      | 2610/3996 [3:14:20<1:42:46,  4.45s/it] 65%|███████████████████████████████████████████████████████████████████████▊                                      | 2611/3996 [3:14:24<1:41:00,  4.38s/it] 65%|███████████████████████████████████████████████████████████████████████▉                                      | 2612/3996 [3:14:29<1:43:33,  4.49s/it] 65%|███████████████████████████████████████████████████████████████████████▉                                      | 2613/3996 [3:14:33<1:41:32,  4.41s/it] 65%|███████████████████████████████████████████████████████████████████████▉                                      | 2614/3996 [3:14:38<1:40:04,  4.34s/it] 65%|███████████████████████████████████████████████████████████████████████▉                                      | 2615/3996 [3:14:42<1:38:49,  4.29s/it] 65%|████████████████████████████████████████████████████████████████████████                                      | 2616/3996 [3:14:46<1:38:02,  4.26s/it] 65%|████████████████████████████████████████████████████████████████████████                                      | 2617/3996 [3:14:50<1:37:29,  4.24s/it] 66%|████████████████████████████████████████████████████████████████████████                                      | 2618/3996 [3:14:54<1:37:06,  4.23s/it] 66%|████████████████████████████████████████████████████████████████████████                                      | 2619/3996 [3:14:59<1:40:32,  4.38s/it] 66%|████████████████████████████████████████████████████████████████████████                                      | 2620/3996 [3:15:03<1:39:14,  4.33s/it] 66%|████████████████████████████████████████████████████████████████████████▏                                     | 2621/3996 [3:15:07<1:38:05,  4.28s/it] 66%|████████████████████████████████████████████████████████████████████████▏                                     | 2622/3996 [3:15:12<1:37:24,  4.25s/it] 66%|████████████████████████████████████████████████████████████████████████▏                                     | 2623/3996 [3:15:16<1:36:58,  4.24s/it] 66%|████████████████████████████████████████████████████████████████████████▏                                     | 2624/3996 [3:15:20<1:36:34,  4.22s/it] 66%|████████████████████████████████████████████████████████████████████████▎                                     | 2625/3996 [3:15:24<1:36:21,  4.22s/it]                                                                                                                                                           {'loss': 0.5024, 'grad_norm': 0.20284536480903625, 'learning_rate': 5.520550605921091e-05, 'ppl': 1.6527, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4205.45, 'total_tokens': 50589478, 'epoch': 1.97}
+ 66%|████████████████████████████████████████████████████████████████████████▎                                     | 2625/3996 [3:15:24<1:36:21,  4.22s/it] 66%|████████████████████████████████████████████████████████████████████████▎                                     | 2626/3996 [3:15:29<1:39:43,  4.37s/it] 66%|████████████████████████████████████████████████████████████████████████▎                                     | 2627/3996 [3:15:33<1:38:32,  4.32s/it] 66%|████████████████████████████████████████████████████████████████████████▎                                     | 2628/3996 [3:15:37<1:37:33,  4.28s/it] 66%|████████████████████████████████████████████████████████████████████████▎                                     | 2629/3996 [3:15:41<1:36:47,  4.25s/it] 66%|████████████████████████████████████████████████████████████████████████▍                                     | 2630/3996 [3:15:46<1:36:27,  4.24s/it] 66%|████████████████████████████████████████████████████████████████████████▍                                     | 2631/3996 [3:15:50<1:39:14,  4.36s/it] 66%|████████████████████████████████████████████████████████████████████████▍                                     | 2632/3996 [3:15:55<1:38:02,  4.31s/it] 66%|████████████████████████████████████████████████████████████████████████▍                                     | 2633/3996 [3:15:59<1:40:45,  4.44s/it] 66%|████████████████████████████████████████████████████████████████████████▌                                     | 2634/3996 [3:16:03<1:39:04,  4.36s/it] 66%|████████████████████████████████████████████████████████████████████████▌                                     | 2635/3996 [3:16:08<1:37:48,  4.31s/it] 66%|████████████████████████████████████████████████████████████████████████▌                                     | 2636/3996 [3:16:12<1:36:47,  4.27s/it] 66%|████████████████████████████████████████████████████████████████████████▌                                     | 2637/3996 [3:16:16<1:36:16,  4.25s/it] 66%|████████████████████████████████████████████████████████████████████████▌                                     | 2638/3996 [3:16:21<1:38:42,  4.36s/it] 66%|████████████████████████████████████████████████████████████████████████▋                                     | 2639/3996 [3:16:25<1:37:30,  4.31s/it] 66%|████████████████████████████████████████████████████████████████████████▋                                     | 2640/3996 [3:16:30<1:44:53,  4.64s/it] 66%|████████████████████████████████████████████████████████████████████████▋                                     | 2641/3996 [3:16:34<1:41:49,  4.51s/it] 66%|████████████████████████████████████████████████████████████████████████▋                                     | 2642/3996 [3:16:39<1:39:32,  4.41s/it] 66%|████████████████████████████████████████████████████████████████████████▊                                     | 2643/3996 [3:16:43<1:37:53,  4.34s/it] 66%|████████████████████████████████████████████████████████████████████████▊                                     | 2644/3996 [3:16:47<1:36:47,  4.30s/it] 66%|████████████████████████████████████████████████████████████████████████▊                                     | 2645/3996 [3:16:51<1:35:55,  4.26s/it] 66%|████████████████████████████████████████████████████████████████████████▊                                     | 2646/3996 [3:16:55<1:35:22,  4.24s/it] 66%|████████████████████████████████████████████████████████████████████████▊                                     | 2647/3996 [3:17:00<1:38:28,  4.38s/it] 66%|████████████████████████████████████████████████████████████████████████▉                                     | 2648/3996 [3:17:04<1:37:09,  4.32s/it] 66%|████████████████████████████████████████████████████████████████████████▉                                     | 2649/3996 [3:17:08<1:36:13,  4.29s/it] 66%|████████████████████████████████████████████████████████████████████████▉                                     | 2650/3996 [3:17:13<1:35:22,  4.25s/it]                                                                                                                                                           {'loss': 0.4967, 'grad_norm': 0.2044789344072342, 'learning_rate': 5.34123838691753e-05, 'ppl': 1.6433, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4204.9, 'total_tokens': 51027800, 'epoch': 1.99}
+ 66%|████████████████████████████████████████████████████████████████████████▉                                     | 2650/3996 [3:17:13<1:35:22,  4.25s/it] 66%|████████████████████████████████████████████████████████████████████████▉                                     | 2651/3996 [3:17:17<1:34:59,  4.24s/it] 66%|█████████████████████████████████████████████████████████████████████████                                     | 2652/3996 [3:17:21<1:34:34,  4.22s/it] 66%|█████████████████████████████████████████████████████████████████████████                                     | 2653/3996 [3:17:25<1:34:13,  4.21s/it] 66%|█████████████████████████████████████████████████████████████████████████                                     | 2654/3996 [3:17:30<1:37:37,  4.36s/it] 66%|█████████████████████████████████████████████████████████████████████████                                     | 2655/3996 [3:17:34<1:36:25,  4.31s/it] 66%|█████████████████████████████████████████████████████████████████████████                                     | 2656/3996 [3:17:38<1:35:20,  4.27s/it] 66%|█████████████████████████████████████████████████████████████████████████▏                                    | 2657/3996 [3:17:42<1:34:41,  4.24s/it] 67%|█████████████████████████████████████████████████████████████████████████▏                                    | 2658/3996 [3:17:47<1:34:14,  4.23s/it] 67%|█████████████████████████████████████████████████████████████████████████▏                                    | 2659/3996 [3:17:51<1:33:52,  4.21s/it] 67%|█████████████████████████████████████████████████████████████████████████▏                                    | 2660/3996 [3:17:55<1:33:35,  4.20s/it] 67%|█████████████████████████████████████████████████████████████████████████▎                                    | 2661/3996 [3:18:00<1:36:53,  4.35s/it] 67%|█████████████████████████████████████████████████████████████████████████▎                                    | 2662/3996 [3:18:04<1:35:42,  4.30s/it] 67%|█████████████████████████████████████████████████████████████████████████▎                                    | 2663/3996 [3:18:08<1:34:49,  4.27s/it] 67%|█████████████████████████████████████████████████████████████████████████▎                                    | 2664/3996 [3:18:12<1:34:06,  4.24s/it] 67%|████████████���████████████████████████████████████████████████████████████▎                                    | 2665/3996 [3:18:16<1:33:40,  4.22s/it] 67%|█████████████████████████████████████████████████████████████████████████▍                                    | 2666/3996 [3:18:21<1:33:41,  4.23s/it] 67%|█████████████████████████████████████████████████████████████████████████▍                                    | 2667/3996 [3:18:26<1:43:59,  4.69s/it] 67%|█████████████████████████████████████████████████████████████████████████▍                                    | 2668/3996 [3:18:32<1:46:26,  4.81s/it] 67%|█████████████████████████████████████████████████████████████████████████▍                                    | 2669/3996 [3:18:36<1:42:33,  4.64s/it] 67%|█████████████████████████████████████████████████████████████████████████▍                                    | 2670/3996 [3:18:40<1:39:31,  4.50s/it] 67%|█████████████████████████████████████████████████████████████████████████▌                                    | 2671/3996 [3:18:44<1:37:16,  4.41s/it] 67%|█████████████████████████████████████████████████████████████████████████▌                                    | 2672/3996 [3:18:48<1:35:51,  4.34s/it] 67%|█████████████████████████████████████████████████████████████████████████▌                                    | 2673/3996 [3:18:53<1:34:51,  4.30s/it] 67%|█████████████████████████████████████████████████████████████████████████▌                                    | 2674/3996 [3:18:57<1:34:02,  4.27s/it] 67%|█████████████████████████████████████████████████████████████████████████▋                                    | 2675/3996 [3:19:01<1:36:58,  4.40s/it]                                                                                                                                                           {'loss': 0.4862, 'grad_norm': 0.2125943899154663, 'learning_rate': 5.163819372931979e-05, 'ppl': 1.6261, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3745.54, 'total_tokens': 51469941, 'epoch': 2.01}
+ 67%|█████████████████████████████████████████████████████████████████████████▋                                    | 2675/3996 [3:19:01<1:36:58,  4.40s/it] 67%|█████████████████████████████████████████████████████████████████████████▋                                    | 2676/3996 [3:19:06<1:35:32,  4.34s/it] 67%|█████████████████████████████████████████████████████████████████████████▋                                    | 2677/3996 [3:19:10<1:34:26,  4.30s/it] 67%|█████████████████████████████████████████████████████████████████████████▋                                    | 2678/3996 [3:19:14<1:33:37,  4.26s/it] 67%|█████████████████████████████████████████████████████████████████████████▋                                    | 2679/3996 [3:19:18<1:33:05,  4.24s/it] 67%|█████████████████████████████████████████████████████████████████████████▊                                    | 2680/3996 [3:19:23<1:34:09,  4.29s/it] 67%|█████████████████████████████████████████████████████████████████████████▊                                    | 2681/3996 [3:19:27<1:33:22,  4.26s/it] 67%|█████████████████████████████████████████████████████████████████████████▊                                    | 2682/3996 [3:19:32<1:36:26,  4.40s/it] 67%|█████████████████████████████████████████████████████████████████████████▊                                    | 2683/3996 [3:19:36<1:37:39,  4.46s/it] 67%|█████████████████████████████████████████████████████████████████████████▉                                    | 2684/3996 [3:19:40<1:36:05,  4.39s/it] 67%|█████████████████████████████████████████████████████████████████████████▉                                    | 2685/3996 [3:19:45<1:34:43,  4.34s/it] 67%|█████████████████████████████████████████████████████████████████████████▉                                    | 2686/3996 [3:19:49<1:33:50,  4.30s/it] 67%|█████████████████████████████████████████████████████████████████████████▉                                    | 2687/3996 [3:19:53<1:33:13,  4.27s/it] 67%|█████████████████████████████████████████████████████████████████████████▉                                    | 2688/3996 [3:19:57<1:32:43,  4.25s/it] 67%|██████████████████████████████████████████████████████████████████████████                                    | 2689/3996 [3:20:02<1:35:49,  4.40s/it] 67%|██████████████████████████████████████████████████████████████████████████                                    | 2690/3996 [3:20:06<1:34:28,  4.34s/it] 67%|██████████████████████████████████████████████████████████████████████████                                    | 2691/3996 [3:20:10<1:33:32,  4.30s/it] 67%|██████████████████████████████████████████████████████████████████████████                                    | 2692/3996 [3:20:15<1:32:42,  4.27s/it] 67%|██████████████████████████████████████████████████████████████████████████▏                                   | 2693/3996 [3:20:19<1:32:12,  4.25s/it] 67%|██████████████████████████████████████████████████████████████████████████▏                                   | 2694/3996 [3:20:23<1:31:49,  4.23s/it] 67%|██████████████████████████████████████████████████████████████████████████▏                                   | 2695/3996 [3:20:27<1:33:34,  4.32s/it] 67%|██████████████████████████████████████████████████████████████████████████▏                                   | 2696/3996 [3:20:32<1:36:20,  4.45s/it] 67%|██████████████████████████████████████████████████████████████████████████▏                                   | 2697/3996 [3:20:36<1:34:47,  4.38s/it] 68%|██████████████████████████████████████████████████████████████████████████▎                                   | 2698/3996 [3:20:41<1:33:35,  4.33s/it] 68%|██████████████████████████████████████████████████████████████████████████▎                                   | 2699/3996 [3:20:45<1:32:39,  4.29s/it] 68%|██████████████████████████████████████████████████████████████████████████▎                                   | 2700/3996 [3:20:49<1:32:09,  4.27s/it]                                                                                                                                                           {'loss': 0.4782, 'grad_norm': 0.2312517911195755, 'learning_rate': 4.9883656626454724e-05, 'ppl': 1.6132, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4275.5, 'total_tokens': 51921057, 'epoch': 2.03}
+ 68%|██████████████████████████████████████████████████████████████████████████▎                                   | 2700/3996 [3:20:49<1:32:09,  4.27s/it] 68%|██████████████████████████████████████████████████████████████████████████▎                                   | 2701/3996 [3:20:53<1:31:36,  4.24s/it] 68%|██████████████████████████████████████████████████████████████████████████▍                                   | 2702/3996 [3:20:57<1:31:15,  4.23s/it] 68%|██████████████████████████████████████████████████████████████████████████▍                                   | 2703/3996 [3:21:02<1:34:32,  4.39s/it] 68%|██████████████████████████████████████████████████████████████████████████▍                                   | 2704/3996 [3:21:06<1:33:21,  4.34s/it] 68%|██████████████████████████████████████████████████████████████████████████▍                                   | 2705/3996 [3:21:11<1:32:18,  4.29s/it] 68%|██████████████████████████████████████████████████████████████████████████▍                                   | 2706/3996 [3:21:15<1:31:34,  4.26s/it] 68%|██████████████████████████████████████████████████████████████████████████▌                                   | 2707/3996 [3:21:19<1:31:35,  4.26s/it] 68%|██████████████████████████████████████████████████████████████████████████▌                                   | 2708/3996 [3:21:23<1:31:09,  4.25s/it] 68%|██████████████████████████████████████████████████████████████████████████▌                                   | 2709/3996 [3:21:27<1:30:50,  4.24s/it] 68%|███████████████████████████████████████████████████████��██████████████████▌                                   | 2710/3996 [3:21:32<1:34:06,  4.39s/it] 68%|██████████████████████████████████████████████████████████████████████████▋                                   | 2711/3996 [3:21:36<1:32:57,  4.34s/it] 68%|██████████████████████████████████████████████████████████████████████████▋                                   | 2712/3996 [3:21:41<1:32:02,  4.30s/it] 68%|██████████████████████████████████████████████████████████████████████████▋                                   | 2713/3996 [3:21:45<1:31:20,  4.27s/it] 68%|██████████████████████████████████████████████████████████████████████████▋                                   | 2714/3996 [3:21:49<1:30:52,  4.25s/it] 68%|██████████████████████████████████████████████████████████████████████████▋                                   | 2715/3996 [3:21:53<1:30:29,  4.24s/it] 68%|██████████████████████████████████████████████████████████████████████████▊                                   | 2716/3996 [3:21:57<1:30:09,  4.23s/it] 68%|██████████████████████████████████████████████████████████████████████████▊                                   | 2717/3996 [3:22:02<1:33:22,  4.38s/it] 68%|██████████████████████████████████████████████████████████████████████████▊                                   | 2718/3996 [3:22:06<1:32:10,  4.33s/it] 68%|██████████████████████████████████████████████████████████████████████████▊                                   | 2719/3996 [3:22:11<1:31:17,  4.29s/it] 68%|██████████████████████████████████████████████████████████████████████████▊                                   | 2720/3996 [3:22:15<1:30:33,  4.26s/it] 68%|██████████████████████████████████████████████████████████████████████████▉                                   | 2721/3996 [3:22:19<1:31:11,  4.29s/it] 68%|██████████████████████████████████████████████████████████████████████████▉                                   | 2722/3996 [3:22:23<1:30:33,  4.26s/it] 68%|██████████████████████████████████████████████████████████████████████████▉                                   | 2723/3996 [3:22:28<1:30:05,  4.25s/it] 68%|██████████████████████████████████████████████████████████████████████████▉                                   | 2724/3996 [3:22:32<1:33:11,  4.40s/it] 68%|███████████████████████████████████████████████████████████████████████████                                   | 2725/3996 [3:22:37<1:31:56,  4.34s/it]                                                                                                                                                           {'loss': 0.4717, 'grad_norm': 0.19745635986328125, 'learning_rate': 4.81494855608843e-05, 'ppl': 1.6027, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4290.88, 'total_tokens': 52372623, 'epoch': 2.04}
+ 68%|███████████████████████████████████████████████████████████████████████████                                   | 2725/3996 [3:22:37<1:31:56,  4.34s/it] 68%|███████████████████████████████████████████████████████████████████████████                                   | 2726/3996 [3:22:41<1:30:58,  4.30s/it] 68%|███████████████████████████████████████████████████████████████████████████                                   | 2727/3996 [3:22:45<1:30:15,  4.27s/it] 68%|███████████████████████████████████████████████████████████████████████████                                   | 2728/3996 [3:22:49<1:29:48,  4.25s/it] 68%|███████████████████████████████████████████████████████████████████████████                                   | 2729/3996 [3:22:53<1:29:22,  4.23s/it] 68%|███████████████████████████████████████████████████████████████████████████▏                                  | 2730/3996 [3:22:58<1:29:06,  4.22s/it] 68%|███████████████████████████████████████████████████████████████████████████▏                                  | 2731/3996 [3:23:02<1:32:17,  4.38s/it] 68%|███████████████████████████████████████████████████████████████████████████▏                                  | 2732/3996 [3:23:06<1:31:13,  4.33s/it] 68%|███████████████████████████████████████████████████████████████████████████▏                                  | 2733/3996 [3:23:11<1:30:15,  4.29s/it] 68%|███████████████████████████████████████████████████████████████████████████▎                                  | 2734/3996 [3:23:15<1:29:30,  4.26s/it] 68%|███████████████████████████████████████████████████████████████████████████▎                                  | 2735/3996 [3:23:19<1:29:07,  4.24s/it] 68%|███████████████████████████████████████████████████████████████████████████▎                                  | 2736/3996 [3:23:23<1:28:45,  4.23s/it] 68%|███████████████████████████████████████████████████████████████████████████▎                                  | 2737/3996 [3:23:27<1:28:35,  4.22s/it] 69%|███████████████████████████████████████████████████████████████████████████▎                                  | 2738/3996 [3:23:33<1:34:51,  4.52s/it] 69%|███████████████████████████████████████████████████████████████████████████▍                                  | 2739/3996 [3:23:37<1:32:49,  4.43s/it] 69%|███████████████████████████████████████████████████████████████████████████▍                                  | 2740/3996 [3:23:41<1:31:17,  4.36s/it] 69%|██████████████████████████████████████████████��████████████████████████████▍                                  | 2741/3996 [3:23:45<1:30:11,  4.31s/it] 69%|███████████████████████████████████████████████████████████████████████████▍                                  | 2742/3996 [3:23:50<1:29:31,  4.28s/it] 69%|███████████████████████████████████████████████████████████████████████████▌                                  | 2743/3996 [3:23:54<1:28:52,  4.26s/it] 69%|███████████████████████████████████████████████████████████████████████████▌                                  | 2744/3996 [3:23:58<1:28:26,  4.24s/it] 69%|███████████████████████████████████████████████████████████████████████████▌                                  | 2745/3996 [3:24:03<1:31:30,  4.39s/it] 69%|███████████████████████████████████████████████████████████████████████████▌                                  | 2746/3996 [3:24:07<1:30:21,  4.34s/it] 69%|███████████████████████████████████████████████████████████████████████████▌                                  | 2747/3996 [3:24:11<1:29:21,  4.29s/it] 69%|███████████████████████████████████████████████████████████████████████████▋                                  | 2748/3996 [3:24:15<1:28:33,  4.26s/it] 69%|███████████████████████████████████████████████████████████████████████████▋                                  | 2749/3996 [3:24:19<1:28:15,  4.25s/it] 69%|███████████████████████████████████████████████████████████████████████████▋                                  | 2750/3996 [3:24:24<1:27:53,  4.23s/it]                                                                                                                                                           {'loss': 0.4817, 'grad_norm': 0.22817276418209076, 'learning_rate': 4.643638525666095e-05, 'ppl': 1.6188, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4292.31, 'total_tokens': 52823263, 'epoch': 2.06}
+ 69%|███████████████████████████████████████████████████████████████████████████▋                                  | 2750/3996 [3:24:24<1:27:53,  4.23s/it] 69%|███████████████████████████████████████████████████████████████████████████▋                                  | 2751/3996 [3:24:28<1:27:37,  4.22s/it] 69%|███████████████████████████████████████████████████████████████████████████▊                                  | 2752/3996 [3:24:33<1:30:43,  4.38s/it] 69%|███████████████████████████████████████████████████████████████████████████▊                                  | 2753/3996 [3:24:37<1:29:35,  4.32s/it] 69%|███████████████████████████████████████████████████████████████████████████▊                                  | 2754/3996 [3:24:41<1:28:44,  4.29s/it] 69%|███████████████████████████████████████████████████████████████████████████▊                                  | 2755/3996 [3:24:45<1:28:06,  4.26s/it] 69%|███████████████████████████████████████████████████████████████████████████▊                                  | 2756/3996 [3:24:49<1:27:46,  4.25s/it] 69%|███████████████████████████████████████████████████████████████████████████▉                                  | 2757/3996 [3:24:54<1:27:25,  4.23s/it] 69%|███████████████████████████████████████████████████████████████████████████▉                                  | 2758/3996 [3:24:58<1:27:04,  4.22s/it] 69%|███████████████████████████████████████████████████████████████████████████▉                                  | 2759/3996 [3:25:03<1:30:17,  4.38s/it] 69%|███████████████████████████████████████████████████████████████████████████▉                                  | 2760/3996 [3:25:07<1:29:10,  4.33s/it] 69%|████████████████████████████████████████████████████████████████████████████                                  | 2761/3996 [3:25:11<1:28:18,  4.29s/it] 69%|████████████████████████████████████████████████████████████████████████████                                  | 2762/3996 [3:25:15<1:27:34,  4.26s/it] 69%|████████████████████████████████████████████████████████████████████████████                                  | 2763/3996 [3:25:19<1:27:11,  4.24s/it] 69%|████████████████████████████████████████████████████████████████████████████                                  | 2764/3996 [3:25:24<1:26:49,  4.23s/it] 69%|████████████████████████████████████████████████████████████████████████████                                  | 2765/3996 [3:25:28<1:26:33,  4.22s/it] 69%|████████████████████████████████████████████████████████████████████████████▏                                 | 2766/3996 [3:25:32<1:29:39,  4.37s/it] 69%|████████████████████████████████████████████████████████████████████████████▏                                 | 2767/3996 [3:25:37<1:28:34,  4.32s/it] 69%|████████████████████████████████████████████████████████████████████████████▏                                 | 2768/3996 [3:25:41<1:27:40,  4.28s/it] 69%|████████████████████████████████████████████████████████████████████████████▏                                 | 2769/3996 [3:25:45<1:27:04,  4.26s/it] 69%|████████████████████████████████████████████████████████████████████████████▎                                 | 2770/3996 [3:25:49<1:26:41,  4.24s/it] 69%|████████████████████████████████████████████████████████████████████████████▎                                 | 2771/3996 [3:25:53<1:26:13,  4.22s/it] 69%|███████████████████���████████████████████████████████████████████████████████▎                                 | 2772/3996 [3:25:58<1:25:59,  4.22s/it] 69%|████████████████████████████████████████████████████████████████████████████▎                                 | 2773/3996 [3:26:02<1:29:10,  4.38s/it] 69%|████████████████████████████████████████████████████████████████████████████▎                                 | 2774/3996 [3:26:07<1:28:05,  4.33s/it] 69%|████████████████████████████████████████████████████████████████████████████▍                                 | 2775/3996 [3:26:11<1:27:13,  4.29s/it]                                                                                                                                                           {'loss': 0.4774, 'grad_norm': 0.20878754556179047, 'learning_rate': 4.4745051875203134e-05, 'ppl': 1.6119, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4287.12, 'total_tokens': 53272669, 'epoch': 2.08}
+ 69%|████████████████████████████████████████████████████████████████████████████▍                                 | 2775/3996 [3:26:11<1:27:13,  4.29s/it] 69%|████████████████████████████████████████████████████████████████████████████▍                                 | 2776/3996 [3:26:15<1:26:32,  4.26s/it] 69%|████████████████████████████████████████████████████████████████████████████▍                                 | 2777/3996 [3:26:19<1:26:09,  4.24s/it] 70%|████████████████████████████████████████████████████████████████████████████▍                                 | 2778/3996 [3:26:23<1:25:48,  4.23s/it] 70%|████████████████████████████████████████████████████████████████████████████▍                                 | 2779/3996 [3:26:28<1:25:35,  4.22s/it] 70%|████████████████████████████████████████████████████████████████████████████▌                                 | 2780/3996 [3:26:32<1:28:39,  4.37s/it] 70%|████████████████████████████████████████████████████████████████████████████▌                                 | 2781/3996 [3:26:37<1:27:33,  4.32s/it] 70%|████████████████████████████████████████████████████████████████████████████▌                                 | 2782/3996 [3:26:41<1:26:42,  4.29s/it] 70%|████████████████████████████████████████████████████████████████████████████▌                                 | 2783/3996 [3:26:45<1:26:03,  4.26s/it] 70%|████████████████████████████████████████████████████████████████████████████▋                                 | 2784/3996 [3:26:49<1:25:42,  4.24s/it] 70%|████████████████████████████████████████████████████████████████████████████▋                                 | 2785/3996 [3:26:53<1:25:20,  4.23s/it] 70%|████████████████████████���███████████████████████████████████████████████████▋                                 | 2786/3996 [3:26:58<1:25:05,  4.22s/it] 70%|████████████████████████████████████████████████████████████████████████████▋                                 | 2787/3996 [3:27:02<1:28:13,  4.38s/it] 70%|████████████████████████████████████████████████████████████████████████████▋                                 | 2788/3996 [3:27:06<1:27:04,  4.32s/it] 70%|████████████████████████████████████████████████████████████████████████████▊                                 | 2789/3996 [3:27:11<1:26:15,  4.29s/it] 70%|████████████████████████████████████████████████████████████████████████████▊                                 | 2790/3996 [3:27:15<1:25:37,  4.26s/it] 70%|████████████████████████████████████████████████████████████████████████████▊                                 | 2791/3996 [3:27:19<1:25:15,  4.25s/it] 70%|████████████████████████████████████████████████████████████████████████████▊                                 | 2792/3996 [3:27:23<1:24:57,  4.23s/it] 70%|████████████████████████████████████████████████████████████████████████████▉                                 | 2793/3996 [3:27:28<1:27:04,  4.34s/it] 70%|████████████████████████████████████████████████████████████████████████████▉                                 | 2794/3996 [3:27:33<1:29:23,  4.46s/it] 70%|████████████████████████████████████████████████████████████████████████████▉                                 | 2795/3996 [3:27:37<1:27:44,  4.38s/it] 70%|████████████████████████████████████████████████████████████████████████████▉                                 | 2796/3996 [3:27:41<1:26:33,  4.33s/it] 70%|████████████████████████████████████████████████████████████████████████████▉                                 | 2797/3996 [3:27:45<1:25:39,  4.29s/it] 70%|█████████████████████████████████████████████████████████████████████████████                                 | 2798/3996 [3:27:49<1:25:10,  4.27s/it] 70%|█████████████████████████████████████████████████████████████████████████████                                 | 2799/3996 [3:27:54<1:24:38,  4.24s/it] 70%|█████████████████████████████████████████████████████████████████████████████                                 | 2800/3996 [3:27:58<1:24:19,  4.23s/it]                                                                                                                                                           {'loss': 0.4824, 'grad_norm': 0.18676196038722992, 'learning_rate': 4.307617273239226e-05, 'ppl': 1.62, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4304.14, 'total_tokens': 53724750, 'epoch': 2.1}
+ 70%|██████████████████████████████��██████████████████████████████████████████████                                 | 2800/3996 [3:27:58<1:24:19,  4.23s/it] 70%|█████████████████████████████████████████████████████████████████████████████                                 | 2801/3996 [3:28:03<1:27:17,  4.38s/it] 70%|█████████████████████████████████████████████████████████████████████████████▏                                | 2802/3996 [3:28:07<1:26:08,  4.33s/it] 70%|█████████████████████████████████████████████████████████████████████████████▏                                | 2803/3996 [3:28:11<1:25:15,  4.29s/it] 70%|█████████████████████████████████████████████████████████████████████████████▏                                | 2804/3996 [3:28:15<1:24:37,  4.26s/it] 70%|█████████████████████████████████████████████████████████████████████████████▏                                | 2805/3996 [3:28:19<1:24:14,  4.24s/it] 70%|█████████████████████████████████████████████████████████████████████████████▏                                | 2806/3996 [3:28:24<1:24:27,  4.26s/it] 70%|█████████████████████████████████████████████████████████████████████████████▎                                | 2807/3996 [3:28:28<1:24:06,  4.24s/it] 70%|█████████████████████████████████████████████████████████████████████████████▎                                | 2808/3996 [3:28:33<1:27:00,  4.39s/it] 70%|█████████████████████████████████████████████████████████████████████████████▎                                | 2809/3996 [3:28:37<1:25:49,  4.34s/it] 70%|█████████████████████████████████████████████████████████████████████████████▎                                | 2810/3996 [3:28:41<1:24:53,  4.29s/it] 70%|█████████████████████████████████████████████████████████████████████████████▍                                | 2811/3996 [3:28:45<1:24:06,  4.26s/it] 70%|█████████████████████████████████████████████████████████████████████████████▍                                | 2812/3996 [3:28:49<1:23:47,  4.25s/it] 70%|█████████████████████████████████████████████████████████████████████████████▍                                | 2813/3996 [3:28:54<1:23:20,  4.23s/it] 70%|█████████████████████████████████████████████████████████████████████████████▍                                | 2814/3996 [3:28:58<1:23:06,  4.22s/it] 70%|█████████████████████████████████████████████████████████████████████████████▍                                | 2815/3996 [3:29:03<1:26:08,  4.38s/it] 70%|██████████████████████████████████████████████████████████████████████████��██▌                                | 2816/3996 [3:29:07<1:25:00,  4.32s/it] 70%|█████████████████████████████████████████████████████████████████████████████▌                                | 2817/3996 [3:29:11<1:24:13,  4.29s/it] 71%|█████████████████████████████████████████████████████████████████████████████▌                                | 2818/3996 [3:29:15<1:23:31,  4.25s/it] 71%|█████████████████████████████████████████████████████████████████████████████▌                                | 2819/3996 [3:29:19<1:24:10,  4.29s/it] 71%|█████████████████████████████████████████████████████████████████████████████▋                                | 2820/3996 [3:29:24<1:23:34,  4.26s/it] 71%|█████████████████████████████████████████████████████████████████████████████▋                                | 2821/3996 [3:29:28<1:23:11,  4.25s/it] 71%|█████████████████████████████████████████████████████████████████████████████▋                                | 2822/3996 [3:29:33<1:25:59,  4.39s/it] 71%|█████████████████████████████████████████████████████████████████████████████▋                                | 2823/3996 [3:29:37<1:24:46,  4.34s/it] 71%|█████████████████████████████████████████████████████████████████████████████▋                                | 2824/3996 [3:29:41<1:24:12,  4.31s/it] 71%|█████████████████████████████████████████████████████████████████████████████▊                                | 2825/3996 [3:29:45<1:23:23,  4.27s/it]                                                                                                                                                           {'loss': 0.4701, 'grad_norm': 0.20670537650585175, 'learning_rate': 4.1430426019264924e-05, 'ppl': 1.6002, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4283.76, 'total_tokens': 54172957, 'epoch': 2.12}
+ 71%|█████████████████████████████████████████████████████████████████████████████▊                                | 2825/3996 [3:29:45<1:23:23,  4.27s/it] 71%|█████████████████████████████████████████████████████████████████████████████▊                                | 2826/3996 [3:29:49<1:22:58,  4.26s/it] 71%|█████████████████████████████████████████████████████████████████████████████▊                                | 2827/3996 [3:29:54<1:22:29,  4.23s/it] 71%|█████████████████████████████████████████████████████████████████████████████▊                                | 2828/3996 [3:29:58<1:22:12,  4.22s/it] 71%|█████████████████████████████████████████████████████████████████████████████▉                                | 2829/3996 [3:30:03<1:25:52,  4.42s/it] 71%|█████████████████████████████████████████████████████████████████████��███████▉                                | 2830/3996 [3:30:07<1:24:37,  4.35s/it] 71%|█████████████████████████████████████████████████████████████████████████████▉                                | 2831/3996 [3:30:11<1:23:40,  4.31s/it] 71%|█████████████████████████████████████████████████████████████████████████████▉                                | 2832/3996 [3:30:15<1:22:58,  4.28s/it] 71%|█████████████████████████████████████████████████████████████████████████████▉                                | 2833/3996 [3:30:20<1:22:28,  4.26s/it] 71%|██████████████████████████████████████████████████████████████████████████████                                | 2834/3996 [3:30:24<1:22:07,  4.24s/it] 71%|██████████████████████████████████████████████████████████████████████████████                                | 2835/3996 [3:30:28<1:21:49,  4.23s/it] 71%|██████████████████████████████████████████████████████████████████████████████                                | 2836/3996 [3:30:33<1:24:49,  4.39s/it] 71%|██████████████████████████████████████████████████████████████████████████████                                | 2837/3996 [3:30:37<1:23:43,  4.33s/it] 71%|██████████████████████████████████████████████████████████████████████████████                                | 2838/3996 [3:30:41<1:22:51,  4.29s/it] 71%|██████████████████████████████████████████████████████████████████████████████▏                               | 2839/3996 [3:30:45<1:22:10,  4.26s/it] 71%|██████████████████████████████████████████████████████████████████████████████▏                               | 2840/3996 [3:30:50<1:21:48,  4.25s/it] 71%|██████████████████████████████████████████████████████████████████████████████▏                               | 2841/3996 [3:30:54<1:21:29,  4.23s/it] 71%|██████████████████████████████████████████████████████████████████████████████▏                               | 2842/3996 [3:30:58<1:21:15,  4.23s/it] 71%|██████████████████████████████████████████████████████████████████████████████▎                               | 2843/3996 [3:31:03<1:24:13,  4.38s/it] 71%|██████████████████████████████████████████████████████████████████████████████▎                               | 2844/3996 [3:31:07<1:23:06,  4.33s/it] 71%|██████████████████████████████████████████████████████████████████████████████▎                               | 2845/3996 [3:31:11<1:22:18,  4.29s/it] 71%|██████████████████████████████████████████████████████████████████████████████▎                               | 2846/3996 [3:31:15<1:21:40,  4.26s/it] 71%|██████████████████████████████████████████████████████████████████████████████▎                               | 2847/3996 [3:31:20<1:22:46,  4.32s/it] 71%|██████████████████████████████████████████████████████████████████████████████▍                               | 2848/3996 [3:31:24<1:22:03,  4.29s/it] 71%|██████████████████████████████████████████████████████████████████████████████▍                               | 2849/3996 [3:31:28<1:21:31,  4.26s/it] 71%|██████████████████████████████████████████████████████████████████████████████▍                               | 2850/3996 [3:31:33<1:24:33,  4.43s/it]                                                                                                                                                           {'loss': 0.4772, 'grad_norm': 0.21445906162261963, 'learning_rate': 3.980848052641286e-05, 'ppl': 1.6116, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3768.93, 'total_tokens': 54625827, 'epoch': 2.14}
+ 71%|██████████████████████████████████████████████████████████████████████████████▍                               | 2850/3996 [3:31:33<1:24:33,  4.43s/it] 71%|██████████████████████████████████████████████████████████████████████████████▍                               | 2851/3996 [3:31:37<1:23:17,  4.36s/it] 71%|██████████████████████████████████████████████████████████████████████████████▌                               | 2852/3996 [3:31:41<1:22:16,  4.32s/it] 71%|██████████████████████████████████████████████████████████████████████████████▌                               | 2853/3996 [3:31:46<1:21:28,  4.28s/it] 71%|██████████████████████████████████████████████████████████████████████████████▌                               | 2854/3996 [3:31:50<1:20:56,  4.25s/it] 71%|██████████████████████████████████████████████████████████████████████████████▌                               | 2855/3996 [3:31:54<1:20:36,  4.24s/it] 71%|██████████████████████████████████████████████████████████████████████████████▌                               | 2856/3996 [3:31:58<1:20:21,  4.23s/it] 71%|██████████████████████████████████████████████████████████████████████████████▋                               | 2857/3996 [3:32:03<1:23:17,  4.39s/it] 72%|██████████████████████████████████████████████████████████████████████████████▋                               | 2858/3996 [3:32:07<1:22:15,  4.34s/it] 72%|██████████████████████████████████████████████████████████████████████████████▋                               | 2859/3996 [3:32:11<1:21:19,  4.29s/it] 72%|██████████████████████████████████████████████████████████████████████████████▋                               | 2860/3996 [3:32:16<1:20:43,  4.26s/it] 72%|██████████████████████████████████████████████████████████████████████████████▊                               | 2861/3996 [3:32:20<1:20:19,  4.25s/it] 72%|██████████████████████████████████████████████████████████████████████████████▊                               | 2862/3996 [3:32:24<1:20:02,  4.23s/it] 72%|██████████████████████████████████████████████████████████████████████████████▊                               | 2863/3996 [3:32:28<1:19:46,  4.22s/it] 72%|██████████████████████████████████████████████████████████████████████████████▊                               | 2864/3996 [3:32:33<1:22:44,  4.39s/it] 72%|██████████████████████████████████████████████████████████████████████████████▊                               | 2865/3996 [3:32:37<1:21:38,  4.33s/it] 72%|██████████████████████████████████████████████████████████████████████████████▉                               | 2866/3996 [3:32:41<1:20:45,  4.29s/it] 72%|██████████████████████████████████████████████████████████████████████████████▉                               | 2867/3996 [3:32:45<1:20:06,  4.26s/it] 72%|██████████████████████████████████████████████████████████████████████████████▉                               | 2868/3996 [3:32:50<1:19:44,  4.24s/it] 72%|██████████████████████████████████████████████████████████████████████████████▉                               | 2869/3996 [3:32:54<1:19:27,  4.23s/it] 72%|███████████████████████████████████████████████████████████████████████████████                               | 2870/3996 [3:32:58<1:19:09,  4.22s/it] 72%|███████████████████████████████████████████████████████████████████████████████                               | 2871/3996 [3:33:03<1:22:05,  4.38s/it] 72%|███████████████████████████████████████████████████████████████████████████████                               | 2872/3996 [3:33:07<1:21:07,  4.33s/it] 72%|███████████████████████████████████████████████████████████████████████████████                               | 2873/3996 [3:33:11<1:20:19,  4.29s/it] 72%|███████████████████████████████████████████████████████████████████████████████                               | 2874/3996 [3:33:15<1:19:44,  4.26s/it] 72%|███████████████████████████████████████████████████████████████████████████████▏                              | 2875/3996 [3:33:20<1:19:19,  4.25s/it]                                                                                                                                                           {'loss': 0.471, 'grad_norm': 0.21021129190921783, 'learning_rate': 3.8210995372202896e-05, 'ppl': 1.6016, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4286.55, 'total_tokens': 55076031, 'epoch': 2.16}
+ 72%|███████████████████████████████████████████████████████████████████████████████▏                              | 2875/3996 [3:33:20<1:19:19,  4.25s/it] 72%|███████████████████████████████████████████████████████████████████████████████▏                              | 2876/3996 [3:33:24<1:19:02,  4.23s/it] 72%|███████████████████████████████████████████████████████████████████████████████▏                              | 2877/3996 [3:33:28<1:18:49,  4.23s/it] 72%|███████████████████████████████████████████████████████████████████████████████▏                              | 2878/3996 [3:33:33<1:21:41,  4.38s/it] 72%|███████████████████████████████████████████████████████████████████████████████▎                              | 2879/3996 [3:33:37<1:20:38,  4.33s/it] 72%|███████████████████████████████████████████████████████████████████████████████▎                              | 2880/3996 [3:33:41<1:19:53,  4.30s/it] 72%|███████████████████████████████████████████████████████████████████████████████▎                              | 2881/3996 [3:33:45<1:19:14,  4.26s/it] 72%|███████████████████████████████████████████████████████████████████████████████▎                              | 2882/3996 [3:33:50<1:18:50,  4.25s/it] 72%|███████████████████████████████████████████████████████████████████████████████▎                              | 2883/3996 [3:33:54<1:20:11,  4.32s/it] 72%|███████████████████████████████████████████████████████████████████████████████▍                              | 2884/3996 [3:33:58<1:19:21,  4.28s/it] 72%|███████████████████████████████████████████████████████████████████████████████▍                              | 2885/3996 [3:34:03<1:21:52,  4.42s/it] 72%|███████████████████████████████████████████████████████████████████████████████▍                              | 2886/3996 [3:34:07<1:20:46,  4.37s/it] 72%|███████████████████████████████████████████████████████████████████████████████▍                              | 2887/3996 [3:34:12<1:19:47,  4.32s/it] 72%|███████████████████████████████████████████████████████████████████████████████▍                              | 2888/3996 [3:34:16<1:19:03,  4.28s/it] 72%|███████████████████████████████████████████████████████████████████████████████▌                              | 2889/3996 [3:34:20<1:18:36,  4.26s/it] 72%|███████████████████████████████████████████████████████████████████████████████▌                              | 2890/3996 [3:34:24<1:18:12,  4.24s/it] 72%|███████████████████████████████████████████████████████████████████████████████▌                              | 2891/3996 [3:34:28<1:17:58,  4.23s/it] 72%|███████████████████████████████████████████████████████████████████████████████▌                              | 2892/3996 [3:34:33<1:20:39,  4.38s/it] 72%|███████████████████████████████████████████████████████████████████████████████▋                              | 2893/3996 [3:34:37<1:19:34,  4.33s/it] 72%|███████████████████████████████████████████████████████████████████████████████▋                              | 2894/3996 [3:34:41<1:18:48,  4.29s/it] 72%|███████████████████████████████████████████████████████████████████████████████▋                              | 2895/3996 [3:34:46<1:18:14,  4.26s/it] 72%|███████████████████████████████████████████████████████████████████████████████▋                              | 2896/3996 [3:34:50<1:17:54,  4.25s/it] 72%|███████████████████████████████████████████████████████████████████████████████▋                              | 2897/3996 [3:34:54<1:17:32,  4.23s/it] 73%|███████████████████████████████████████████████████████████████████████████████▊                              | 2898/3996 [3:34:58<1:17:12,  4.22s/it] 73%|███████████████████████████████████████████████████████████████████████████████▊                              | 2899/3996 [3:35:03<1:20:02,  4.38s/it] 73%|███████████████████████████████████████████████████████████████████████████████▊                              | 2900/3996 [3:35:07<1:19:03,  4.33s/it]                                                                                                                                                           {'loss': 0.4722, 'grad_norm': 0.23069453239440918, 'learning_rate': 3.663861973492776e-05, 'ppl': 1.6035, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4291.53, 'total_tokens': 55527864, 'epoch': 2.18}
+ 73%|███████████████████████████████████████████████████████████████████████████████▊                              | 2900/3996 [3:35:07<1:19:03,  4.33s/it] 73%|███████████████████████████████████████████████████████████████████████████████▊                              | 2901/3996 [3:35:12<1:19:24,  4.35s/it] 73%|███████████████████████████████████████████████████████████████████████████████▉                              | 2902/3996 [3:35:16<1:18:26,  4.30s/it] 73%|███████████████████████████████████████████████████████████████████████████████▉                              | 2903/3996 [3:35:20<1:17:51,  4.27s/it] 73%|███████████████████████████████████████████████████████████████████████████████▉                              | 2904/3996 [3:35:24<1:17:17,  4.25s/it] 73%|███████████████████████████████████████████████████████████████████████████████▉                              | 2905/3996 [3:35:28<1:17:02,  4.24s/it] 73%|███████████████████████████████████████████████████████████████████████████████▉                              | 2906/3996 [3:35:33<1:19:43,  4.39s/it] 73%|████████████████████████████████████████████████████████████████████████████████                              | 2907/3996 [3:35:37<1:18:39,  4.33s/it] 73%|████████████████████████████████████████████████████████████████████████████████                              | 2908/3996 [3:35:42<1:17:52,  4.29s/it] 73%|████████████████████████████████████████████████████████████████████████████████                              | 2909/3996 [3:35:46<1:17:20,  4.27s/it] 73%|████████████████████████████████████████████████████████████████████████████████                              | 2910/3996 [3:35:50<1:16:54,  4.25s/it] 73%|████████████████████████████████████████████████████████████████████████████████▏                             | 2911/3996 [3:35:54<1:16:33,  4.23s/it] 73%|████████████████████████████████████████████████████████████████████████████████▏                             | 2912/3996 [3:35:58<1:16:18,  4.22s/it] 73%|████████████████████████████████████████████████████████████████████████████████▏                             | 2913/3996 [3:36:03<1:19:01,  4.38s/it] 73%|████████████████████████████████████████████████████████████████████████████████▏                             | 2914/3996 [3:36:07<1:18:00,  4.33s/it] 73%|████████████████████████████████████████████████████████████████████████████████▏                             | 2915/3996 [3:36:12<1:17:13,  4.29s/it] 73%|████████████████████████████████████████████████████████████████████████████████▎                             | 2916/3996 [3:36:16<1:16:36,  4.26s/it] 73%|████████████████████████████████████████████████████████████████████████████████▎                             | 2917/3996 [3:36:20<1:16:12,  4.24s/it] 73%|████████████████████████████████████████████████████████████████████████████████▎                             | 2918/3996 [3:36:24<1:15:57,  4.23s/it] 73%|████████████████████████████████████████████████████████████████████████████████▎                             | 2919/3996 [3:36:28<1:15:44,  4.22s/it] 73%|████████████████████████████████████████████████████████████████████████████████▍                             | 2920/3996 [3:36:33<1:18:33,  4.38s/it] 73%|████████████████████████████████████████████████████████████████████████████████▍                             | 2921/3996 [3:36:37<1:17:30,  4.33s/it] 73%|████████████████████████████████████████████████████████████████████████████████▍                             | 2922/3996 [3:36:41<1:16:49,  4.29s/it] 73%|████████████████████████████████████████████████████████████████████████████████▍                             | 2923/3996 [3:36:46<1:16:13,  4.26s/it] 73%|████████████████████████████████████████████████████████████████████████████████▍                             | 2924/3996 [3:36:50<1:15:50,  4.24s/it] 73%|████████████████████████████████████████████████████████████████████████████████▌                             | 2925/3996 [3:36:54<1:15:34,  4.23s/it]                                                                                                                                                           {'loss': 0.474, 'grad_norm': 0.22328485548496246, 'learning_rate': 3.509199258899603e-05, 'ppl': 1.6064, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4262.17, 'total_tokens': 55976245, 'epoch': 2.19}
+ 73%|████████████████████████████████████████████████████████████████████████████████▌                             | 2925/3996 [3:36:54<1:15:34,  4.23s/it] 73%|████████████████████████████████████████████████████████████████████████████████▌                             | 2926/3996 [3:36:58<1:15:18,  4.22s/it] 73%|████████████████████████████████████████████████████████████████████████████████▌                             | 2927/3996 [3:37:03<1:18:03,  4.38s/it] 73%|████████████████████████████████████████████████████████████████████████████████▌                             | 2928/3996 [3:37:07<1:17:05,  4.33s/it] 73%|████████████████████████████████████████████████████████████████████████████████▋                             | 2929/3996 [3:37:11<1:16:21,  4.29s/it] 73%|████████████████████████████████████████████████████████████████████████████████▋                             | 2930/3996 [3:37:16<1:15:45,  4.26s/it] 73%|████████████████████████████████████████████████████████████████████████████████▋                             | 2931/3996 [3:37:20<1:15:21,  4.25s/it] 73%|████████████████████████████████████████████████████████████████████████████████▋                             | 2932/3996 [3:37:24<1:15:03,  4.23s/it] 73%|████████████████████████████████████████████████████████████████████████████████▋                             | 2933/3996 [3:37:28<1:14:50,  4.22s/it] 73%|████████████████████████████████████████████████████████████████████████████████▊                             | 2934/3996 [3:37:33<1:17:32,  4.38s/it] 73%|████████████████████████████████████████████████████████████████████████████████▊                             | 2935/3996 [3:37:37<1:16:33,  4.33s/it] 73%|████████████████████████████████████████████████████████████████████████████████▊                             | 2936/3996 [3:37:41<1:15:51,  4.29s/it] 73%|████████████████████████████████████████████████████████████████████████████████▊                             | 2937/3996 [3:37:46<1:16:08,  4.31s/it] 74%|████████████████████████████████████████████████████████████████████████████████▉                             | 2938/3996 [3:37:50<1:15:30,  4.28s/it] 74%|████████████████████████████████████████████████████████████████████████████████▉                             | 2939/3996 [3:37:54<1:15:04,  4.26s/it] 74%|████████████████████████████████████████████████████████████████████████████████▉                             | 2940/3996 [3:37:58<1:14:41,  4.24s/it] 74%|████████████████████████████████████████████████████████████████████████████████▉                             | 2941/3996 [3:38:03<1:17:20,  4.40s/it] 74%|████████████████████████████████████████████████████████████████████████████████▉                             | 2942/3996 [3:38:07<1:16:13,  4.34s/it] 74%|█████████████████████████████████████████████████████████████████████████████████                             | 2943/3996 [3:38:12<1:17:42,  4.43s/it] 74%|█████████████████████████████████████████████████████████████████████████████████                             | 2944/3996 [3:38:16<1:16:35,  4.37s/it] 74%|█████████████████████████████████████████████████████████████████████████████████                             | 2945/3996 [3:38:20<1:15:43,  4.32s/it] 74%|█████████████████████████████████████████████████████████████████████████████████                             | 2946/3996 [3:38:25<1:15:01,  4.29s/it] 74%|█████████████████████████████████████████████████████████████████████████████████                             | 2947/3996 [3:38:29<1:14:30,  4.26s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▏                            | 2948/3996 [3:38:34<1:17:00,  4.41s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▏                            | 2949/3996 [3:38:38<1:15:51,  4.35s/it] 74%|█████████████████████████████████████████████████████████████████���███████████████▏                            | 2950/3996 [3:38:42<1:14:56,  4.30s/it]                                                                                                                                                           {'loss': 0.4721, 'grad_norm': 0.20422938466072083, 'learning_rate': 3.3571742445268995e-05, 'ppl': 1.6034, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4339.03, 'total_tokens': 56430293, 'epoch': 2.21}
+ 74%|█████████████████████████████████████████████████████████████████████████████████▏                            | 2950/3996 [3:38:42<1:14:56,  4.30s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▏                            | 2951/3996 [3:38:46<1:14:20,  4.27s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▎                            | 2952/3996 [3:38:50<1:13:56,  4.25s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▎                            | 2953/3996 [3:38:55<1:13:37,  4.23s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▎                            | 2954/3996 [3:38:59<1:13:23,  4.23s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▎                            | 2955/3996 [3:39:04<1:15:58,  4.38s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▎                            | 2956/3996 [3:39:08<1:15:01,  4.33s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▍                            | 2957/3996 [3:39:12<1:14:16,  4.29s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▍                            | 2958/3996 [3:39:16<1:13:42,  4.26s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▍                            | 2959/3996 [3:39:20<1:13:22,  4.25s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▍                            | 2960/3996 [3:39:25<1:13:08,  4.24s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▌                            | 2961/3996 [3:39:29<1:12:56,  4.23s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▌                            | 2962/3996 [3:39:34<1:15:32,  4.38s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▌                            | 2963/3996 [3:39:38<1:14:30,  4.33s/it] 74%|████████████████████���████████████████████████████████████████████████████████████▌                            | 2964/3996 [3:39:42<1:13:44,  4.29s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▌                            | 2965/3996 [3:39:46<1:13:11,  4.26s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▋                            | 2966/3996 [3:39:50<1:12:46,  4.24s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▋                            | 2967/3996 [3:39:55<1:12:32,  4.23s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▋                            | 2968/3996 [3:39:59<1:12:16,  4.22s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▋                            | 2969/3996 [3:40:03<1:14:53,  4.38s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▊                            | 2970/3996 [3:40:08<1:13:57,  4.33s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▊                            | 2971/3996 [3:40:12<1:13:17,  4.29s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▊                            | 2972/3996 [3:40:16<1:12:43,  4.26s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▊                            | 2973/3996 [3:40:20<1:12:21,  4.24s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▊                            | 2974/3996 [3:40:24<1:12:07,  4.23s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▉                            | 2975/3996 [3:40:29<1:11:55,  4.23s/it]                                                                                                                                                           {'loss': 0.4798, 'grad_norm': 0.21462033689022064, 'learning_rate': 3.2078487095649236e-05, 'ppl': 1.6158, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4274.93, 'total_tokens': 56879796, 'epoch': 2.23}
+ 74%|█████████████████████████████████████████████████████████████████████████████████▉                            | 2975/3996 [3:40:29<1:11:55,  4.23s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▉                            | 2976/3996 [3:40:33<1:14:32,  4.38s/it] 74%|█████████████████████████████████████████████████████████████████████████████████▉                            | 2977/3996 [3:40:38<1:13:33,  4.33s/it] 75%|█████████████████████████████████████████████████████████████████████████████████▉                            | 2978/3996 [3:40:42<1:12:50,  4.29s/it] 75%|██████████████████████████████████████████████████████████████████████████████████                            | 2979/3996 [3:40:46<1:12:16,  4.26s/it] 75%|██████████████████████████████████████████████████████████████████████████████████                            | 2980/3996 [3:40:50<1:11:55,  4.25s/it] 75%|██████████████████████████████████████████████████████████████████████████████████                            | 2981/3996 [3:40:54<1:11:36,  4.23s/it] 75%|██████████████████████████████████████████████████████████████████████████████████                            | 2982/3996 [3:40:59<1:11:18,  4.22s/it] 75%|██████████████████████████████████████████████████████████████████████████████████                            | 2983/3996 [3:41:03<1:13:53,  4.38s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▏                           | 2984/3996 [3:41:08<1:13:00,  4.33s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▏                           | 2985/3996 [3:41:12<1:12:18,  4.29s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▏                           | 2986/3996 [3:41:16<1:11:44,  4.26s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▏                           | 2987/3996 [3:41:20<1:11:18,  4.24s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▎                           | 2988/3996 [3:41:24<1:11:04,  4.23s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▎                           | 2989/3996 [3:41:29<1:10:52,  4.22s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▎                           | 2990/3996 [3:41:33<1:13:24,  4.38s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▎                           | 2991/3996 [3:41:38<1:12:26,  4.32s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▎                           | 2992/3996 [3:41:42<1:11:43,  4.29s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▍                           | 2993/3996 [3:41:46<1:11:10,  4.26s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▍                           | 2994/3996 [3:41:50<1:10:48,  4.24s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▍                           | 2995/3996 [3:41:54<1:10:33,  4.23s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▍                           | 2996/3996 [3:41:59<1:10:20,  4.22s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▌                           | 2997/3996 [3:42:03<1:12:56,  4.38s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▌                           | 2998/3996 [3:42:07<1:12:02,  4.33s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▌                           | 2999/3996 [3:42:12<1:11:16,  4.29s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▌                           | 3000/3996 [3:42:16<1:10:44,  4.26s/it]                                                                                                                                                           {'loss': 0.4733, 'grad_norm': 0.21800526976585388, 'learning_rate': 3.061283336202545e-05, 'ppl': 1.6053, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4290.7, 'total_tokens': 57329902, 'epoch': 2.25}
+ 75%|██████████████████████████████████████████████████████████████████████████████████▌                           | 3000/3996 [3:42:16<1:10:44,  4.26s/it][2025-12-29 06:32:01,639] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:3751] Running evaluation step...
+[2025-12-29 06:32:02,487] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.3769509792327881
+[2025-12-29 06:32:02,864] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.37727856636047363
+[2025-12-29 06:32:03,281] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.41676878929138184
+[2025-12-29 06:32:03,705] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:3751] generate_batches time: 0.4234030246734619
+[2025-12-29 06:32:03,706] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:3751] gather_len_batches: [72]
 
-  0%|                                                                                                                               | 0/90 [00:00<?, ?it/s][A
-  2%|██▋                                                                                                                    | 2/90 [00:00<00:36,  2.41it/s][A
-  3%|███▉                                                                                                                   | 3/90 [00:01<00:54,  1.59it/s][A
-  4%|█████▎                                                                                                                 | 4/90 [00:02<01:00,  1.43it/s][A
-  6%|██████▌                                                                                                                | 5/90 [00:03<01:05,  1.29it/s][A
-  7%|███████▉                                                                                                               | 6/90 [00:04<01:06,  1.27it/s][A
-  8%|█████████▎                                                                                                             | 7/90 [00:05<01:08,  1.21it/s][A
-  9%|████��█████▌                                                                                                            | 8/90 [00:06<01:07,  1.22it/s][A
- 10%|███████████▉                                                                                                           | 9/90 [00:06<01:08,  1.18it/s][A
- 11%|█████████████                                                                                                         | 10/90 [00:07<01:06,  1.20it/s][A
- 12%|██████████████▍                                                                                                       | 11/90 [00:08<01:07,  1.17it/s][A
- 13%|███████████████▋                                                                                                      | 12/90 [00:09<01:05,  1.19it/s][A
- 14%|█████████████████                                                                                                     | 13/90 [00:10<01:06,  1.16it/s][A
- 16%|██████████████████▎                                                                                                   | 14/90 [00:11<01:04,  1.18it/s][A
- 17%|███████████████████▋                                                                                                  | 15/90 [00:12<01:04,  1.16it/s][A
- 18%|████████████████████▉                                                                                                 | 16/90 [00:12<01:02,  1.18it/s][A
- 19%|██████████████████████▎                                                                                               | 17/90 [00:13<01:03,  1.16it/s][A
- 20%|███████████████████████▌                                                                                              | 18/90 [00:14<01:01,  1.18it/s][A
- 21%|████████████████████████▉                                                                                             | 19/90 [00:15<01:01,  1.15it/s][A
- 22%|██████████████████████████▏                                                                                           | 20/90 [00:16<00:59,  1.17it/s][A
- 23%|███████████████████████████▌                                                                                          | 21/90 [00:17<00:59,  1.15it/s][A
- 24%|████████████████████████████▊                                                                                         | 22/90 [00:18<00:57,  1.17it/s][A
- 26%|██████████████████████████████▏                                                                                       | 23/90 [00:18<00:57,  1.16it/s][A
- 27%|███████████████████████████████▍                                                                                      | 24/90 [00:19<00:57,  1.14it/s][A
- 28%|████████████████████████████████▊                                                                                     | 25/90 [00:20<01:00,  1.08it/s][A
- 29%|██████████████████████████████████                                                                                    | 26/90 [00:21<00:55,  1.14it/s][A
- 30%|███████████████████████████████████▍                                                                                  | 27/90 [00:22<00:55,  1.14it/s][A
- 31%|████████████████████████████████████▋                                                                                 | 28/90 [00:23<00:53,  1.16it/s][A
- 32%|██████████████████████████████████████                                                                                | 29/90 [00:24<00:53,  1.13it/s][A
- 33%|███████████████████████████████████████▎                                                                              | 30/90 [00:25<00:51,  1.16it/s][A
- 34%|████████████████████████████████████████▋                                                                             | 31/90 [00:26<00:51,  1.14it/s][A
- 36%|████████��████████████████████████████████▉                                                                            | 32/90 [00:26<00:49,  1.16it/s][A
- 37%|███████████████████████████████████████████▎                                                                          | 33/90 [00:27<00:50,  1.13it/s][A
- 38%|████████████████████████████████████████████▌                                                                         | 34/90 [00:28<00:48,  1.16it/s][A
- 39%|█████████████████████████████████████████████▉                                                                        | 35/90 [00:29<00:48,  1.14it/s][A
- 40%|███████████████████████████████████████████████▏                                                                      | 36/90 [00:30<00:46,  1.16it/s][A
- 41%|████████████████████████████████████████████████▌                                                                     | 37/90 [00:31<00:46,  1.14it/s][A
- 42%|█████████████████████████████████████████████████▊                                                                    | 38/90 [00:32<00:44,  1.17it/s][A
- 43%|███████████████████████████████████████████████████▏                                                                  | 39/90 [00:32<00:44,  1.15it/s][A
- 44%|████████████████████████████████████████████████████▍                                                                 | 40/90 [00:33<00:42,  1.17it/s][A
- 46%|█████████████████████████████████████████████████████▊                                                                | 41/90 [00:34<00:42,  1.15it/s][A
- 47%|███████████████████████████████████████████████████████                                                               | 42/90 [00:35<00:41,  1.17it/s][A
- 48%|████████████████████████████████████████████████████████▍                                                             | 43/90 [00:36<00:41,  1.14it/s][A
- 49%|█████████████████████████████████████████████████████████▋                                                            | 44/90 [00:37<00:39,  1.16it/s][A
- 50%|███████████████████████████████████████████████████████████                                                           | 45/90 [00:38<00:39,  1.14it/s][A
- 51%|████████████████████████████████████████████████████████████▎                                                         | 46/90 [00:38<00:37,  1.16it/s][A
- 52%|█████████████████████████████████████████████████████████████▌                                                        | 47/90 [00:39<00:37,  1.15it/s][A
- 53%|██████████████████████████████████████████████████████████████▉                                                       | 48/90 [00:40<00:35,  1.17it/s][A
- 54%|████████████████████████████████████████████████████████████████▏                                                     | 49/90 [00:41<00:35,  1.15it/s][A
- 56%|█████████████████████████████████████████████████████████████████▌                                                    | 50/90 [00:42<00:34,  1.17it/s][A
- 57%|█████████��████████████████████████████████████████████████████████▊                                                   | 51/90 [00:43<00:33,  1.15it/s][A
- 58%|████████████████████████████████████████████████████████████████████▏                                                 | 52/90 [00:44<00:32,  1.18it/s][A
- 59%|█████████████████████████████████████████████████████████████████████▍                                                | 53/90 [00:45<00:31,  1.16it/s][A
- 60%|██████████████████████████████████████████████████████████████████████▊                                               | 54/90 [00:45<00:30,  1.18it/s][A
- 61%|████████████████████████████████████████████████████████████████████████                                              | 55/90 [00:46<00:30,  1.15it/s][A
- 62%|█████████████████████████████████████████████████████████████████████████▍                                            | 56/90 [00:47<00:28,  1.18it/s][A
- 63%|██████████████████████████████████████████████████████████████████████████▋                                           | 57/90 [00:48<00:28,  1.16it/s][A
- 64%|████████████████████████████████████████████████████████████████████████████                                          | 58/90 [00:49<00:27,  1.18it/s][A
- 66%|█████████████████████████████████████████████████████████████████████████████▎                                        | 59/90 [00:50<00:27,  1.15it/s][A
- 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 60/90 [00:51<00:25,  1.17it/s][A
- 68%|███████████████████████████████████████████████████████████████████████████████▉                                      | 61/90 [00:51<00:25,  1.15it/s][A
- 69%|█████████████████████████████████████████████████████████████████████████████████▎                                    | 62/90 [00:52<00:23,  1.17it/s][A
- 70%|██████████████████████████████████████████████████████████████████████████████████▌                                   | 63/90 [00:53<00:23,  1.15it/s][A
- 71%|███████████████████████████████████████████████████████████████████████████████████▉                                  | 64/90 [00:54<00:22,  1.17it/s][A
- 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 65/90 [00:55<00:21,  1.15it/s][A
- 73%|██████████████████████████████████████████████████████████████████████████████████████▌                               | 66/90 [00:56<00:20,  1.17it/s][A
- 74%|███████████████████████████████████��███████████████████████████████████████████████████▊                              | 67/90 [00:57<00:20,  1.14it/s][A
- 76%|█████████████████████████████████████████████████████████████████████████████████████████▏                            | 68/90 [00:57<00:18,  1.16it/s][A
- 77%|██████████████████████████████████████████████████████████████████████████████████████████▍                           | 69/90 [00:58<00:18,  1.15it/s][A
- 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 70/90 [00:59<00:17,  1.17it/s][A
- 79%|█████████████████████████████████████████████████████████████████████████████████████████████                         | 71/90 [01:00<00:16,  1.15it/s][A
- 80%|██████████████████████████████████████████████████████████████████████████████████████████████▍                       | 72/90 [01:01<00:15,  1.17it/s][A
- 81%|███████████████████████████████████████████████████████████████████████████████████████████████▋                      | 73/90 [01:02<00:14,  1.15it/s][A
- 82%|█████████████████████████████████████████████████████████████████████████████████████████████████                     | 74/90 [01:03<00:13,  1.18it/s][A
- 83%|██████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 75/90 [01:03<00:12,  1.15it/s][A
- 84%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                  | 76/90 [01:04<00:11,  1.17it/s][A
- 86%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 77/90 [01:05<00:11,  1.14it/s][A
- 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎               | 78/90 [01:06<00:10,  1.17it/s][A
- 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌              | 79/90 [01:07<00:09,  1.13it/s][A
- 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 80/90 [01:08<00:08,  1.17it/s][A
- 90%|████████████████████████████████████████████████████████████████████████████████████████���█████████████████▏           | 81/90 [01:09<00:08,  1.11it/s][A
- 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 82/90 [01:10<00:06,  1.14it/s][A
- 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 83/90 [01:10<00:06,  1.14it/s][A
- 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 84/90 [01:11<00:05,  1.16it/s][A
- 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 85/90 [01:12<00:04,  1.15it/s][A
- 96%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 86/90 [01:13<00:03,  1.17it/s][A
- 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 87/90 [01:14<00:02,  1.15it/s][A
- 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 88/90 [01:15<00:01,  1.18it/s][A
- 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 89/90 [01:16<00:00,  1.15it/s][A
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:16<00:00,  1.16it/s][A                                                                                                                                                           
-                                                                                                                                                           [A{'eval_loss': 0.5352948904037476, 'eval_runtime': 79.0505, 'eval_samples_per_second': 9.235, 'eval_steps_per_second': 2.315, 'eval_ppl': 1.708, 'memory/max_active (GiB)': 12.83, 'memory/max_allocated (GiB)': 6.85, 'memory/device_reserved (GiB)': 20.25, 'epoch': 0.96}
- 32%|███████████████████████████████████▌                                                                           | 800/2499 [1:36:37<2:57:56,  6.28s/it]
-100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 90/90 [01:17<00:00,  1.16it/s][A
-                                                                                                                                                           [A[2025-12-28 12:42:16,976] [INFO] [axolotl.core.trainers.base._save:692] [PID:42410] Saving model checkpoint to ./outputs/luau-codellama-h200/checkpoint-800
+  0%|                                                                                                                               | 0/72 [00:00<?, ?it/s][A
+  3%|███▎                                                                                                                   | 2/72 [00:01<01:08,  1.02it/s][A
+  4%|████▉                                                                                                                  | 3/72 [00:03<01:34,  1.37s/it][A
+  6%|██████▌                                                                                                                | 4/72 [00:05<01:47,  1.58s/it][A
+  7%|████████▎                                                                                                              | 5/72 [00:07<01:53,  1.70s/it][A
+  8%|█████████▉                                                                                                             | 6/72 [00:09<01:56,  1.77s/it][A
+ 10%|███████████▌                                                                                                           | 7/72 [00:11<01:58,  1.82s/it][A
+ 11%|█████████████▏                                                                                                         | 8/72 [00:13<01:58,  1.85s/it][A
+ 12%|██████████████▉                                                                                                        | 9/72 [00:15<01:57,  1.86s/it][A
+ 14%|████████████████▍                                                                                                     | 10/72 [00:17<01:56,  1.87s/it][A
+ 15%|██████████████████                                                                                                    | 11/72 [00:19<01:54,  1.88s/it][A
+ 17%|███████████████████▋                                                                                                  | 12/72 [00:21<01:53,  1.89s/it][A
+ 18%|█████████████████████▎                                                                                                | 13/72 [00:23<01:52,  1.90s/it][A
+ 19%|██████████████████████▉                                                                                               | 14/72 [00:24<01:50,  1.91s/it][A
+ 21%|████████████████████████▌                                                                                             | 15/72 [00:26<01:48,  1.91s/it][A
+ 22%|██████████████████████████▏                                                                                           | 16/72 [00:28<01:47,  1.92s/it][A
+ 24%|███████████████████████████▊                                                                                          | 17/72 [00:30<01:45,  1.92s/it][A
+ 25%|█████████████████████████████▌                                                                                        | 18/72 [00:32<01:43,  1.92s/it][A
+ 26%|███████████████████████████████▏                                                                                      | 19/72 [00:35<01:50,  2.08s/it][A
+ 28%|████████████████████████████████▊                                                                                     | 20/72 [00:36<01:45,  2.02s/it][A
+ 29%|██████████████████████████████████▍                                                                                   | 21/72 [00:38<01:41,  1.99s/it][A
+ 31%|████████████████████████████████████                                                                                  | 22/72 [00:40<01:38,  1.97s/it][A
+ 32%|█████████████████████████████████████▋                                                                                | 23/72 [00:42<01:35,  1.95s/it][A
+ 33%|███████████████████████████████████████▎                                                                              | 24/72 [00:44<01:33,  1.96s/it][A
+ 35%|████████████████████████████████████████▉                                                                             | 25/72 [00:46<01:31,  1.95s/it][A
+ 36%|██████████████████████████████████████████▌                                                                           | 26/72 [00:48<01:29,  1.94s/it][A
+ 38%|████████████████████████████████████████████▎                                                                         | 27/72 [00:50<01:26,  1.93s/it][A
+ 39%|█████████████████████████████████████████████▉                                                                        | 28/72 [00:52<01:24,  1.93s/it][A
+ 40%|███████████████████████████████████████████████▌                                                                      | 29/72 [00:54<01:22,  1.92s/it][A
+ 42%|█████████████████████████████████████████████████▏                                                                    | 30/72 [00:56<01:20,  1.91s/it][A
+ 43%|██████████████████████████████████████████████████▊                                                                   | 31/72 [00:58<01:18,  1.90s/it][A
+ 44%|████████████████████████████████████████████████████▍                                                                 | 32/72 [00:59<01:16,  1.91s/it][A
+ 46%|██████████████████████████████████████████████████████                                                                | 33/72 [01:01<01:14,  1.91s/it][A
+ 47%|███████████████████████████████████████████████████████▋                                                              | 34/72 [01:03<01:12,  1.91s/it][A
+ 49%|█████████████████████████████████████████████████████████▎                                                            | 35/72 [01:05<01:10,  1.91s/it][A
+ 50%|███████████████████████████████████████████████████████████                                                           | 36/72 [01:07<01:08,  1.92s/it][A
+ 51%|████████████████████████████████████████████████████████████▋                                                         | 37/72 [01:09<01:07,  1.92s/it][A
+ 53%|██████████████████████████████████████████████████████████████▎                                                       | 38/72 [01:11<01:05,  1.92s/it][A
+ 54%|███████████████████████████████████████████████████████████████▉                                                      | 39/72 [01:13<01:03,  1.92s/it][A
+ 56%|█████████████████████████████████████████████████████████████████▌                                                    | 40/72 [01:15<01:02,  1.94s/it][A
+ 57%|███████████████████████████████████████████████████████████████████▏                                                  | 41/72 [01:17<00:59,  1.93s/it][A
+ 58%|████████████████████████████████████████████████████████████████████▊                                                 | 42/72 [01:19<00:57,  1.92s/it][A
+ 60%|██████████████████████████████████████████████████████████████████████▍                                               | 43/72 [01:21<00:55,  1.92s/it][A
+ 61%|████████████████████████████████████████████████████████████���███████████                                              | 44/72 [01:22<00:53,  1.92s/it][A
+ 62%|█████████████████████████████████████████████████████████████████████████▊                                            | 45/72 [01:24<00:51,  1.92s/it][A
+ 64%|███████████████████████████████████████████████████████████████████████████▍                                          | 46/72 [01:26<00:49,  1.92s/it][A
+ 65%|█████████████████████████████████████████████████████████████████████████████                                         | 47/72 [01:28<00:47,  1.92s/it][A
+ 67%|██████████████████████████████████████████████████████████████████████████████▋                                       | 48/72 [01:30<00:46,  1.92s/it][A
+ 68%|████████████████████████████████████████████████████████████████████████████████▎                                     | 49/72 [01:32<00:44,  1.92s/it][A
+ 69%|█████████████████████████████████████████████████████████████████████████████████▉                                    | 50/72 [01:34<00:42,  1.92s/it][A
+ 71%|███████████████████████████████████████████████████████████████████████████████████▌                                  | 51/72 [01:36<00:40,  1.91s/it][A
+ 72%|█████████████████████████████████████████████████████████████████████████████████████▏                                | 52/72 [01:38<00:38,  1.91s/it][A
+ 74%|██████████████████████████████████████████████████████████████████████████████████████▊                               | 53/72 [01:40<00:36,  1.91s/it][A
+ 75%|████████████████████████████████████████████████████████████████████████████████████████▌                             | 54/72 [01:42<00:34,  1.91s/it][A
+ 76%|██████████████████████████████████████████████████████████████████████████████████████████▏                           | 55/72 [01:44<00:32,  1.91s/it][A
+ 78%|███████████████████████████████████████████████████████████████████████████████████████████▊                          | 56/72 [01:45<00:30,  1.92s/it][A
+ 79%|█████████████████████████████████████████████████████████████████████████████████████████████▍                        | 57/72 [01:47<00:28,  1.92s/it][A
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████████                       | 58/72 [01:49<00:26,  1.92s/it][A
+ 82%|████████████████████████████████████████████████████████████████████████████████████████████████▋                     | 59/72 [01:52<00:26,  2.07s/it][A
+ 83%|████���█████████████████████████████████████████████████████████████████████████████████████████████▎                   | 60/72 [01:54<00:24,  2.03s/it][A
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 61/72 [01:56<00:21,  1.99s/it][A
+ 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                | 62/72 [01:57<00:19,  1.96s/it][A
+ 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 63/72 [01:59<00:17,  1.94s/it][A
+ 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 64/72 [02:01<00:15,  1.93s/it][A
+ 90%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 65/72 [02:03<00:13,  1.93s/it][A
+ 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 66/72 [02:05<00:11,  1.93s/it][A
+ 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 67/72 [02:07<00:09,  1.92s/it][A
+ 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 68/72 [02:09<00:07,  1.92s/it][A
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 69/72 [02:11<00:05,  1.92s/it][A
+ 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 70/72 [02:13<00:03,  1.92s/it][A
+ 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 71/72 [02:15<00:01,  1.92s/it][A
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [02:17<00:00,  1.93s/it][A                                                                                                                                                           
+                                                                                                                                                           [A{'eval_loss': 0.49272674322128296, 'eval_runtime': 139.4189, 'eval_samples_per_second': 5.236, 'eval_steps_per_second': 1.047, 'eval_ppl': 1.6368, 'memory/max_active (GiB)': 19.1, 'memory/max_allocated (GiB)': 19.1, 'memory/device_reserved (GiB)': 139.06, 'epoch': 2.25}
+ 75%|██████████████████████████████████████████████████████████████████████████████████▌                           | 3000/3996 [3:44:37<1:10:44,  4.26s/it]
+100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 72/72 [02:17<00:00,  1.93s/it][A
+                                                                                                                                                           [A[2025-12-29 06:34:23,129] [INFO] [axolotl.core.trainers.base._save:692] [PID:3751] Saving model checkpoint to ./outputs/luau-codellama-h200-fast/checkpoint-3000
+ 75%|█████████████████████████████████████████████████████████████████████████████████▊                           | 3001/3996 [3:44:42<12:54:00, 46.67s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▋                           | 3002/3996 [3:44:46<9:22:05, 33.93s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▋                           | 3003/3996 [3:44:50<6:56:39, 25.18s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▋                           | 3004/3996 [3:44:55<5:12:14, 18.89s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▋                           | 3005/3996 [3:44:59<3:59:07, 14.48s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▋                           | 3006/3996 [3:45:03<3:07:57, 11.39s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▊                           | 3007/3996 [3:45:07<2:32:15,  9.24s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▊                           | 3008/3996 [3:45:11<2:07:14,  7.73s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▊                           | 3009/3996 [3:45:16<1:49:41,  6.67s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▊                           | 3010/3996 [3:45:20<1:40:02,  6.09s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▉                           | 3011/3996 [3:45:25<1:30:43,  5.53s/it] 75%|███████████████████████████████████████████████████████��██████████████████████████▉                           | 3012/3996 [3:45:29<1:24:06,  5.13s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▉                           | 3013/3996 [3:45:33<1:19:22,  4.84s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▉                           | 3014/3996 [3:45:37<1:16:07,  4.65s/it] 75%|██████████████████████████████████████████████████████████████████████████████████▉                           | 3015/3996 [3:45:41<1:13:52,  4.52s/it] 75%|███████████████████████████████████████████████████████████████████████████████████                           | 3016/3996 [3:45:46<1:12:16,  4.42s/it] 76%|███████████████████████████████████████████████████████████████████████████████████                           | 3017/3996 [3:45:50<1:13:45,  4.52s/it] 76%|███████████████████████████████████████████████████████████████████████████████████                           | 3018/3996 [3:45:55<1:12:11,  4.43s/it] 76%|███████████████████████████████████████████████████████████████████████████████████                           | 3019/3996 [3:45:59<1:10:58,  4.36s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▏                          | 3020/3996 [3:46:03<1:10:08,  4.31s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▏                          | 3021/3996 [3:46:07<1:09:33,  4.28s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▏                          | 3022/3996 [3:46:11<1:09:04,  4.26s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▏                          | 3023/3996 [3:46:16<1:08:41,  4.24s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▏                          | 3024/3996 [3:46:20<1:11:03,  4.39s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▎                          | 3025/3996 [3:46:24<1:10:02,  4.33s/it]                                                                                                                                                           {'loss': 0.4705, 'grad_norm': 0.23463094234466553, 'learning_rate': 2.9175376849675073e-05, 'ppl': 1.6008, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4276.0, 'total_tokens': 59047769, 'epoch': 2.27}
+ 76%|███████████████████████████████████████████████████████████████████████████████████▎                          | 3025/3996 [3:46:24<1:10:02,  4.33s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▎                          | 3026/3996 [3:46:29<1:09:21,  4.29s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▎                          | 3027/3996 [3:46:33<1:08:45,  4.26s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▎                          | 3028/3996 [3:46:37<1:08:26,  4.24s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▍                          | 3029/3996 [3:46:41<1:08:04,  4.22s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▍                          | 3030/3996 [3:46:45<1:07:51,  4.21s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▍                          | 3031/3996 [3:46:50<1:11:40,  4.46s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▍                          | 3032/3996 [3:46:55<1:10:25,  4.38s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▍                          | 3033/3996 [3:46:59<1:09:25,  4.33s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▌                          | 3034/3996 [3:47:03<1:08:44,  4.29s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▌                          | 3035/3996 [3:47:07<1:08:17,  4.26s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▌                          | 3036/3996 [3:47:11<1:07:53,  4.24s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▌                          | 3037/3996 [3:47:16<1:07:36,  4.23s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▋                          | 3038/3996 [3:47:20<1:10:03,  4.39s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▋                          | 3039/3996 [3:47:25<1:09:09,  4.34s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▋                          | 3040/3996 [3:47:29<1:08:26,  4.30s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▋                          | 3041/3996 [3:47:33<1:07:53,  4.27s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▋                          | 3042/3996 [3:47:37<1:07:31,  4.25s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▊                          | 3043/3996 [3:47:41<1:07:13,  4.23s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▊                          | 3044/3996 [3:47:46<1:06:58,  4.22s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▊                          | 3045/3996 [3:47:50<1:09:18,  4.37s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▊                          | 3046/3996 [3:47:55<1:08:30,  4.33s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▉                          | 3047/3996 [3:47:59<1:07:46,  4.28s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▉                          | 3048/3996 [3:48:03<1:09:20,  4.39s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▉                          | 3049/3996 [3:48:08<1:09:23,  4.40s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▉                          | 3050/3996 [3:48:12<1:08:24,  4.34s/it]                                                                                                                                                           {'loss': 0.4761, 'grad_norm': 0.2144247442483902, 'learning_rate': 2.7766701705225194e-05, 'ppl': 1.6098, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4257.17, 'total_tokens': 59495040, 'epoch': 2.29}
+ 76%|███████████████████████████████████████████████████████████████████████████████████▉                          | 3050/3996 [3:48:12<1:08:24,  4.34s/it] 76%|███████████████████████████████████████████████████████████████████████████████████▉                          | 3051/3996 [3:48:16<1:07:42,  4.30s/it] 76%|████████████████████████████████████████████████████████████████████████████████████                          | 3052/3996 [3:48:21<1:09:42,  4.43s/it] 76%|████████████████████████████████████████████████████████████████████████████████████                          | 3053/3996 [3:48:25<1:08:38,  4.37s/it] 76%|████████████████████████████████████████████████████████████████████████████████████                          | 3054/3996 [3:48:29<1:07:44,  4.31s/it] 76%|██████████████████���█████████████████████████████████████████████████████████████████                          | 3055/3996 [3:48:34<1:07:09,  4.28s/it] 76%|████████████████████████████████████████████████████████████████████████████████████                          | 3056/3996 [3:48:38<1:06:42,  4.26s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▏                         | 3057/3996 [3:48:42<1:06:17,  4.24s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▏                         | 3058/3996 [3:48:46<1:05:59,  4.22s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▏                         | 3059/3996 [3:48:51<1:08:23,  4.38s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▏                         | 3060/3996 [3:48:55<1:07:34,  4.33s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▎                         | 3061/3996 [3:48:59<1:06:48,  4.29s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▎                         | 3062/3996 [3:49:04<1:06:17,  4.26s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▎                         | 3063/3996 [3:49:08<1:06:03,  4.25s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▎                         | 3064/3996 [3:49:12<1:05:46,  4.23s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▎                         | 3065/3996 [3:49:16<1:05:30,  4.22s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▍                         | 3066/3996 [3:49:21<1:09:46,  4.50s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▍                         | 3067/3996 [3:49:25<1:08:21,  4.41s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▍                         | 3068/3996 [3:49:30<1:07:18,  4.35s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▍                         | 3069/3996 [3:49:34<1:06:28,  4.30s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▌                         | 3070/3996 [3:49:38<1:05:59,  4.28s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▌                         | 3071/3996 [3:49:42<1:05:28,  4.25s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▌                         | 3072/3996 [3:49:46<1:05:10,  4.23s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▌                         | 3073/3996 [3:49:51<1:07:32,  4.39s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▌                         | 3074/3996 [3:49:55<1:06:35,  4.33s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▋                         | 3075/3996 [3:50:00<1:05:48,  4.29s/it]                                                                                                                                                           {'loss': 0.4576, 'grad_norm': 0.21562626957893372, 'learning_rate': 2.6387380379269623e-05, 'ppl': 1.5803, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4276.33, 'total_tokens': 59941839, 'epoch': 2.31}
+ 77%|████████████████████████████████████████████████████████████████████████████████████▋                         | 3075/3996 [3:50:00<1:05:48,  4.29s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▋                         | 3076/3996 [3:50:04<1:05:17,  4.26s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▋                         | 3077/3996 [3:50:08<1:04:55,  4.24s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▋                         | 3078/3996 [3:50:12<1:04:39,  4.23s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▊                         | 3079/3996 [3:50:16<1:04:27,  4.22s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▊                         | 3080/3996 [3:50:21<1:06:49,  4.38s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▊                         | 3081/3996 [3:50:25<1:05:59,  4.33s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▊                         | 3082/3996 [3:50:30<1:05:19,  4.29s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▊                         | 3083/3996 [3:50:34<1:04:48,  4.26s/it] 77%|█████████████████████���██████████████████████████████████████████████████████████████▉                         | 3084/3996 [3:50:38<1:04:32,  4.25s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▉                         | 3085/3996 [3:50:42<1:04:15,  4.23s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▉                         | 3086/3996 [3:50:46<1:04:02,  4.22s/it] 77%|████████████████████████████████████████████████████████████████████████████████████▉                         | 3087/3996 [3:50:51<1:06:20,  4.38s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████                         | 3088/3996 [3:50:55<1:05:31,  4.33s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████                         | 3089/3996 [3:51:00<1:04:48,  4.29s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████                         | 3090/3996 [3:51:04<1:04:15,  4.26s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████                         | 3091/3996 [3:51:08<1:03:53,  4.24s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████                         | 3092/3996 [3:51:12<1:03:40,  4.23s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████▏                        | 3093/3996 [3:51:16<1:03:30,  4.22s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████▏                        | 3094/3996 [3:51:21<1:05:43,  4.37s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████▏                        | 3095/3996 [3:51:25<1:04:54,  4.32s/it] 77%|█████████████████████████████████████████████████████████████████████████████████████▏                        | 3096/3996 [3:51:29<1:04:17,  4.29s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▎                        | 3097/3996 [3:51:34<1:03:49,  4.26s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▎                        | 3098/3996 [3:51:38<1:03:29,  4.24s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▎                        | 3099/3996 [3:51:42<1:03:13,  4.23s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▎                        | 3100/3996 [3:51:46<1:03:03,  4.22s/it]                                                                                                                                                           {'loss': 0.4578, 'grad_norm': 0.2173856496810913, 'learning_rate': 2.5037973393739433e-05, 'ppl': 1.5806, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4284.31, 'total_tokens': 60392267, 'epoch': 2.33}
+ 78%|█████████████████████████████████████████████████████████████████████████████████████▎                        | 3100/3996 [3:51:46<1:03:03,  4.22s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▎                        | 3101/3996 [3:51:51<1:05:21,  4.38s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▍                        | 3102/3996 [3:51:55<1:04:29,  4.33s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▍                        | 3103/3996 [3:51:59<1:03:49,  4.29s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▍                        | 3104/3996 [3:52:04<1:03:18,  4.26s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▍                        | 3105/3996 [3:52:08<1:03:01,  4.24s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▌                        | 3106/3996 [3:52:12<1:02:43,  4.23s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▌                        | 3107/3996 [3:52:16<1:02:33,  4.22s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▌                        | 3108/3996 [3:52:21<1:04:46,  4.38s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▌                        | 3109/3996 [3:52:25<1:03:51,  4.32s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▌                        | 3110/3996 [3:52:29<1:03:15,  4.28s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▋                        | 3111/3996 [3:52:34<1:02:51,  4.26s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▋                        | 3112/3996 [3:52:38<1:02:33,  4.25s/it] 78%|█████████���███████████████████████████████████████████████████████████████████████████▋                        | 3113/3996 [3:52:42<1:02:15,  4.23s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▋                        | 3114/3996 [3:52:46<1:02:02,  4.22s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▋                        | 3115/3996 [3:52:51<1:04:19,  4.38s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▊                        | 3116/3996 [3:52:55<1:03:30,  4.33s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▊                        | 3117/3996 [3:52:59<1:02:50,  4.29s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▊                        | 3118/3996 [3:53:03<1:02:19,  4.26s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▊                        | 3119/3996 [3:53:08<1:02:03,  4.25s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▉                        | 3120/3996 [3:53:12<1:01:47,  4.23s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▉                        | 3121/3996 [3:53:16<1:03:14,  4.34s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▉                        | 3122/3996 [3:53:21<1:04:58,  4.46s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▉                        | 3123/3996 [3:53:25<1:03:44,  4.38s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████▉                        | 3124/3996 [3:53:30<1:02:49,  4.32s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████                        | 3125/3996 [3:53:34<1:02:07,  4.28s/it]                                                                                                                                                           {'loss': 0.4652, 'grad_norm': 0.21864096820354462, 'learning_rate': 2.3719029114120716e-05, 'ppl': 1.5923, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4250.05, 'total_tokens': 60836393, 'epoch': 2.34}
+ 78%|██████████████████████████████████████████████████████████████████████████████████████                        | 3125/3996 [3:53:34<1:02:07,  4.28s/it] 78%|█████████████████████████████████��████████████████████████████████████████████████████                        | 3126/3996 [3:53:38<1:01:43,  4.26s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████                        | 3127/3996 [3:53:42<1:01:23,  4.24s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████                        | 3128/3996 [3:53:46<1:01:07,  4.23s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████▏                       | 3129/3996 [3:53:51<1:03:17,  4.38s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████▏                       | 3130/3996 [3:53:55<1:02:29,  4.33s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████▏                       | 3131/3996 [3:54:00<1:01:49,  4.29s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████▏                       | 3132/3996 [3:54:04<1:01:15,  4.25s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████▏                       | 3133/3996 [3:54:08<1:01:01,  4.24s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████▎                       | 3134/3996 [3:54:12<1:00:45,  4.23s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████▎                       | 3135/3996 [3:54:16<1:00:31,  4.22s/it] 78%|██████████████████████████████████████████████████████████████████████████████████████▎                       | 3136/3996 [3:54:21<1:02:41,  4.37s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▎                       | 3137/3996 [3:54:25<1:01:56,  4.33s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▍                       | 3138/3996 [3:54:29<1:01:24,  4.29s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▍                       | 3139/3996 [3:54:34<1:00:55,  4.27s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▍                       | 3140/3996 [3:54:38<1:00:37,  4.25s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▍                       | 3141/3996 [3:54:42<1:00:18,  4.23s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▍                       | 3142/3996 [3:54:46<1:00:07,  4.22s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▌                       | 3143/3996 [3:54:51<1:02:15,  4.38s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▌                       | 3144/3996 [3:54:55<1:01:30,  4.33s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▌                       | 3145/3996 [3:54:59<1:00:51,  4.29s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▌                       | 3146/3996 [3:55:04<1:00:20,  4.26s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▋                       | 3147/3996 [3:55:08<1:00:00,  4.24s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▏                       | 3148/3996 [3:55:12<59:44,  4.23s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▎                       | 3149/3996 [3:55:16<59:34,  4.22s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▋                       | 3150/3996 [3:55:21<1:01:39,  4.37s/it]                                                                                                                                                           {'loss': 0.4721, 'grad_norm': 0.22768662869930267, 'learning_rate': 2.2431083526612373e-05, 'ppl': 1.6034, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3777.63, 'total_tokens': 61282878, 'epoch': 2.36}
+ 79%|██████████████████████████████████████████████████████████████████████████████████████▋                       | 3150/3996 [3:55:21<1:01:39,  4.37s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▋                       | 3151/3996 [3:55:25<1:00:54,  4.33s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▊                       | 3152/3996 [3:55:29<1:00:15,  4.28s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▎                       | 3153/3996 [3:55:34<59:48,  4.26s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▍                       | 3154/3996 [3:55:38<59:33,  4.24s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▍                       | 3155/3996 [3:55:42<59:16,  4.23s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▍                       | 3156/3996 [3:55:46<59:04,  4.22s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▉                       | 3157/3996 [3:55:51<1:01:12,  4.38s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████▉                       | 3158/3996 [3:55:55<1:00:23,  4.32s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▌                       | 3159/3996 [3:55:59<59:46,  4.29s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▌                       | 3160/3996 [3:56:03<59:19,  4.26s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▌                       | 3161/3996 [3:56:08<59:03,  4.24s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▌                       | 3162/3996 [3:56:12<58:48,  4.23s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▋                       | 3163/3996 [3:56:16<58:37,  4.22s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████                       | 3164/3996 [3:56:21<1:00:39,  4.37s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▋                       | 3165/3996 [3:56:25<59:52,  4.32s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▋                       | 3166/3996 [3:56:29<59:16,  4.29s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▊                       | 3167/3996 [3:56:33<58:51,  4.26s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▊                       | 3168/3996 [3:56:38<58:36,  4.25s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▊                       | 3169/3996 [3:56:42<58:18,  4.23s/it] 79%|████████████████████████████████��███████████████████████████████████████████████████████▊                       | 3170/3996 [3:56:46<58:08,  4.22s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████▎                      | 3171/3996 [3:56:51<1:00:12,  4.38s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▉                       | 3172/3996 [3:56:55<59:26,  4.33s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▉                       | 3173/3996 [3:56:59<58:50,  4.29s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▉                       | 3174/3996 [3:57:03<58:22,  4.26s/it] 79%|████████████████████████████████████████████████████████████████████████████████████████▉                       | 3175/3996 [3:57:08<58:00,  4.24s/it]                                                                                                                                                           {'loss': 0.486, 'grad_norm': 0.20161285996437073, 'learning_rate': 2.1174660020314696e-05, 'ppl': 1.6258, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4279.7, 'total_tokens': 61731262, 'epoch': 2.38}
+ 79%|████████████████████████████████████████████████████████████████████████████████████████▉                       | 3175/3996 [3:57:08<58:00,  4.24s/it] 79%|█████████████████████████████████████████████████████████████████████████████████████████                       | 3176/3996 [3:57:12<57:47,  4.23s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████                       | 3177/3996 [3:57:16<57:38,  4.22s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████                       | 3178/3996 [3:57:21<59:38,  4.37s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████                       | 3179/3996 [3:57:25<58:54,  4.33s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▏                      | 3180/3996 [3:57:29<58:15,  4.28s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▏                      | 3181/3996 [3:57:33<57:46,  4.25s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▏                      | 3182/3996 [3:57:37<57:28,  4.24s/it] 80%|████████████████████████████���████████████████████████████████████████████████████████████▏                      | 3183/3996 [3:57:42<57:14,  4.22s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▏                      | 3184/3996 [3:57:46<57:00,  4.21s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▎                      | 3185/3996 [3:57:51<59:06,  4.37s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▎                      | 3186/3996 [3:57:55<58:45,  4.35s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▎                      | 3187/3996 [3:57:59<58:04,  4.31s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▎                      | 3188/3996 [3:58:03<57:33,  4.27s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▍                      | 3189/3996 [3:58:08<57:14,  4.26s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▍                      | 3190/3996 [3:58:12<56:57,  4.24s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▍                      | 3191/3996 [3:58:16<56:45,  4.23s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▍                      | 3192/3996 [3:58:21<58:42,  4.38s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▍                      | 3193/3996 [3:58:25<57:57,  4.33s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▌                      | 3194/3996 [3:58:29<57:21,  4.29s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▌                      | 3195/3996 [3:58:33<56:55,  4.26s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▌                      | 3196/3996 [3:58:37<56:37,  4.25s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▌                      | 3197/3996 [3:58:42<56:46,  4.26s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▋                      | 3198/3996 [3:58:46<56:25,  4.24s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▋                      | 3199/3996 [3:58:51<58:22,  4.40s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▋                      | 3200/3996 [3:58:55<57:36,  4.34s/it]                                                                                                                                                           {'loss': 0.4822, 'grad_norm': 0.2132490575313568, 'learning_rate': 1.9950269174537007e-05, 'ppl': 1.6196, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4245.52, 'total_tokens': 62179118, 'epoch': 2.4}
+ 80%|█████████████████████████████████████████████████████████████████████████████████████████▋                      | 3200/3996 [3:58:55<57:36,  4.34s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▋                      | 3201/3996 [3:58:59<56:59,  4.30s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▋                      | 3202/3996 [3:59:03<56:30,  4.27s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▊                      | 3203/3996 [3:59:08<56:10,  4.25s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▊                      | 3204/3996 [3:59:12<55:55,  4.24s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▊                      | 3205/3996 [3:59:16<55:44,  4.23s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▊                      | 3206/3996 [3:59:21<57:40,  4.38s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▉                      | 3207/3996 [3:59:25<56:59,  4.33s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▉                      | 3208/3996 [3:59:29<56:35,  4.31s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▉                      | 3209/3996 [3:59:33<56:07,  4.28s/it] 80%|█████████████████████████████████████████████████████████████████████████████████████████▉                      | 3210/3996 [3:59:38<57:04,  4.36s/it] 80%|██████████████████████████████████████████��██████████████████████████████████████████████▉                      | 3211/3996 [3:59:43<58:04,  4.44s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████                      | 3212/3996 [3:59:47<57:03,  4.37s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████                      | 3213/3996 [3:59:52<58:32,  4.49s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████                      | 3214/3996 [3:59:56<57:24,  4.40s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████                      | 3215/3996 [4:00:00<56:30,  4.34s/it] 80%|██████████████████████████████████████████████████████████████████████████████████████████▏                     | 3216/3996 [4:00:04<55:50,  4.30s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▏                     | 3217/3996 [4:00:08<55:26,  4.27s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▏                     | 3218/3996 [4:00:13<55:02,  4.25s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▏                     | 3219/3996 [4:00:17<54:47,  4.23s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▎                     | 3220/3996 [4:00:21<56:41,  4.38s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▎                     | 3221/3996 [4:00:26<55:58,  4.33s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▎                     | 3222/3996 [4:00:30<55:25,  4.30s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▎                     | 3223/3996 [4:00:34<54:57,  4.27s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▎                     | 3224/3996 [4:00:38<54:38,  4.25s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▍                     | 3225/3996 [4:00:42<54:23,  4.23s/it]                                                                                                                                                           {'loss': 0.49, 'grad_norm': 0.24689531326293945, 'learning_rate': 1.8758408551311047e-05, 'ppl': 1.6323, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4237.8, 'total_tokens': 62624159, 'epoch': 2.42}
+ 81%|██████████████████████████████████████████████████████████████████████████████████████████▍                     | 3225/3996 [4:00:42<54:23,  4.23s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▍                     | 3226/3996 [4:00:47<54:12,  4.22s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▍                     | 3227/3996 [4:00:51<56:07,  4.38s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▍                     | 3228/3996 [4:00:56<55:23,  4.33s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▌                     | 3229/3996 [4:01:00<56:01,  4.38s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▌                     | 3230/3996 [4:01:04<55:12,  4.32s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▌                     | 3231/3996 [4:01:09<54:38,  4.29s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▌                     | 3232/3996 [4:01:13<54:15,  4.26s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▌                     | 3233/3996 [4:01:17<53:54,  4.24s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▋                     | 3234/3996 [4:01:22<56:03,  4.41s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▋                     | 3235/3996 [4:01:26<55:14,  4.36s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▋                     | 3236/3996 [4:01:30<55:17,  4.37s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▋                     | 3237/3996 [4:01:35<54:51,  4.34s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▊                     | 3238/3996 [4:01:39<54:16,  4.30s/it] 81%|█████████████████████████████████████████���████████████████████████████████████████████████▊                     | 3239/3996 [4:01:43<54:05,  4.29s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▊                     | 3240/3996 [4:01:47<53:48,  4.27s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▊                     | 3241/3996 [4:01:52<55:34,  4.42s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▊                     | 3242/3996 [4:01:56<54:46,  4.36s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▉                     | 3243/3996 [4:02:01<54:06,  4.31s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▉                     | 3244/3996 [4:02:05<53:36,  4.28s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▉                     | 3245/3996 [4:02:09<53:17,  4.26s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████▉                     | 3246/3996 [4:02:13<53:01,  4.24s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████                     | 3247/3996 [4:02:17<52:47,  4.23s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████                     | 3248/3996 [4:02:22<54:35,  4.38s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████                     | 3249/3996 [4:02:26<53:54,  4.33s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████                     | 3250/3996 [4:02:30<53:23,  4.29s/it]                                                                                                                                                           {'loss': 0.4654, 'grad_norm': 0.2103738784790039, 'learning_rate': 1.7599562493193867e-05, 'ppl': 1.5927, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4234.16, 'total_tokens': 63069936, 'epoch': 2.44}
+ 81%|███████████████████████████████████████████████████████████████████████████████████████████                     | 3250/3996 [4:02:30<53:23,  4.29s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████                     | 3251/3996 [4:02:35<52:58,  4.27s/it] 81%|███████████████████���███████████████████████████████████████████████████████████████████████▏                    | 3252/3996 [4:02:39<52:39,  4.25s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▏                    | 3253/3996 [4:02:43<52:26,  4.23s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▏                    | 3254/3996 [4:02:47<52:12,  4.22s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▏                    | 3255/3996 [4:02:52<54:02,  4.38s/it] 81%|███████████████████████████████████████████████████████████████████████████████████████████▎                    | 3256/3996 [4:02:56<53:20,  4.33s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▎                    | 3257/3996 [4:03:00<52:46,  4.28s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▎                    | 3258/3996 [4:03:05<52:19,  4.25s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▎                    | 3259/3996 [4:03:09<52:02,  4.24s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▎                    | 3260/3996 [4:03:13<51:49,  4.23s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▍                    | 3261/3996 [4:03:18<53:18,  4.35s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▍                    | 3262/3996 [4:03:22<54:41,  4.47s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▍                    | 3263/3996 [4:03:27<55:45,  4.56s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▍                    | 3264/3996 [4:03:31<54:22,  4.46s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▌                    | 3265/3996 [4:03:36<53:16,  4.37s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▌                    | 3266/3996 [4:03:40<52:37,  4.33s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▌                    | 3267/3996 [4:03:44<52:03,  4.29s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▌                    | 3268/3996 [4:03:48<51:42,  4.26s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▌                    | 3269/3996 [4:03:53<53:20,  4.40s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▋                    | 3270/3996 [4:03:57<52:33,  4.34s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▋                    | 3271/3996 [4:04:01<51:56,  4.30s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▋                    | 3272/3996 [4:04:05<51:27,  4.26s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▋                    | 3273/3996 [4:04:10<51:07,  4.24s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 3274/3996 [4:04:14<50:53,  4.23s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 3275/3996 [4:04:18<50:46,  4.23s/it]                                                                                                                                                           {'loss': 0.4575, 'grad_norm': 0.2107544094324112, 'learning_rate': 1.6474201926443267e-05, 'ppl': 1.5801, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4198.5, 'total_tokens': 63512282, 'epoch': 2.46}
+ 82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 3275/3996 [4:04:18<50:46,  4.23s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 3276/3996 [4:04:23<52:31,  4.38s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▊                    | 3277/3996 [4:04:27<51:51,  4.33s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▉                    | 3278/3996 [4:04:31<51:20,  4.29s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▉                    | 3279/3996 [4:04:35<50:52,  4.26s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▉                    | 3280/3996 [4:04:40<50:36,  4.24s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▉                    | 3281/3996 [4:04:44<50:44,  4.26s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████▉                    | 3282/3996 [4:04:48<50:27,  4.24s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████                    | 3283/3996 [4:04:53<52:11,  4.39s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████                    | 3284/3996 [4:04:57<51:27,  4.34s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████                    | 3285/3996 [4:05:01<50:52,  4.29s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████                    | 3286/3996 [4:05:05<50:27,  4.26s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▏                   | 3287/3996 [4:05:10<50:11,  4.25s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▏                   | 3288/3996 [4:05:14<49:58,  4.24s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▏                   | 3289/3996 [4:05:18<49:43,  4.22s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▏                   | 3290/3996 [4:05:23<51:55,  4.41s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▏                   | 3291/3996 [4:05:27<51:22,  4.37s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▎                   | 3292/3996 [4:05:31<50:51,  4.33s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▎                   | 3293/3996 [4:05:36<50:27,  4.31s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▎                   | 3294/3996 [4:05:40<50:04,  4.28s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▎                   | 3295/3996 [4:05:44<49:54,  4.27s/it] 82%|████████████████████████████████████████████████████████████████████████████████████████████▍                   | 3296/3996 [4:05:48<49:34,  4.25s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▍                   | 3297/3996 [4:05:53<51:11,  4.39s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▍                   | 3298/3996 [4:05:57<50:28,  4.34s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▍                   | 3299/3996 [4:06:01<49:53,  4.30s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▍                   | 3300/3996 [4:06:06<49:27,  4.26s/it]                                                                                                                                                           {'loss': 0.4654, 'grad_norm': 0.211527019739151, 'learning_rate': 1.5382784169644925e-05, 'ppl': 1.5927, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4266.77, 'total_tokens': 63959153, 'epoch': 2.48}
+ 83%|████████████████████████████████████████████████████████████████████████████████████████████▍                   | 3300/3996 [4:06:06<49:27,  4.26s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▌                   | 3301/3996 [4:06:10<49:39,  4.29s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▌                   | 3302/3996 [4:06:14<49:19,  4.26s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▌                   | 3303/3996 [4:06:18<48:59,  4.24s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▌                   | 3304/3996 [4:06:23<50:35,  4.39s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▋                   | 3305/3996 [4:06:27<49:51,  4.33s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▋                   | 3306/3996 [4:06:32<49:18,  4.29s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▋                   | 3307/3996 [4:06:36<48:52,  4.26s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▋                   | 3308/3996 [4:06:40<48:38,  4.24s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▋                   | 3309/3996 [4:06:44<48:24,  4.23s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▊                   | 3310/3996 [4:06:48<48:11,  4.21s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▊                   | 3311/3996 [4:06:53<49:53,  4.37s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▊                   | 3312/3996 [4:06:57<49:13,  4.32s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▊                   | 3313/3996 [4:07:01<48:42,  4.28s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▉                   | 3314/3996 [4:07:06<48:18,  4.25s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▉                   | 3315/3996 [4:07:10<48:03,  4.23s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▉                   | 3316/3996 [4:07:14<47:50,  4.22s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▉                   | 3317/3996 [4:07:18<47:39,  4.21s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████▉                   | 3318/3996 [4:07:23<49:21,  4.37s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████                   | 3319/3996 [4:07:27<48:43,  4.32s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████                   | 3320/3996 [4:07:31<48:12,  4.28s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████                   | 3321/3996 [4:07:35<47:50,  4.25s/it] 83%|██████████████████████████████████████████████████████████████████��██████████████████████████                   | 3322/3996 [4:07:40<47:34,  4.24s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▏                  | 3323/3996 [4:07:44<47:20,  4.22s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▏                  | 3324/3996 [4:07:48<48:29,  4.33s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▏                  | 3325/3996 [4:07:53<49:42,  4.44s/it]                                                                                                                                                           {'loss': 0.4601, 'grad_norm': 0.22054381668567657, 'learning_rate': 1.4325752747869626e-05, 'ppl': 1.5842, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3810.76, 'total_tokens': 64408084, 'epoch': 2.49}
+ 83%|█████████████████████████████████████████████████████████████████████████████████████████████▏                  | 3325/3996 [4:07:53<49:42,  4.44s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▏                  | 3326/3996 [4:07:57<48:48,  4.37s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▏                  | 3327/3996 [4:08:02<48:03,  4.31s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                  | 3328/3996 [4:08:06<47:34,  4.27s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                  | 3329/3996 [4:08:10<47:13,  4.25s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                  | 3330/3996 [4:08:14<47:01,  4.24s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▎                  | 3331/3996 [4:08:18<46:48,  4.22s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▍                  | 3332/3996 [4:08:23<48:22,  4.37s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▍                  | 3333/3996 [4:08:27<47:44,  4.32s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▍                  | 3334/3996 [4:08:31<47:14,  4.28s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▍                  | 3335/3996 [4:08:36<46:47,  4.25s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████████████▌                  | 3336/3996 [4:08:40<46:27,  4.22s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▌                  | 3337/3996 [4:08:44<47:41,  4.34s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▌                  | 3338/3996 [4:08:49<47:07,  4.30s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▌                  | 3339/3996 [4:08:53<48:26,  4.42s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▌                  | 3340/3996 [4:08:57<47:35,  4.35s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▋                  | 3341/3996 [4:09:02<46:58,  4.30s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▋                  | 3342/3996 [4:09:06<46:29,  4.26s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▋                  | 3343/3996 [4:09:10<46:08,  4.24s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▋                  | 3344/3996 [4:09:14<45:53,  4.22s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▊                  | 3345/3996 [4:09:18<45:41,  4.21s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▊                  | 3346/3996 [4:09:23<47:17,  4.37s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▊                  | 3347/3996 [4:09:27<46:40,  4.31s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▊                  | 3348/3996 [4:09:31<46:10,  4.28s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▊                  | 3349/3996 [4:09:36<45:47,  4.25s/it] 84%|███��█████████████████████████████████████████████████████████████████████████████████████████▉                  | 3350/3996 [4:09:40<45:47,  4.25s/it]                                                                                                                                                           {'loss': 0.4594, 'grad_norm': 0.21859121322631836, 'learning_rate': 1.3303537212435469e-05, 'ppl': 1.5831, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4141.07, 'total_tokens': 64850022, 'epoch': 2.51}
+ 84%|█████████████████████████████████████████████████████████████████████████████████████████████▉                  | 3350/3996 [4:09:40<45:47,  4.25s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▉                  | 3351/3996 [4:09:44<45:33,  4.24s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▉                  | 3352/3996 [4:09:48<45:21,  4.23s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████▉                  | 3353/3996 [4:09:53<47:14,  4.41s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 3354/3996 [4:09:57<46:34,  4.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 3355/3996 [4:10:02<47:39,  4.46s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 3356/3996 [4:10:06<46:44,  4.38s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 3357/3996 [4:10:11<46:22,  4.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████                  | 3358/3996 [4:10:15<45:49,  4.31s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▏                 | 3359/3996 [4:10:19<45:22,  4.27s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▏                 | 3360/3996 [4:10:24<46:47,  4.41s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▏                 | 3361/3996 [4:10:28<46:02,  4.35s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▏                 | 3362/3996 [4:10:32<45:27,  4.30s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▎                 | 3363/3996 [4:10:36<44:59,  4.26s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▎                 | 3364/3996 [4:10:41<44:47,  4.25s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▎                 | 3365/3996 [4:10:45<44:31,  4.23s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▎                 | 3366/3996 [4:10:49<44:18,  4.22s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▎                 | 3367/3996 [4:10:54<45:54,  4.38s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▍                 | 3368/3996 [4:10:58<45:16,  4.33s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▍                 | 3369/3996 [4:11:02<45:52,  4.39s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▍                 | 3370/3996 [4:11:07<45:08,  4.33s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▍                 | 3371/3996 [4:11:11<44:48,  4.30s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                 | 3372/3996 [4:11:15<44:24,  4.27s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                 | 3373/3996 [4:11:19<44:13,  4.26s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                 | 3374/3996 [4:11:24<45:38,  4.40s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                 | 3375/3996 [4:11:28<44:56,  4.34s/it]                                                                                                                                                           {'loss': 0.4635, 'grad_norm': 0.22012574970722198, 'learning_rate': 1.231655296634906e-05, 'ppl': 1.5896, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4210.83, 'total_tokens': 65292271, 'epoch': 2.53}
+ 84%|██████��███████████████████████████████████████████████████████████████████████████████████████▌                 | 3375/3996 [4:11:28<44:56,  4.34s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████▌                 | 3376/3996 [4:11:32<44:23,  4.30s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▋                 | 3377/3996 [4:11:37<43:59,  4.26s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▋                 | 3378/3996 [4:11:41<43:43,  4.25s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▋                 | 3379/3996 [4:11:45<43:29,  4.23s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▋                 | 3380/3996 [4:11:49<43:19,  4.22s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▊                 | 3381/3996 [4:11:54<44:48,  4.37s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▊                 | 3382/3996 [4:11:58<44:11,  4.32s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▊                 | 3383/3996 [4:12:02<43:41,  4.28s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▊                 | 3384/3996 [4:12:06<43:22,  4.25s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▊                 | 3385/3996 [4:12:11<43:12,  4.24s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▉                 | 3386/3996 [4:12:15<43:02,  4.23s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▉                 | 3387/3996 [4:12:19<42:50,  4.22s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▉                 | 3388/3996 [4:12:24<44:20,  4.38s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████▉                 | 3389/3996 [4:12:28<43:47,  4.33s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████                 | 3390/3996 [4:12:32<43:17,  4.29s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████                 | 3391/3996 [4:12:37<43:58,  4.36s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████                 | 3392/3996 [4:12:41<43:24,  4.31s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████                 | 3393/3996 [4:12:45<42:59,  4.28s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▏                | 3394/3996 [4:12:49<42:39,  4.25s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▏                | 3395/3996 [4:12:54<44:00,  4.39s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▏                | 3396/3996 [4:12:58<43:22,  4.34s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▏                | 3397/3996 [4:13:02<42:52,  4.29s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▏                | 3398/3996 [4:13:07<42:26,  4.26s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▎                | 3399/3996 [4:13:11<42:10,  4.24s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▎                | 3400/3996 [4:13:15<41:56,  4.22s/it]                                                                                                                                                           {'loss': 0.4809, 'grad_norm': 0.21981129050254822, 'learning_rate': 1.1365201095496048e-05, 'ppl': 1.6175, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4233.11, 'total_tokens': 65735025, 'epoch': 2.55}
+ 85%|███████████████████████████████████████████████████████████████████████████████████████████████▎                | 3400/3996 [4:13:15<41:56,  4.22s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▎                | 3401/3996 [4:13:19<41:48,  4.22s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▎                | 3402/3996 [4:13:24<43:15,  4.37s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▍                | 3403/3996 [4:13:28<42:38,  4.32s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▍                | 3404/3996 [4:13:32<42:13,  4.28s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▍                | 3405/3996 [4:13:37<41:51,  4.25s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▍                | 3406/3996 [4:13:41<41:39,  4.24s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▍                | 3407/3996 [4:13:45<41:28,  4.22s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▌                | 3408/3996 [4:13:49<41:18,  4.21s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▌                | 3409/3996 [4:13:54<42:43,  4.37s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▌                | 3410/3996 [4:13:58<42:08,  4.32s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▌                | 3411/3996 [4:14:02<41:40,  4.27s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                | 3412/3996 [4:14:06<41:20,  4.25s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                | 3413/3996 [4:14:11<41:06,  4.23s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                | 3414/3996 [4:14:15<40:53,  4.22s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                | 3415/3996 [4:14:19<40:46,  4.21s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████▋                | 3416/3996 [4:14:24<42:12,  4.37s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████▊                | 3417/3996 [4:14:28<41:35,  4.31s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████▊                | 3418/3996 [4:14:32<41:09,  4.27s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████▊                | 3419/3996 [4:14:36<40:50,  4.25s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████▊                | 3420/3996 [4:14:40<40:38,  4.23s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████▉                | 3421/3996 [4:14:45<40:25,  4.22s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████▉                | 3422/3996 [4:14:49<40:18,  4.21s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████▉                | 3423/3996 [4:14:54<41:43,  4.37s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████▉                | 3424/3996 [4:14:58<41:10,  4.32s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████▉                | 3425/3996 [4:15:02<40:45,  4.28s/it]                                                                                                                                                           {'loss': 0.4605, 'grad_norm': 0.22363677620887756, 'learning_rate': 1.0449868205649649e-05, 'ppl': 1.5849, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4245.88, 'total_tokens': 66180426, 'epoch': 2.57}
+ 86%|███████████████████████████████████████████████████████████████████████████████████████████████▉                | 3425/3996 [4:15:02<40:45,  4.28s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████                | 3426/3996 [4:15:06<40:25,  4.25s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████                | 3427/3996 [4:15:10<40:12,  4.24s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████                | 3428/3996 [4:15:15<40:00,  4.23s/it] 86%|██████████████████████████████████████████████��█████████████████████████████████████████████████                | 3429/3996 [4:15:19<39:51,  4.22s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▏               | 3430/3996 [4:15:23<41:14,  4.37s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▏               | 3431/3996 [4:15:28<40:40,  4.32s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▏               | 3432/3996 [4:15:32<40:15,  4.28s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▏               | 3433/3996 [4:15:36<39:55,  4.25s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▏               | 3434/3996 [4:15:40<39:43,  4.24s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▎               | 3435/3996 [4:15:44<39:31,  4.23s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▎               | 3436/3996 [4:15:49<39:22,  4.22s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▎               | 3437/3996 [4:15:53<40:46,  4.38s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▎               | 3438/3996 [4:15:58<40:12,  4.32s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▍               | 3439/3996 [4:16:02<39:45,  4.28s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▍               | 3440/3996 [4:16:06<39:25,  4.25s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▍               | 3441/3996 [4:16:10<39:11,  4.24s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▍               | 3442/3996 [4:16:14<39:00,  4.22s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▌               | 3443/3996 [4:16:19<38:49,  4.21s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▌               | 3444/3996 [4:16:23<40:14,  4.37s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▌               | 3445/3996 [4:16:27<39:38,  4.32s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▌               | 3446/3996 [4:16:32<39:15,  4.28s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▌               | 3447/3996 [4:16:36<38:55,  4.25s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▋               | 3448/3996 [4:16:40<38:44,  4.24s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▋               | 3449/3996 [4:16:44<38:33,  4.23s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▋               | 3450/3996 [4:16:48<38:24,  4.22s/it]                                                                                                                                                           {'loss': 0.4661, 'grad_norm': 0.21145139634609222, 'learning_rate': 9.570926265363789e-06, 'ppl': 1.5938, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4280.85, 'total_tokens': 66629602, 'epoch': 2.59}
+ 86%|████████████████████████████████████████████████████████████████████████████████████████████████▋               | 3450/3996 [4:16:48<38:24,  4.22s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▋               | 3451/3996 [4:16:53<39:42,  4.37s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▊               | 3452/3996 [4:16:57<39:10,  4.32s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▊               | 3453/3996 [4:17:02<38:42,  4.28s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▊               | 3454/3996 [4:17:06<38:23,  4.25s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████▊               | 3455/3996 [4:17:10<38:11,  4.24s/it] 86%|██████████████████████████████████████████��█████████████████████████████████████████████████████▊               | 3456/3996 [4:17:14<37:59,  4.22s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████▉               | 3457/3996 [4:17:18<37:50,  4.21s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████▉               | 3458/3996 [4:17:23<39:09,  4.37s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████▉               | 3459/3996 [4:17:27<38:38,  4.32s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████▉               | 3460/3996 [4:17:31<38:13,  4.28s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████               | 3461/3996 [4:17:36<39:00,  4.38s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████               | 3462/3996 [4:17:40<38:33,  4.33s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████               | 3463/3996 [4:17:45<38:08,  4.29s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████               | 3464/3996 [4:17:49<37:47,  4.26s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████               | 3465/3996 [4:17:53<38:59,  4.41s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▏              | 3466/3996 [4:17:58<38:21,  4.34s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▏              | 3467/3996 [4:18:02<37:54,  4.30s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▏              | 3468/3996 [4:18:06<37:31,  4.26s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▏              | 3469/3996 [4:18:10<37:15,  4.24s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▎              | 3470/3996 [4:18:14<37:03,  4.23s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▎              | 3471/3996 [4:18:19<37:02,  4.23s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▎              | 3472/3996 [4:18:23<38:16,  4.38s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▎              | 3473/3996 [4:18:28<37:40,  4.32s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▎              | 3474/3996 [4:18:32<37:16,  4.29s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▍              | 3475/3996 [4:18:36<36:57,  4.26s/it]                                                                                                                                                           {'loss': 0.46, 'grad_norm': 0.2377360314130783, 'learning_rate': 8.728732454814203e-06, 'ppl': 1.5841, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4258.29, 'total_tokens': 67075180, 'epoch': 2.61}
+ 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▍              | 3475/3996 [4:18:36<36:57,  4.26s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▍              | 3476/3996 [4:18:40<36:44,  4.24s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▍              | 3477/3996 [4:18:44<36:32,  4.22s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▍              | 3478/3996 [4:18:49<36:25,  4.22s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▌              | 3479/3996 [4:18:53<37:40,  4.37s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▌              | 3480/3996 [4:18:57<37:09,  4.32s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▌              | 3481/3996 [4:19:02<36:45,  4.28s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▌              | 3482/3996 [4:19:06<36:27,  4.25s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▌              | 3483/3996 [4:19:10<36:14,  4.24s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▋              | 3484/3996 [4:19:14<36:03,  4.23s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▋              | 3485/3996 [4:19:19<36:53,  4.33s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▋              | 3486/3996 [4:19:24<37:49,  4.45s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▋              | 3487/3996 [4:19:28<37:05,  4.37s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▊              | 3488/3996 [4:19:32<36:31,  4.31s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▊              | 3489/3996 [4:19:36<36:06,  4.27s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▊              | 3490/3996 [4:19:40<35:51,  4.25s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▊              | 3491/3996 [4:19:44<35:36,  4.23s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▊              | 3492/3996 [4:19:49<35:24,  4.21s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▉              | 3493/3996 [4:19:53<36:35,  4.36s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▉              | 3494/3996 [4:19:58<36:05,  4.31s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▉              | 3495/3996 [4:20:02<35:40,  4.27s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████▉              | 3496/3996 [4:20:06<35:22,  4.24s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████              | 3497/3996 [4:20:10<35:08,  4.23s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████              | 3498/3996 [4:20:14<34:57,  4.21s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████              | 3499/3996 [4:20:18<34:48,  4.20s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████              | 3500/3996 [4:20:23<36:07,  4.37s/it]                                                                                                                                                           {'loss': 0.4734, 'grad_norm': 0.22640903294086456, 'learning_rate': 7.923629020649448e-06, 'ppl': 1.6054, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3732.79, 'total_tokens': 67519655, 'epoch': 2.63}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████              | 3500/3996 [4:20:23<36:07,  4.37s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▏             | 3501/3996 [4:20:27<35:35,  4.31s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▏             | 3502/3996 [4:20:32<35:09,  4.27s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▏             | 3503/3996 [4:20:36<34:50,  4.24s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▏             | 3504/3996 [4:20:40<34:38,  4.22s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▏             | 3505/3996 [4:20:44<34:26,  4.21s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▎             | 3506/3996 [4:20:48<34:20,  4.20s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▎             | 3507/3996 [4:20:53<35:30,  4.36s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▎             | 3508/3996 [4:20:57<35:01,  4.31s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▎             | 3509/3996 [4:21:01<34:39,  4.27s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▍             | 3510/3996 [4:21:06<34:21,  4.24s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▍             | 3511/3996 [4:21:10<34:10,  4.23s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▍             | 3512/3996 [4:21:14<33:57,  4.21s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▍             | 3513/3996 [4:21:18<33:51,  4.21s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▍             | 3514/3996 [4:21:24<36:38,  4.56s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▌             | 3515/3996 [4:21:28<35:37,  4.44s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▌             | 3516/3996 [4:21:32<34:55,  4.37s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▌             | 3517/3996 [4:21:36<34:27,  4.32s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▌             | 3518/3996 [4:21:40<34:08,  4.29s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▋             | 3519/3996 [4:21:44<33:49,  4.25s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▋             | 3520/3996 [4:21:49<33:37,  4.24s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▋             | 3521/3996 [4:21:53<34:42,  4.38s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▋             | 3522/3996 [4:21:58<34:12,  4.33s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▋             | 3523/3996 [4:22:02<33:46,  4.29s/it] 88%|████████████████████████████████████████████████████���█████████████████████████████████████████████▊             | 3524/3996 [4:22:06<33:27,  4.25s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▊             | 3525/3996 [4:22:10<33:14,  4.24s/it]                                                                                                                                                           {'loss': 0.4701, 'grad_norm': 0.2617396414279938, 'learning_rate': 7.155943136910193e-06, 'ppl': 1.6002, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4208.25, 'total_tokens': 67960790, 'epoch': 2.64}
+ 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▊             | 3525/3996 [4:22:10<33:14,  4.24s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▊             | 3526/3996 [4:22:14<33:04,  4.22s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▊             | 3527/3996 [4:22:19<32:56,  4.21s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉             | 3528/3996 [4:22:23<34:03,  4.37s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉             | 3529/3996 [4:22:27<33:34,  4.31s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉             | 3530/3996 [4:22:32<33:10,  4.27s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉             | 3531/3996 [4:22:36<32:54,  4.25s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████▉             | 3532/3996 [4:22:40<32:43,  4.23s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████             | 3533/3996 [4:22:44<32:33,  4.22s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████             | 3534/3996 [4:22:48<32:24,  4.21s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████             | 3535/3996 [4:22:54<34:33,  4.50s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████             | 3536/3996 [4:22:58<33:47,  4.41s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▏            | 3537/3996 [4:23:02<33:11,  4.34s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▏            | 3538/3996 [4:23:06<32:46,  4.29s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▏            | 3539/3996 [4:23:10<32:28,  4.26s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▏            | 3540/3996 [4:23:15<32:14,  4.24s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▏            | 3541/3996 [4:23:19<32:05,  4.23s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▎            | 3542/3996 [4:23:23<33:09,  4.38s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▎            | 3543/3996 [4:23:28<32:38,  4.32s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▎            | 3544/3996 [4:23:32<32:16,  4.28s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▎            | 3545/3996 [4:23:36<31:59,  4.26s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▍            | 3546/3996 [4:23:40<31:46,  4.24s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▍            | 3547/3996 [4:23:44<31:35,  4.22s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▍            | 3548/3996 [4:23:49<31:28,  4.22s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▍            | 3549/3996 [4:23:53<32:32,  4.37s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▍            | 3550/3996 [4:23:58<32:06,  4.32s/it]                                                                                                                                                           {'loss': 0.4754, 'grad_norm': 0.2119966447353363, 'learning_rate': 6.425986772073922e-06, 'ppl': 1.6087, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4238.47, 'total_tokens': 68405914, 'epoch': 2.66}
+ 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▍            | 3550/3996 [4:23:58<32:06,  4.32s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▌            | 3551/3996 [4:24:02<31:45,  4.28s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▌            | 3552/3996 [4:24:06<31:29,  4.25s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▌            | 3553/3996 [4:24:10<31:17,  4.24s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▌            | 3554/3996 [4:24:14<31:07,  4.22s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▋            | 3555/3996 [4:24:19<30:59,  4.22s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▋            | 3556/3996 [4:24:23<32:03,  4.37s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▋            | 3557/3996 [4:24:27<31:35,  4.32s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▋            | 3558/3996 [4:24:32<31:13,  4.28s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▊            | 3559/3996 [4:24:36<30:56,  4.25s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▊            | 3560/3996 [4:24:40<30:43,  4.23s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▊            | 3561/3996 [4:24:44<30:32,  4.21s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▊            | 3562/3996 [4:24:48<30:26,  4.21s/it] 89%|██████████████���████████████████████████████████████████████████████████████████████████████████████▊            | 3563/3996 [4:24:53<31:32,  4.37s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▉            | 3564/3996 [4:24:57<31:06,  4.32s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▉            | 3565/3996 [4:25:01<30:45,  4.28s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▉            | 3566/3996 [4:25:06<30:27,  4.25s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████▉            | 3567/3996 [4:25:10<30:17,  4.24s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████            | 3568/3996 [4:25:14<30:06,  4.22s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████            | 3569/3996 [4:25:18<29:58,  4.21s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████            | 3570/3996 [4:25:23<31:00,  4.37s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████            | 3571/3996 [4:25:27<30:33,  4.31s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████            | 3572/3996 [4:25:31<30:09,  4.27s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 3573/3996 [4:25:35<29:52,  4.24s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 3574/3996 [4:25:40<29:43,  4.23s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 3575/3996 [4:25:44<29:32,  4.21s/it]                                                                                                                                                           {'loss': 0.4536, 'grad_norm': 0.21404898166656494, 'learning_rate': 5.734056562278634e-06, 'ppl': 1.574, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4293.79, 'total_tokens': 68854437, 'epoch': 2.68}
+ 89%|█████████████████████████���██████████████████████████████████████████████████████████████████████████▏           | 3575/3996 [4:25:44<29:32,  4.21s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 3576/3996 [4:25:48<29:27,  4.21s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 3577/3996 [4:25:53<30:29,  4.37s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 3578/3996 [4:25:57<30:03,  4.31s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 3579/3996 [4:26:01<29:42,  4.28s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 3580/3996 [4:26:05<29:26,  4.25s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▎           | 3581/3996 [4:26:10<29:14,  4.23s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 3582/3996 [4:26:14<29:02,  4.21s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 3583/3996 [4:26:18<28:54,  4.20s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 3584/3996 [4:26:23<29:55,  4.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 3585/3996 [4:26:27<29:30,  4.31s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 3586/3996 [4:26:31<29:06,  4.26s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 3587/3996 [4:26:35<28:49,  4.23s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 3588/3996 [4:26:39<28:41,  4.22s/it] 90%|█████████████████████████████████████████████████████████████���██████████████████████████████████████▌           | 3589/3996 [4:26:43<28:32,  4.21s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 3590/3996 [4:26:48<28:26,  4.20s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 3591/3996 [4:26:52<29:23,  4.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 3592/3996 [4:26:57<28:58,  4.30s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 3593/3996 [4:27:01<28:39,  4.27s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▋           | 3594/3996 [4:27:05<28:23,  4.24s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 3595/3996 [4:27:09<28:12,  4.22s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 3596/3996 [4:27:13<28:04,  4.21s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 3597/3996 [4:27:17<27:56,  4.20s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 3598/3996 [4:27:22<28:55,  4.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 3599/3996 [4:27:27<28:51,  4.36s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 3600/3996 [4:27:31<28:36,  4.33s/it]                                                                                                                                                           {'loss': 0.4726, 'grad_norm': 0.207435742020607, 'learning_rate': 5.080433690777353e-06, 'ppl': 1.6042, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4137.98, 'total_tokens': 69296241, 'epoch': 2.7}
+ 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 3600/3996 [4:27:31<28:36,  4.33s/it] 90%|██████████████████████████████████████████████████████████████████���█████████████████████████████████▉           | 3601/3996 [4:27:35<28:12,  4.28s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 3602/3996 [4:27:39<27:58,  4.26s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████▉           | 3603/3996 [4:27:43<27:45,  4.24s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████           | 3604/3996 [4:27:48<27:35,  4.22s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████           | 3605/3996 [4:27:52<28:28,  4.37s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████           | 3606/3996 [4:27:56<28:03,  4.32s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████           | 3607/3996 [4:28:01<27:43,  4.28s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 3608/3996 [4:28:05<28:19,  4.38s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 3609/3996 [4:28:09<27:53,  4.32s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 3610/3996 [4:28:14<27:33,  4.28s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 3611/3996 [4:28:18<27:17,  4.25s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏          | 3612/3996 [4:28:23<28:14,  4.41s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 3613/3996 [4:28:27<27:44,  4.35s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 3614/3996 [4:28:31<27:20,  4.30s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████��███▎          | 3615/3996 [4:28:35<27:03,  4.26s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 3616/3996 [4:28:39<26:50,  4.24s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 3617/3996 [4:28:44<26:40,  4.22s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 3618/3996 [4:28:48<26:32,  4.21s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 3619/3996 [4:28:52<27:24,  4.36s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 3620/3996 [4:28:57<27:00,  4.31s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 3621/3996 [4:29:01<26:41,  4.27s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 3622/3996 [4:29:05<26:27,  4.24s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 3623/3996 [4:29:09<26:17,  4.23s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 3624/3996 [4:29:13<26:10,  4.22s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 3625/3996 [4:29:18<26:03,  4.21s/it]                                                                                                                                                           {'loss': 0.4626, 'grad_norm': 0.23212255537509918, 'learning_rate': 4.465383773672127e-06, 'ppl': 1.5882, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4195.93, 'total_tokens': 69736200, 'epoch': 2.72}
+ 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌          | 3625/3996 [4:29:18<26:03,  4.21s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 3626/3996 [4:29:22<26:56,  4.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 3627/3996 [4:29:27<26:32,  4.32s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 3628/3996 [4:29:31<26:13,  4.27s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 3629/3996 [4:29:35<25:58,  4.25s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 3630/3996 [4:29:39<25:49,  4.23s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 3631/3996 [4:29:43<25:41,  4.22s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 3632/3996 [4:29:48<25:35,  4.22s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 3633/3996 [4:29:52<26:27,  4.37s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊          | 3634/3996 [4:29:56<26:03,  4.32s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 3635/3996 [4:30:01<25:45,  4.28s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 3636/3996 [4:30:05<25:31,  4.25s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 3637/3996 [4:30:09<25:21,  4.24s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 3638/3996 [4:30:13<25:10,  4.22s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 3639/3996 [4:30:17<25:04,  4.21s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████          | 3640/3996 [4:30:22<25:55,  4.37s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████          | 3641/3996 [4:30:26<25:32,  4.32s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████          | 3642/3996 [4:30:31<25:14,  4.28s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████          | 3643/3996 [4:30:35<25:00,  4.25s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 3644/3996 [4:30:39<24:51,  4.24s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 3645/3996 [4:30:43<24:42,  4.22s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 3646/3996 [4:30:47<24:36,  4.22s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 3647/3996 [4:30:52<25:25,  4.37s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏         | 3648/3996 [4:30:56<25:02,  4.32s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 3649/3996 [4:31:00<24:45,  4.28s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 3650/3996 [4:31:05<24:30,  4.25s/it]                                                                                                                                                           {'loss': 0.4652, 'grad_norm': 0.24078768491744995, 'learning_rate': 3.889156751974343e-06, 'ppl': 1.5923, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4260.72, 'total_tokens': 70181446, 'epoch': 2.74}
+ 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 3650/3996 [4:31:05<24:30,  4.25s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 3651/3996 [4:31:09<24:21,  4.24s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 3652/3996 [4:31:13<24:12,  4.22s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 3653/3996 [4:31:17<24:05,  4.21s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 3654/3996 [4:31:22<24:53,  4.37s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 3655/3996 [4:31:26<24:31,  4.31s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 3656/3996 [4:31:30<24:13,  4.28s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍         | 3657/3996 [4:31:34<24:00,  4.25s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 3658/3996 [4:31:39<23:50,  4.23s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 3659/3996 [4:31:43<23:41,  4.22s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 3660/3996 [4:31:47<23:33,  4.21s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌         | 3661/3996 [4:31:52<24:18,  4.36s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 3662/3996 [4:31:56<24:22,  4.38s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 3663/3996 [4:32:00<23:58,  4.32s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 3664/3996 [4:32:05<23:40,  4.28s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 3665/3996 [4:32:09<23:27,  4.25s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 3666/3996 [4:32:13<23:16,  4.23s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 3667/3996 [4:32:17<23:07,  4.22s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 3668/3996 [4:32:22<23:53,  4.37s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 3669/3996 [4:32:26<23:31,  4.32s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊         | 3670/3996 [4:32:30<23:13,  4.27s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 3671/3996 [4:32:34<22:58,  4.24s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 3672/3996 [4:32:39<22:48,  4.22s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 3673/3996 [4:32:43<22:40,  4.21s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 3674/3996 [4:32:47<22:32,  4.20s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████         | 3675/3996 [4:32:52<23:18,  4.36s/it]                                                                                                                                                           {'loss': 0.4603, 'grad_norm': 0.20761160552501678, 'learning_rate': 3.3519867900349113e-06, 'ppl': 1.5845, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3783.05, 'total_tokens': 70627535, 'epoch': 2.76}
+ 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████         | 3675/3996 [4:32:52<23:18,  4.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████         | 3676/3996 [4:32:56<22:58,  4.31s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████         | 3677/3996 [4:33:00<22:42,  4.27s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████         | 3678/3996 [4:33:04<22:29,  4.24s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████         | 3679/3996 [4:33:08<22:20,  4.23s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 3680/3996 [4:33:13<22:11,  4.21s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 3681/3996 [4:33:17<22:04,  4.21s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 3682/3996 [4:33:21<22:50,  4.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏        | 3683/3996 [4:33:26<22:29,  4.31s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 3684/3996 [4:33:30<22:12,  4.27s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 3685/3996 [4:33:34<21:58,  4.24s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 3686/3996 [4:33:38<21:48,  4.22s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 3687/3996 [4:33:42<21:40,  4.21s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 3688/3996 [4:33:47<21:35,  4.21s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 3689/3996 [4:33:51<22:17,  4.36s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 3690/3996 [4:33:55<21:57,  4.30s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 3691/3996 [4:34:00<21:41,  4.27s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 3692/3996 [4:34:04<21:28,  4.24s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 3693/3996 [4:34:08<21:20,  4.23s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 3694/3996 [4:34:12<21:12,  4.21s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 3695/3996 [4:34:16<21:05,  4.21s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 3696/3996 [4:34:21<21:48,  4.36s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 3697/3996 [4:34:25<21:30,  4.31s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 3698/3996 [4:34:29<21:14,  4.28s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 3699/3996 [4:34:34<21:01,  4.25s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 3700/3996 [4:34:38<20:53,  4.23s/it]                                                                                                                                                           {'loss': 0.459, 'grad_norm': 0.2079222947359085, 'learning_rate': 2.8540921803855926e-06, 'ppl': 1.5825, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4196.92, 'total_tokens': 71068359, 'epoch': 2.78}
+ 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 3700/3996 [4:34:38<20:53,  4.23s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋        | 3701/3996 [4:34:42<20:45,  4.22s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 3702/3996 [4:34:46<20:39,  4.21s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 3703/3996 [4:34:51<21:20,  4.37s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 3704/3996 [4:34:55<21:00,  4.32s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 3705/3996 [4:34:59<20:44,  4.28s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊        | 3706/3996 [4:35:04<20:35,  4.26s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 3707/3996 [4:35:08<20:25,  4.24s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 3708/3996 [4:35:12<20:17,  4.23s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 3709/3996 [4:35:16<20:09,  4.21s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 3710/3996 [4:35:21<20:49,  4.37s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████        | 3711/3996 [4:35:25<20:31,  4.32s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████        | 3712/3996 [4:35:29<20:15,  4.28s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████        | 3713/3996 [4:35:33<20:01,  4.25s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████        | 3714/3996 [4:35:38<19:52,  4.23s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████        | 3715/3996 [4:35:42<19:44,  4.21s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 3716/3996 [4:35:46<19:37,  4.21s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 3717/3996 [4:35:51<20:36,  4.43s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 3718/3996 [4:35:55<20:11,  4.36s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 3719/3996 [4:35:59<19:54,  4.31s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 3720/3996 [4:36:04<19:39,  4.27s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 3721/3996 [4:36:08<19:28,  4.25s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 3722/3996 [4:36:12<19:19,  4.23s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▎       | 3723/3996 [4:36:16<19:11,  4.22s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 3724/3996 [4:36:21<19:49,  4.37s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 3725/3996 [4:36:25<19:29,  4.32s/it]                                                                                                                                                           {'loss': 0.4692, 'grad_norm': 0.23349842429161072, 'learning_rate': 2.395675255030383e-06, 'ppl': 1.5987, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4216.77, 'total_tokens': 71509553, 'epoch': 2.79}
+ 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 3725/3996 [4:36:25<19:29,  4.32s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 3726/3996 [4:36:29<19:15,  4.28s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 3727/3996 [4:36:33<19:03,  4.25s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍       | 3728/3996 [4:36:38<18:55,  4.24s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 3729/3996 [4:36:42<18:46,  4.22s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 3730/3996 [4:36:46<18:40,  4.21s/it] 93%|██████████████████████████████████████████████████████████████████████████���█████████████████████████████▌       | 3731/3996 [4:36:51<19:16,  4.37s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 3732/3996 [4:36:55<18:58,  4.31s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 3733/3996 [4:36:59<18:45,  4.28s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 3734/3996 [4:37:03<18:33,  4.25s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 3735/3996 [4:37:08<18:37,  4.28s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 3736/3996 [4:37:12<18:25,  4.25s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋       | 3737/3996 [4:37:16<18:18,  4.24s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 3738/3996 [4:37:21<19:15,  4.48s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 3739/3996 [4:37:25<18:49,  4.39s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 3740/3996 [4:37:29<18:29,  4.33s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 3741/3996 [4:37:34<18:13,  4.29s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 3742/3996 [4:37:38<18:02,  4.26s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 3743/3996 [4:37:42<17:52,  4.24s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 3744/3996 [4:37:46<17:43,  4.22s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 3745/3996 [4:37:51<18:17,  4.37s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉       | 3746/3996 [4:37:55<17:58,  4.32s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████       | 3747/3996 [4:37:59<17:45,  4.28s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████       | 3748/3996 [4:38:03<17:33,  4.25s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████       | 3749/3996 [4:38:08<17:24,  4.23s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████       | 3750/3996 [4:38:12<17:16,  4.21s/it]                                                                                                                                                           {'loss': 0.4626, 'grad_norm': 0.2154284566640854, 'learning_rate': 1.9769223032228724e-06, 'ppl': 1.5882, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4278.81, 'total_tokens': 71956413, 'epoch': 2.81}
+ 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████       | 3750/3996 [4:38:12<17:16,  4.21s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 3751/3996 [4:38:16<17:08,  4.20s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 3752/3996 [4:38:21<17:42,  4.35s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 3753/3996 [4:38:25<17:26,  4.31s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 3754/3996 [4:38:29<17:12,  4.26s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 3755/3996 [4:38:33<17:00,  4.24s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 3756/3996 [4:38:37<16:51,  4.22s/it] 94%|██████████████████████████████████████���██████████████████████████████████████████████████████████████████▎      | 3757/3996 [4:38:42<16:44,  4.20s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 3758/3996 [4:38:46<16:38,  4.20s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 3759/3996 [4:38:50<17:11,  4.35s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 3760/3996 [4:38:55<16:55,  4.30s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 3761/3996 [4:38:59<16:41,  4.26s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 3762/3996 [4:39:03<16:31,  4.24s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 3763/3996 [4:39:07<16:24,  4.22s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 3764/3996 [4:39:11<16:16,  4.21s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 3765/3996 [4:39:16<16:11,  4.21s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 3766/3996 [4:39:20<16:43,  4.37s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 3767/3996 [4:39:25<16:28,  4.32s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 3768/3996 [4:39:29<16:16,  4.28s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 3769/3996 [4:39:33<16:05,  4.25s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 3770/3996 [4:39:37<15:56,  4.23s/it] 94%|███████████████████████████��█████████████████████████████████████████████████████████████████████████████▋      | 3771/3996 [4:39:42<16:06,  4.29s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 3772/3996 [4:39:46<15:55,  4.26s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 3773/3996 [4:39:50<16:21,  4.40s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 3774/3996 [4:39:55<16:02,  4.34s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 3775/3996 [4:39:59<15:48,  4.29s/it]                                                                                                                                                           {'loss': 0.4757, 'grad_norm': 0.2559005916118622, 'learning_rate': 1.5980034957628231e-06, 'ppl': 1.6091, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4161.74, 'total_tokens': 72391979, 'epoch': 2.83}
+ 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 3775/3996 [4:39:59<15:48,  4.29s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 3776/3996 [4:40:03<15:37,  4.26s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 3777/3996 [4:40:07<15:28,  4.24s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 3778/3996 [4:40:11<15:20,  4.22s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 3779/3996 [4:40:16<15:14,  4.21s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 3780/3996 [4:40:20<15:44,  4.37s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉      | 3781/3996 [4:40:24<15:28,  4.32s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████      | 3782/3996 [4:40:29<15:16,  4.28s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████      | 3783/3996 [4:40:33<15:05,  4.25s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████      | 3784/3996 [4:40:37<14:57,  4.23s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████      | 3785/3996 [4:40:41<14:51,  4.22s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████      | 3786/3996 [4:40:45<14:44,  4.21s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 3787/3996 [4:40:50<15:13,  4.37s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 3788/3996 [4:40:54<14:57,  4.31s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 3789/3996 [4:40:59<15:05,  4.37s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 3790/3996 [4:41:03<14:49,  4.32s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 3791/3996 [4:41:07<14:37,  4.28s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 3792/3996 [4:41:11<14:27,  4.25s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 3793/3996 [4:41:16<14:18,  4.23s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 3794/3996 [4:41:20<14:45,  4.38s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 3795/3996 [4:41:25<14:30,  4.33s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████���███████████▍     | 3796/3996 [4:41:29<14:17,  4.29s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 3797/3996 [4:41:33<14:07,  4.26s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 3798/3996 [4:41:37<13:59,  4.24s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 3799/3996 [4:41:41<13:51,  4.22s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 3800/3996 [4:41:46<13:45,  4.21s/it]                                                                                                                                                           {'loss': 0.4823, 'grad_norm': 0.21530191600322723, 'learning_rate': 1.2590728158430431e-06, 'ppl': 1.6198, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4264.41, 'total_tokens': 72837687, 'epoch': 2.85}
+ 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 3800/3996 [4:41:46<13:45,  4.21s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 3801/3996 [4:41:50<14:11,  4.37s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 3802/3996 [4:41:54<13:57,  4.32s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 3803/3996 [4:41:59<13:45,  4.28s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌     | 3804/3996 [4:42:03<13:35,  4.25s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 3805/3996 [4:42:07<13:28,  4.23s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 3806/3996 [4:42:11<13:21,  4.22s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 3807/3996 [4:42:15<13:15,  4.21s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 3808/3996 [4:42:20<13:41,  4.37s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 3809/3996 [4:42:24<13:27,  4.32s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 3810/3996 [4:42:29<13:16,  4.28s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 3811/3996 [4:42:33<13:06,  4.25s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 3812/3996 [4:42:37<12:58,  4.23s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 3813/3996 [4:42:41<12:52,  4.22s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3814/3996 [4:42:45<12:46,  4.21s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3815/3996 [4:42:50<13:10,  4.37s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3816/3996 [4:42:54<12:56,  4.31s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3817/3996 [4:42:58<12:44,  4.27s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████     | 3818/3996 [4:43:03<12:35,  4.25s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████     | 3819/3996 [4:43:07<12:28,  4.23s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████     | 3820/3996 [4:43:11<12:21,  4.22s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████     | 3821/3996 [4:43:15<12:15,  4.21s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████     | 3822/3996 [4:43:20<12:38,  4.36s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 3823/3996 [4:43:24<12:25,  4.31s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 3824/3996 [4:43:28<12:13,  4.27s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 3825/3996 [4:43:32<12:05,  4.24s/it]                                                                                                                                                           {'loss': 0.468, 'grad_norm': 0.22042331099510193, 'learning_rate': 9.602679964744288e-07, 'ppl': 1.5968, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4254.73, 'total_tokens': 73282095, 'epoch': 2.87}
+ 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 3825/3996 [4:43:32<12:05,  4.24s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 3826/3996 [4:43:37<11:57,  4.22s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 3827/3996 [4:43:41<11:51,  4.21s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 3828/3996 [4:43:45<11:45,  4.20s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 3829/3996 [4:43:50<12:06,  4.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 3830/3996 [4:43:54<11:53,  4.30s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 3831/3996 [4:43:58<11:43,  4.26s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 3832/3996 [4:44:02<11:35,  4.24s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████���████████████▍    | 3833/3996 [4:44:06<11:28,  4.22s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 3834/3996 [4:44:11<11:22,  4.21s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 3835/3996 [4:44:15<11:16,  4.20s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 3836/3996 [4:44:19<11:37,  4.36s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 3837/3996 [4:44:24<11:25,  4.31s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 3838/3996 [4:44:28<11:14,  4.27s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 3839/3996 [4:44:32<11:06,  4.24s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 3840/3996 [4:44:36<10:59,  4.23s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 3841/3996 [4:44:40<10:53,  4.22s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 3842/3996 [4:44:45<10:48,  4.21s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 3843/3996 [4:44:50<11:29,  4.51s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 3844/3996 [4:44:54<11:11,  4.41s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 3845/3996 [4:44:58<10:56,  4.35s/it] 96%|███████████████████████████████████████████████████████████████████████████████████��█████████████████████████████████████████████████▊     | 3846/3996 [4:45:02<10:45,  4.30s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 3847/3996 [4:45:07<10:36,  4.27s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 3848/3996 [4:45:11<10:28,  4.25s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3849/3996 [4:45:15<10:21,  4.23s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3850/3996 [4:45:20<10:39,  4.38s/it]                                                                                                                                                                                      {'loss': 0.4651, 'grad_norm': 0.22293563187122345, 'learning_rate': 7.017104645146599e-07, 'ppl': 1.5922, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 3747.29, 'total_tokens': 73724795, 'epoch': 2.89}
+ 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3850/3996 [4:45:20<10:39,  4.38s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3851/3996 [4:45:24<10:27,  4.33s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 3852/3996 [4:45:28<10:16,  4.28s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 3853/3996 [4:45:32<10:08,  4.26s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 3854/3996 [4:45:36<10:01,  4.24s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████��███████     | 3855/3996 [4:45:41<09:55,  4.22s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 3856/3996 [4:45:45<09:49,  4.21s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 3857/3996 [4:45:50<10:07,  4.37s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 3858/3996 [4:45:54<09:56,  4.32s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏    | 3859/3996 [4:45:58<09:46,  4.28s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 3860/3996 [4:46:02<09:37,  4.25s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 3861/3996 [4:46:06<09:31,  4.24s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 3862/3996 [4:46:11<09:25,  4.22s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 3863/3996 [4:46:15<09:20,  4.21s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 3864/3996 [4:46:19<09:36,  4.37s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 3865/3996 [4:46:24<09:25,  4.32s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    | 3866/3996 [4:46:28<09:16,  4.28s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 3867/3996 [4:46:32<09:07,  4.25s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 3868/3996 [4:46:36<09:01,  4.23s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 3869/3996 [4:46:40<08:55,  4.22s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌    | 3870/3996 [4:46:45<08:50,  4.21s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 3871/3996 [4:46:49<09:07,  4.38s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 3872/3996 [4:46:54<08:56,  4.33s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 3873/3996 [4:46:58<08:46,  4.28s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 3874/3996 [4:47:02<08:38,  4.25s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 3875/3996 [4:47:06<08:32,  4.24s/it]                                                                                                                                                                                      {'loss': 0.4598, 'grad_norm': 0.20620891451835632, 'learning_rate': 4.83505291323405e-07, 'ppl': 1.5838, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4202.85, 'total_tokens': 74165185, 'epoch': 2.91}
+ 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 3875/3996 [4:47:06<08:32,  4.24s/it] 97%|██████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████████████████████▊    | 3876/3996 [4:47:11<08:34,  4.29s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊    | 3877/3996 [4:47:15<08:27,  4.26s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 3878/3996 [4:47:19<08:39,  4.40s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 3879/3996 [4:47:24<08:28,  4.34s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 3880/3996 [4:47:28<08:18,  4.30s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 3881/3996 [4:47:32<08:10,  4.26s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 3882/3996 [4:47:36<08:03,  4.24s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 3883/3996 [4:47:40<07:57,  4.22s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████    | 3884/3996 [4:47:45<07:52,  4.22s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 3885/3996 [4:47:49<08:04,  4.37s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 3886/3996 [4:47:54<07:54,  4.32s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 3887/3996 [4:47:58<07:46,  4.28s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 3888/3996 [4:48:02<07:39,  4.26s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 3889/3996 [4:48:06<07:33,  4.24s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 3890/3996 [4:48:10<07:27,  4.22s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 3891/3996 [4:48:14<07:22,  4.21s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 3892/3996 [4:48:19<07:33,  4.36s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 3893/3996 [4:48:23<07:24,  4.31s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 3894/3996 [4:48:28<07:16,  4.28s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍   | 3895/3996 [4:48:32<07:09,  4.25s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 3896/3996 [4:48:36<07:03,  4.23s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 3897/3996 [4:48:40<06:57,  4.22s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 3898/3996 [4:48:44<06:57,  4.26s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 3899/3996 [4:48:49<07:06,  4.40s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 3900/3996 [4:48:53<06:55,  4.33s/it]                                                                                                                                                                                      {'loss': 0.4713, 'grad_norm': 0.21627213060855865, 'learning_rate': 3.0574115006383185e-07, 'ppl': 1.6021, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4239.36, 'total_tokens': 74606090, 'epoch': 2.93}
+ 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 3900/3996 [4:48:53<06:55,  4.33s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 3901/3996 [4:48:58<06:46,  4.28s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 3902/3996 [4:49:02<06:39,  4.25s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 3903/3996 [4:49:06<06:33,  4.23s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 3904/3996 [4:49:10<06:28,  4.22s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 3905/3996 [4:49:14<06:23,  4.21s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 3906/3996 [4:49:19<06:33,  4.37s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 3907/3996 [4:49:23<06:24,  4.32s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 3908/3996 [4:49:27<06:15,  4.27s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 3909/3996 [4:49:32<06:08,  4.24s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 3910/3996 [4:49:36<06:03,  4.23s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 3911/3996 [4:49:40<05:57,  4.21s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 3912/3996 [4:49:44<05:52,  4.20s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████   | 3913/3996 [4:49:49<06:01,  4.36s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 3914/3996 [4:49:53<05:53,  4.31s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 3915/3996 [4:49:57<05:46,  4.27s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 3916/3996 [4:50:02<05:46,  4.33s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 3917/3996 [4:50:06<05:38,  4.29s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 3918/3996 [4:50:10<05:32,  4.26s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 3919/3996 [4:50:14<05:26,  4.23s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 3920/3996 [4:50:19<05:33,  4.38s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 3921/3996 [4:50:23<05:24,  4.33s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 3922/3996 [4:50:27<05:16,  4.28s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 3923/3996 [4:50:32<05:09,  4.25s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 3924/3996 [4:50:36<05:04,  4.23s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 3925/3996 [4:50:40<04:59,  4.22s/it]                                                                                                                                                                                      {'loss': 0.4893, 'grad_norm': 0.22113533318042755, 'learning_rate': 1.6849027966816532e-07, 'ppl': 1.6312, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4207.44, 'total_tokens': 75045579, 'epoch': 2.94}
+ 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 3925/3996 [4:50:40<04:59,  4.22s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 3926/3996 [4:50:44<04:54,  4.21s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 3927/3996 [4:50:49<05:01,  4.37s/it] 98%|████████████████████████████████████████████████████████████████████████████��███████████████████████████████████████████████████████████▋  | 3928/3996 [4:50:53<04:53,  4.32s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 3929/3996 [4:50:57<04:46,  4.28s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 3930/3996 [4:51:01<04:40,  4.25s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 3931/3996 [4:51:06<04:35,  4.23s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 3932/3996 [4:51:10<04:30,  4.22s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 3933/3996 [4:51:14<04:25,  4.22s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 3934/3996 [4:51:19<04:30,  4.37s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 3935/3996 [4:51:23<04:23,  4.31s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 3936/3996 [4:51:27<04:16,  4.27s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 3937/3996 [4:51:31<04:10,  4.25s/it] 99%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 3938/3996 [4:51:35<04:05,  4.23s/it] 99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████��█████████████████████████████  | 3939/3996 [4:51:40<04:00,  4.22s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 3940/3996 [4:51:44<03:55,  4.21s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 3941/3996 [4:51:49<03:59,  4.36s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████  | 3942/3996 [4:51:53<03:52,  4.31s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 3943/3996 [4:51:57<03:46,  4.28s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 3944/3996 [4:52:01<03:40,  4.25s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 3945/3996 [4:52:05<03:35,  4.23s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 3946/3996 [4:52:10<03:30,  4.22s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 3947/3996 [4:52:14<03:26,  4.21s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 3948/3996 [4:52:18<03:29,  4.37s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 3949/3996 [4:52:23<03:22,  4.31s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 3950/3996 [4:52:27<03:16,  4.28s/it]                                                                                                                                                                                      {'loss': 0.4804, 'grad_norm': 0.21696196496486664, 'learning_rate': 7.180845548145909e-08, 'ppl': 1.6167, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4152.94, 'total_tokens': 75479895, 'epoch': 2.96}
+ 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 3950/3996 [4:52:27<03:16,  4.28s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 3951/3996 [4:52:31<03:11,  4.25s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 3952/3996 [4:52:35<03:06,  4.23s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 3953/3996 [4:52:39<03:01,  4.22s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 3954/3996 [4:52:44<02:57,  4.22s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 3955/3996 [4:52:48<02:59,  4.37s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 3956/3996 [4:52:53<02:52,  4.32s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 3957/3996 [4:52:57<02:47,  4.29s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 3958/3996 [4:53:01<02:41,  4.26s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 3959/3996 [4:53:05<02:36,  4.24s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 3960/3996 [4:53:09<02:31,  4.22s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 3961/3996 [4:53:14<02:27,  4.22s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 3962/3996 [4:53:18<02:28,  4.37s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 3963/3996 [4:53:22<02:22,  4.32s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 3964/3996 [4:53:27<02:17,  4.28s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 3965/3996 [4:53:31<02:11,  4.25s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 3966/3996 [4:53:35<02:07,  4.24s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 3967/3996 [4:53:39<02:02,  4.23s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 3968/3996 [4:53:43<01:57,  4.21s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 3969/3996 [4:53:48<01:57,  4.36s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 3970/3996 [4:53:52<01:52,  4.33s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 3971/3996 [4:53:57<01:47,  4.29s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 3972/3996 [4:54:01<01:42,  4.25s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 3973/3996 [4:54:05<01:37,  4.24s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏| 3974/3996 [4:54:09<01:32,  4.22s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 3975/3996 [4:54:13<01:28,  4.20s/it]                                                                                                                                                                                      {'loss': 0.4758, 'grad_norm': 0.2239820659160614, 'learning_rate': 1.5734966595948308e-08, 'ppl': 1.6093, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'tokens_per_second_per_gpu': 4224.58, 'total_tokens': 75920694, 'epoch': 2.98}
+ 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 3975/3996 [4:54:13<01:28,  4.20s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 3976/3996 [4:54:18<01:27,  4.36s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 3977/3996 [4:54:22<01:21,  4.31s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎| 3978/3996 [4:54:26<01:16,  4.27s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 3979/3996 [4:54:31<01:12,  4.24s/it]100%|██████████████████████████████��███████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 3980/3996 [4:54:35<01:07,  4.23s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 3981/3996 [4:54:39<01:03,  4.21s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 3982/3996 [4:54:43<00:58,  4.20s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 3983/3996 [4:54:48<00:56,  4.36s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 3984/3996 [4:54:52<00:51,  4.30s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌| 3985/3996 [4:54:56<00:46,  4.27s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 3986/3996 [4:55:00<00:42,  4.24s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 3987/3996 [4:55:05<00:37,  4.22s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 3988/3996 [4:55:09<00:33,  4.21s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 3989/3996 [4:55:13<00:29,  4.20s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 3990/3996 [4:55:18<00:26,  4.36s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 3991/3996 [4:55:22<00:21,  4.31s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊| 3992/3996 [4:55:26<00:17,  4.27s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 3993/3996 [4:55:30<00:12,  4.24s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 3994/3996 [4:55:34<00:08,  4.22s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉| 3995/3996 [4:55:39<00:04,  4.21s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3996/3996 [4:55:43<00:00,  4.20s/it][2025-12-29 07:45:28,450] [INFO] [axolotl.core.trainers.base._save:692] [PID:3751] Saving model checkpoint to ./outputs/luau-codellama-h200-fast/checkpoint-3996
+                                                                                                                                                                                      {'train_runtime': 17743.6946, 'train_samples_per_second': 1.126, 'train_steps_per_second': 0.225, 'train_loss': 0.5296457291126728, 'memory/max_active (GiB)': 25.53, 'memory/max_allocated (GiB)': 25.53, 'memory/device_reserved (GiB)': 139.06, 'epoch': 3.0}
+100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3996/3996 [4:55:43<00:00,  4.20s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3996/3996 [4:55:43<00:00,  4.44s/it]
+[2025-12-29 07:45:29,344] [INFO] [axolotl.train.save_trained_model:233] [PID:3751] Training completed! Saving trained model to ./outputs/luau-codellama-h200-fast.
+[2025-12-29 07:45:29,658] [INFO] [axolotl.train.save_trained_model:351] [PID:3751] Model successfully saved to ./outputs/luau-codellama-h200-fast
+[0m
\ No newline at end of file