[2025-12-25 22:27:59,815] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:1133] baseline 0.000GB ()
[2025-12-25 22:27:59,815] [INFO] [axolotl.cli.config.load_cfg:248] [PID:1133] config:
{
  "activation_offloading": false,
  "adapter": "qlora",
  "axolotl_config_path": "config.yaml",
  "base_model": "Qwen/Qwen2.5-Coder-14B-Instruct",
  "base_model_config": "Qwen/Qwen2.5-Coder-14B-Instruct",
  "batch_size": 16,
  "bf16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_90",
    "fp8": false,
    "n_gpu": 1,
    "n_node": 1
  },
  "context_parallel_size": 1,
  "dataloader_num_workers": 1,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_processes": 36,
  "datasets": [
    {
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "mbakgun/n8nbuilder-n8n-workflows-dataset",
      "trust_remote_code": false,
      "type": "alpaca"
    }
  ],
  "ddp": false,
  "device": "cuda:0",
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "env_capabilities": {
    "torch_version": "2.7.1"
  },
  "eval_batch_size": 1,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_table_size": 0,
  "experimental_skip_move_to_device": true,
  "flash_attention": true,
  "fp16": false,
  "gradient_accumulation_steps": 16,
  "gradient_checkpointing": true,
  "gradient_checkpointing_kwargs": {
    "use_reentrant": false
  },
  "include_tkps": true,
  "learning_rate": 0.0002,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": true,
  "load_in_8bit": false,
  "local_rank": 0,
  "logging_steps": 1,
  "lora_alpha": 64,
  "lora_dropout": 0.05,
  "lora_r": 32,
  "lora_target_modules": [
    "q_proj",
    "k_proj",
    "v_proj",
    "o_proj",
    "gate_proj",
    "up_proj",
    "down_proj"
  ],
  "loraplus_lr_embedding": 1e-06,
  "lr_scheduler": "cosine",
  "mean_resizing_embeddings": false,
  "micro_batch_size": 1,
  "model_config_type": "qwen2",
  "num_epochs": 3.0,
  "optimizer": "adamw_bnb_8bit",
  "output_dir": "./outputs/qwen25-coder-n8n",
  "pad_to_sequence_len": false,
  "pretrain_multipack_attn": true,
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "resources_per_worker": {
    "GPU": 1
  },
  "sample_packing": false,
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "save_steps": 100,
  "save_strategy": "steps",
  "sequence_len": 8192,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": false,
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tf32": true,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "Qwen/Qwen2.5-Coder-14B-Instruct",
  "tokenizer_save_jinja_files": true,
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": false,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "use_ray": false,
  "val_set_size": 0.0,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "warmup_ratio": 0.1,
  "weight_decay": 0.01,
  "world_size": 1
}
[2025-12-25 22:28:00,313] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:1133] EOS: 151645 / <|im_end|>
[2025-12-25 22:28:00,314] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:1133] BOS: None / None
[2025-12-25 22:28:00,314] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:1133] PAD: 151643 / <|endoftext|>
[2025-12-25 22:28:00,314] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:1133] UNK: None / None
[2025-12-25 22:28:00,314] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:476] [PID:1133] Unable to find prepared dataset in last_run_prepared/fd30d23b351de719c91e124efcc5fe43
[2025-12-25 22:28:00,314] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:1133] Loading raw datasets...
[2025-12-25 22:28:00,314] [WARNING] [axolotl.utils.data.sft._load_raw_datasets:322] [PID:1133] Processing datasets during training can lead to VRAM instability. Please pre-process your dataset using `axolotl preprocess path/to/config.yml`.
[2025-12-25 22:28:00,955] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1133] Loading dataset: mbakgun/n8nbuilder-n8n-workflows-dataset with base_type: alpaca and prompt_style: None
[2025-12-25 22:28:01,168] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:218] [PID:1133] min_input_len: 878
[2025-12-25 22:28:01,168] [INFO] [axolotl.utils.data.utils.handle_long_seq_in_dataset:220] [PID:1133] max_input_len: 12396
Dropping Long Sequences (>8192) (num_proc=36):   0%|                                                                                            | 0/2737 [00:00<?, ? examples/s]Dropping Long Sequences (>8192) (num_proc=36):   3%|██▎                                                                                | 77/2737 [00:00<00:31, 85.60 examples/s]Dropping Long Sequences (>8192) (num_proc=36):  42%|████████████████████████████████▉                                              | 1141/2737 [00:00<00:01, 1531.24 examples/s]Dropping Long Sequences (>8192) (num_proc=36): 100%|███████████████████████████████████████████████████████████████████████████████| 2737/2737 [00:01<00:00, 3888.53 examples/s]Dropping Long Sequences (>8192) (num_proc=36): 100%|███████████████████████████████████████████████████████████████████████████████| 2737/2737 [00:01<00:00, 2115.72 examples/s]
[2025-12-25 22:28:02,540] [WARNING] [axolotl.utils.data.utils.handle_long_seq_in_dataset:260] [PID:1133] Dropped 433 samples from dataset
Saving the dataset (0/9 shards):   0%|                                                                                                          | 0/2304 [00:00<?, ? examples/s]Saving the dataset (0/9 shards):  11%|██████████▌                                                                                    | 256/2304 [00:00<00:02, 916.49 examples/s]Saving the dataset (1/9 shards):  11%|██████████▌                                                                                    | 256/2304 [00:00<00:02, 916.49 examples/s]Saving the dataset (2/9 shards):  33%|███████████████████████████████▋                                                               | 768/2304 [00:00<00:01, 916.49 examples/s]Saving the dataset (3/9 shards):  33%|███████████████████████████████▋                                                               | 768/2304 [00:00<00:01, 916.49 examples/s]Saving the dataset (4/9 shards):  44%|█████████████████████████████████████████▊                                                    | 1024/2304 [00:00<00:01, 916.49 examples/s]Saving the dataset (5/9 shards):  56%|████████████████████████████████████████████████████▏                                         | 1280/2304 [00:00<00:01, 916.49 examples/s]Saving the dataset (6/9 shards):  67%|██████████████████████████████████████████████████████████████▋                               | 1536/2304 [00:00<00:00, 916.49 examples/s]Saving the dataset (7/9 shards):  78%|█████████████████████████████████████████████████████████████████████████                     | 1792/2304 [00:00<00:00, 916.49 examples/s]Saving the dataset (8/9 shards):  89%|███████████████████████████████████████████████████████████████████████████████████▌          | 2048/2304 [00:00<00:00, 916.49 examples/s]Saving the dataset (9/9 shards): 100%|██████████████████████████████████████████████████████████████████████████████████████████████| 2304/2304 [00:00<00:00, 916.49 examples/s]Saving the dataset (9/9 shards): 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 2304/2304 [00:00<00:00, 5976.92 examples/s]
[2025-12-25 22:28:03,194] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:404] [PID:1133] total_num_tokens: 9_507_792
[2025-12-25 22:28:03,238] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:422] [PID:1133] `total_supervised_tokens: 11_572_652`
[2025-12-25 22:28:03,239] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:520] [PID:1133] total_num_steps: 432
[2025-12-25 22:28:03,239] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:1133] Maximum number of steps set at 432
[2025-12-25 22:28:03,267] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:1133] Loading tokenizer... Qwen/Qwen2.5-Coder-14B-Instruct
[2025-12-25 22:28:03,684] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:1133] EOS: 151645 / <|im_end|>
[2025-12-25 22:28:03,684] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:1133] BOS: None / None
[2025-12-25 22:28:03,685] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:1133] PAD: 151643 / <|endoftext|>
[2025-12-25 22:28:03,685] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:1133] UNK: None / None
[2025-12-25 22:28:03,685] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:1133] Loading model
[2025-12-25 22:28:03,736] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:1133] Patched Trainer.evaluation_loop with nanmean loss calculation
[2025-12-25 22:28:03,737] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:1133] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
Loading checkpoint shards:   0%|                                                                                                                          | 0/6 [00:00<?, ?it/s]Loading checkpoint shards:  17%|███████████████████                                                                                               | 1/6 [00:03<00:19,  3.93s/it]Loading checkpoint shards:  33%|██████████████████████████████████████                                                                            | 2/6 [00:09<00:18,  4.62s/it]Loading checkpoint shards:  50%|█████████████████████████████████████████████████████████                                                         | 3/6 [00:14<00:14,  4.80s/it]Loading checkpoint shards:  67%|████████████████████████████████████████████████████████████████████████████                                      | 4/6 [00:19<00:09,  4.89s/it]Loading checkpoint shards:  83%|███████████████████████████████████████████████████████████████████████████████████████████████                   | 5/6 [00:24<00:04,  4.91s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:27<00:00,  4.42s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:27<00:00,  4.58s/it]
[2025-12-25 22:28:32,092] [INFO] [axolotl.loaders.model._prepare_model_for_quantization:863] [PID:1133] converting PEFT model w/ prepare_model_for_kbit_training
[2025-12-25 22:28:32,098] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:1133] Converting modules to torch.bfloat16
[2025-12-25 22:28:32,100] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:1133] Memory usage after model load 13.888GB (+13.888GB allocated, +15.756GB reserved)
trainable params: 137,625,600 || all params: 14,907,659,264 || trainable%: 0.9232
[2025-12-25 22:28:33,795] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:1133] after adapters 9.900GB (+9.900GB allocated, +16.031GB reserved)
[2025-12-25 22:28:40,857] [INFO] [axolotl.train.save_initial_configs:398] [PID:1133] Pre-saving adapter config to ./outputs/qwen25-coder-n8n...
[2025-12-25 22:28:40,857] [INFO] [axolotl.train.save_initial_configs:402] [PID:1133] Pre-saving tokenizer to ./outputs/qwen25-coder-n8n...
[2025-12-25 22:28:41,011] [INFO] [axolotl.train.save_initial_configs:407] [PID:1133] Pre-saving model config to ./outputs/qwen25-coder-n8n...
[2025-12-25 22:28:41,013] [INFO] [axolotl.train.execute_training:196] [PID:1133] Starting trainer...
  0%|                                                                                                                                                   | 0/432 [00:00<?, ?it/s]  0%|▎                                                                                                                                        | 1/432 [00:33<4:03:10, 33.85s/it]                                                                                                                                                                                {'loss': 1.0821, 'grad_norm': 0.09848134219646454, 'learning_rate': 0.0, 'memory/max_active (GiB)': 27.69, 'memory/max_allocated (GiB)': 27.69, 'memory/device_reserved (GiB)': 30.8, 'tokens_per_second_per_gpu': 1763.68, 'epoch': 0.01}
  0%|▎                                                                                                                                        | 1/432 [00:33<4:03:10, 33.85s/it]  0%|▋                                                                                                                                        | 2/432 [01:03<3:44:28, 31.32s/it]                                                                                                                                                                                {'loss': 1.2119, 'grad_norm': 0.11234692484140396, 'learning_rate': 4.651162790697674e-06, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 31.05, 'tokens_per_second_per_gpu': 1834.64, 'epoch': 0.01}
  0%|▋                                                                                                                                        | 2/432 [01:03<3:44:28, 31.32s/it]  1%|▉                                                                                                                                        | 3/432 [01:33<3:40:04, 30.78s/it]                                                                                                                                                                                {'loss': 1.2053, 'grad_norm': 0.11071926355361938, 'learning_rate': 9.302325581395349e-06, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 31.05, 'tokens_per_second_per_gpu': 1875.82, 'epoch': 0.02}
  1%|▉                                                                                                                                        | 3/432 [01:33<3:40:04, 30.78s/it]  1%|█▎                                                                                                                                       | 4/432 [02:07<3:49:36, 32.19s/it]                                                                                                                                                                                {'loss': 1.0514, 'grad_norm': 0.10147764533758163, 'learning_rate': 1.3953488372093024e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.27, 'tokens_per_second_per_gpu': 1792.72, 'epoch': 0.03}
  1%|█▎                                                                                                                                       | 4/432 [02:07<3:49:36, 32.19s/it]  1%|█▌                                                                                                                                       | 5/432 [02:41<3:51:32, 32.54s/it]                                                                                                                                                                                {'loss': 1.209, 'grad_norm': 0.10568977892398834, 'learning_rate': 1.8604651162790697e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.27, 'tokens_per_second_per_gpu': 1840.61, 'epoch': 0.03}
  1%|█▌                                                                                                                                       | 5/432 [02:41<3:51:32, 32.54s/it]  1%|█▉                                                                                                                                       | 6/432 [03:13<3:51:42, 32.63s/it]                                                                                                                                                                                {'loss': 1.0817, 'grad_norm': 0.10363873094320297, 'learning_rate': 2.3255813953488374e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.27, 'tokens_per_second_per_gpu': 1784.92, 'epoch': 0.04}
  1%|█▉                                                                                                                                       | 6/432 [03:13<3:51:42, 32.63s/it]  2%|██▏                                                                                                                                      | 7/432 [03:52<4:04:08, 34.47s/it]                                                                                                                                                                                {'loss': 1.1571, 'grad_norm': 0.113986074924469, 'learning_rate': 2.7906976744186048e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1892.63, 'epoch': 0.05}
  2%|██▏                                                                                                                                      | 7/432 [03:52<4:04:08, 34.47s/it]  2%|██▌                                                                                                                                      | 8/432 [04:26<4:02:41, 34.34s/it]                                                                                                                                                                                {'loss': 1.1444, 'grad_norm': 0.1191892921924591, 'learning_rate': 3.2558139534883724e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1863.93, 'epoch': 0.06}
  2%|██▌                                                                                                                                      | 8/432 [04:26<4:02:41, 34.34s/it]  2%|██▊                                                                                                                                      | 9/432 [04:54<3:49:22, 32.53s/it]                                                                                                                                                                                {'loss': 1.1786, 'grad_norm': 0.11628979444503784, 'learning_rate': 3.7209302325581394e-05, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1764.21, 'epoch': 0.06}
  2%|██▊                                                                                                                                      | 9/432 [04:54<3:49:22, 32.53s/it]  2%|███▏                                                                                                                                    | 10/432 [05:25<3:44:45, 31.96s/it]                                                                                                                                                                                {'loss': 1.0695, 'grad_norm': 0.10155434161424637, 'learning_rate': 4.186046511627907e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1823.2, 'epoch': 0.07}
  2%|███▏                                                                                                                                    | 10/432 [05:25<3:44:45, 31.96s/it]  3%|███▍                                                                                                                                    | 11/432 [06:01<3:52:59, 33.21s/it]                                                                                                                                                                                {'loss': 1.0805, 'grad_norm': 0.08485760539770126, 'learning_rate': 4.651162790697675e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1805.0, 'epoch': 0.08}
  3%|███▍                                                                                                                                    | 11/432 [06:01<3:52:59, 33.21s/it]  3%|███▊                                                                                                                                    | 12/432 [06:30<3:44:23, 32.05s/it]                                                                                                                                                                                {'loss': 1.0824, 'grad_norm': 0.07211048156023026, 'learning_rate': 5.1162790697674425e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1799.74, 'epoch': 0.08}
  3%|███▊                                                                                                                                    | 12/432 [06:30<3:44:23, 32.05s/it]  3%|████                                                                                                                                    | 13/432 [07:04<3:47:30, 32.58s/it]                                                                                                                                                                                {'loss': 1.0264, 'grad_norm': 0.06483420729637146, 'learning_rate': 5.5813953488372095e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1798.61, 'epoch': 0.09}
  3%|████                                                                                                                                    | 13/432 [07:04<3:47:30, 32.58s/it]  3%|████▍                                                                                                                                   | 14/432 [07:32<3:37:27, 31.21s/it]                                                                                                                                                                                {'loss': 1.0967, 'grad_norm': 0.06657296419143677, 'learning_rate': 6.0465116279069765e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1788.44, 'epoch': 0.1}
  3%|████▍                                                                                                                                   | 14/432 [07:32<3:37:27, 31.21s/it]  3%|████▋                                                                                                                                   | 15/432 [07:59<3:26:38, 29.73s/it]                                                                                                                                                                                {'loss': 1.1489, 'grad_norm': 0.195042684674263, 'learning_rate': 6.511627906976745e-05, 'memory/max_active (GiB)': 24.8, 'memory/max_allocated (GiB)': 24.8, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1785.21, 'epoch': 0.1}
  3%|████▋                                                                                                                                   | 15/432 [07:59<3:26:38, 29.73s/it]  4%|█████                                                                                                                                   | 16/432 [08:26<3:21:43, 29.10s/it]                                                                                                                                                                                {'loss': 1.0985, 'grad_norm': 0.07728952169418335, 'learning_rate': 6.976744186046513e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1752.91, 'epoch': 0.11}
  4%|█████                                                                                                                                   | 16/432 [08:26<3:21:43, 29.10s/it]  4%|█████▎                                                                                                                                  | 17/432 [08:55<3:20:08, 28.93s/it]                                                                                                                                                                                {'loss': 1.1112, 'grad_norm': 0.08134876191616058, 'learning_rate': 7.441860465116279e-05, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1813.48, 'epoch': 0.12}
  4%|█████▎                                                                                                                                  | 17/432 [08:55<3:20:08, 28.93s/it]  4%|█████▋                                                                                                                                  | 18/432 [09:24<3:20:20, 29.04s/it]                                                                                                                                                                                {'loss': 1.0222, 'grad_norm': 0.08289807289838791, 'learning_rate': 7.906976744186047e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1852.47, 'epoch': 0.12}
  4%|█████▋                                                                                                                                  | 18/432 [09:24<3:20:20, 29.04s/it]  4%|█████▉                                                                                                                                  | 19/432 [09:50<3:12:40, 27.99s/it]                                                                                                                                                                                {'loss': 1.1493, 'grad_norm': 0.09635733813047409, 'learning_rate': 8.372093023255814e-05, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1745.06, 'epoch': 0.13}
  4%|█████▉                                                                                                                                  | 19/432 [09:50<3:12:40, 27.99s/it]  5%|██████▎                                                                                                                                 | 20/432 [10:16<3:09:20, 27.57s/it]                                                                                                                                                                                {'loss': 0.9912, 'grad_norm': 0.08602173626422882, 'learning_rate': 8.837209302325582e-05, 'memory/max_active (GiB)': 26.25, 'memory/max_allocated (GiB)': 26.25, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1758.58, 'epoch': 0.14}
  5%|██████▎                                                                                                                                 | 20/432 [10:16<3:09:20, 27.57s/it]  5%|██████▌                                                                                                                                 | 21/432 [10:45<3:11:39, 27.98s/it]                                                                                                                                                                                {'loss': 1.1637, 'grad_norm': 0.08320974558591843, 'learning_rate': 9.30232558139535e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.33, 'tokens_per_second_per_gpu': 1772.58, 'epoch': 0.15}
  5%|██████▌                                                                                                                                 | 21/432 [10:45<3:11:39, 27.98s/it]  5%|██████▉                                                                                                                                 | 22/432 [11:22<3:29:56, 30.72s/it]                                                                                                                                                                                {'loss': 1.0209, 'grad_norm': 0.0785663053393364, 'learning_rate': 9.767441860465116e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1822.66, 'epoch': 0.15}
  5%|██████▉                                                                                                                                 | 22/432 [11:22<3:29:56, 30.72s/it]  5%|███████▏                                                                                                                                | 23/432 [11:55<3:33:42, 31.35s/it]                                                                                                                                                                                {'loss': 0.9858, 'grad_norm': 0.07734047621488571, 'learning_rate': 0.00010232558139534885, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1889.88, 'epoch': 0.16}
  5%|███████▏                                                                                                                                | 23/432 [11:55<3:33:42, 31.35s/it]  6%|███████▌                                                                                                                                | 24/432 [12:27<3:35:25, 31.68s/it]                                                                                                                                                                                {'loss': 1.0003, 'grad_norm': 0.07255646586418152, 'learning_rate': 0.00010697674418604651, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1833.16, 'epoch': 0.17}
  6%|███████▌                                                                                                                                | 24/432 [12:27<3:35:25, 31.68s/it]  6%|███████▊                                                                                                                                | 25/432 [13:04<3:45:06, 33.19s/it]                                                                                                                                                                                {'loss': 1.0143, 'grad_norm': 0.07897679507732391, 'learning_rate': 0.00011162790697674419, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1900.98, 'epoch': 0.17}
  6%|███████▊                                                                                                                                | 25/432 [13:04<3:45:06, 33.19s/it]  6%|████████▏                                                                                                                               | 26/432 [13:29<3:28:01, 30.74s/it]                                                                                                                                                                                {'loss': 1.0341, 'grad_norm': 0.09510312229394913, 'learning_rate': 0.00011627906976744187, 'memory/max_active (GiB)': 23.18, 'memory/max_allocated (GiB)': 23.18, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1701.34, 'epoch': 0.18}
  6%|████████▏                                                                                                                               | 26/432 [13:29<3:28:01, 30.74s/it]  6%|████████▌                                                                                                                               | 27/432 [14:03<3:33:11, 31.58s/it]                                                                                                                                                                                {'loss': 1.0004, 'grad_norm': 0.07016909122467041, 'learning_rate': 0.00012093023255813953, 'memory/max_active (GiB)': 28.38, 'memory/max_allocated (GiB)': 28.38, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1891.5, 'epoch': 0.19}
  6%|████████▌                                                                                                                               | 27/432 [14:03<3:33:11, 31.58s/it]  6%|████████▊                                                                                                                               | 28/432 [14:40<3:45:02, 33.42s/it]                                                                                                                                                                                {'loss': 0.9588, 'grad_norm': 0.07151541113853455, 'learning_rate': 0.0001255813953488372, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1890.08, 'epoch': 0.19}
  6%|████████▊                                                                                                                               | 28/432 [14:40<3:45:02, 33.42s/it]  7%|█████████▏                                                                                                                              | 29/432 [15:12<3:39:52, 32.74s/it]                                                                                                                                                                                {'loss': 1.0078, 'grad_norm': 0.07155290246009827, 'learning_rate': 0.0001302325581395349, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1759.11, 'epoch': 0.2}
  7%|█████████▏                                                                                                                              | 29/432 [15:12<3:39:52, 32.74s/it]  7%|█████████▍                                                                                                                              | 30/432 [15:39<3:27:49, 31.02s/it]                                                                                                                                                                                {'loss': 1.0343, 'grad_norm': 0.08267220109701157, 'learning_rate': 0.00013488372093023256, 'memory/max_active (GiB)': 26.49, 'memory/max_allocated (GiB)': 26.49, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1794.99, 'epoch': 0.21}
  7%|█████████▍                                                                                                                              | 30/432 [15:39<3:27:49, 31.02s/it]  7%|█████████▊                                                                                                                              | 31/432 [16:13<3:34:58, 32.17s/it]                                                                                                                                                                                {'loss': 0.9155, 'grad_norm': 0.06379543989896774, 'learning_rate': 0.00013953488372093025, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1829.94, 'epoch': 0.22}
  7%|█████████▊                                                                                                                              | 31/432 [16:13<3:34:58, 32.17s/it]  7%|██████████                                                                                                                              | 32/432 [16:40<3:23:21, 30.50s/it]                                                                                                                                                                                {'loss': 1.0727, 'grad_norm': 0.07846751064062119, 'learning_rate': 0.00014418604651162791, 'memory/max_active (GiB)': 23.79, 'memory/max_allocated (GiB)': 23.79, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1854.31, 'epoch': 0.22}
  7%|██████████                                                                                                                              | 32/432 [16:40<3:23:21, 30.50s/it]  8%|██████████▍                                                                                                                             | 33/432 [17:11<3:23:04, 30.54s/it]                                                                                                                                                                                {'loss': 1.0472, 'grad_norm': 0.07601239532232285, 'learning_rate': 0.00014883720930232558, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1806.02, 'epoch': 0.23}
  8%|██████████▍                                                                                                                             | 33/432 [17:11<3:23:04, 30.54s/it]  8%|██████████▋                                                                                                                             | 34/432 [17:38<3:15:19, 29.45s/it]                                                                                                                                                                                {'loss': 1.034, 'grad_norm': 0.09074926376342773, 'learning_rate': 0.00015348837209302327, 'memory/max_active (GiB)': 23.79, 'memory/max_allocated (GiB)': 23.79, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1814.81, 'epoch': 0.24}
  8%|██████████▋                                                                                                                             | 34/432 [17:38<3:15:19, 29.45s/it]  8%|███████████                                                                                                                             | 35/432 [18:09<3:19:04, 30.09s/it]                                                                                                                                                                                {'loss': 0.9786, 'grad_norm': 0.07441543787717819, 'learning_rate': 0.00015813953488372093, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1865.18, 'epoch': 0.24}
  8%|███████████                                                                                                                             | 35/432 [18:09<3:19:04, 30.09s/it]  8%|███████████▎                                                                                                                            | 36/432 [18:43<3:26:48, 31.33s/it]                                                                                                                                                                                {'loss': 0.9218, 'grad_norm': 0.08436308056116104, 'learning_rate': 0.00016279069767441862, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1860.2, 'epoch': 0.25}
  8%|███████████▎                                                                                                                            | 36/432 [18:43<3:26:48, 31.33s/it]  9%|███████████▋                                                                                                                            | 37/432 [19:13<3:22:58, 30.83s/it]                                                                                                                                                                                {'loss': 1.0504, 'grad_norm': 0.07554468512535095, 'learning_rate': 0.00016744186046511629, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1816.31, 'epoch': 0.26}
  9%|███████████▋                                                                                                                            | 37/432 [19:13<3:22:58, 30.83s/it]  9%|███████████▉                                                                                                                            | 38/432 [19:44<3:22:43, 30.87s/it]                                                                                                                                                                                {'loss': 0.9141, 'grad_norm': 0.09911656379699707, 'learning_rate': 0.00017209302325581395, 'memory/max_active (GiB)': 26.26, 'memory/max_allocated (GiB)': 26.26, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1863.8, 'epoch': 0.26}
  9%|███████████▉                                                                                                                            | 38/432 [19:44<3:22:43, 30.87s/it]  9%|████████████▎                                                                                                                           | 39/432 [20:06<3:03:55, 28.08s/it]                                                                                                                                                                                {'loss': 1.0342, 'grad_norm': 0.07778877764940262, 'learning_rate': 0.00017674418604651164, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1619.33, 'epoch': 0.27}
  9%|████████████▎                                                                                                                           | 39/432 [20:06<3:03:55, 28.08s/it]  9%|████████████▌                                                                                                                           | 40/432 [20:35<3:05:18, 28.36s/it]                                                                                                                                                                                {'loss': 0.9365, 'grad_norm': 0.09776122868061066, 'learning_rate': 0.0001813953488372093, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1708.88, 'epoch': 0.28}
  9%|████████████▌                                                                                                                           | 40/432 [20:35<3:05:18, 28.36s/it]  9%|████████████▉                                                                                                                           | 41/432 [21:07<3:12:06, 29.48s/it]                                                                                                                                                                                {'loss': 0.9455, 'grad_norm': 0.09212527424097061, 'learning_rate': 0.000186046511627907, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1854.36, 'epoch': 0.28}
  9%|████████████▉                                                                                                                           | 41/432 [21:07<3:12:06, 29.48s/it] 10%|█████████████▏                                                                                                                          | 42/432 [21:32<3:03:44, 28.27s/it]                                                                                                                                                                                {'loss': 0.9964, 'grad_norm': 0.1160384938120842, 'learning_rate': 0.00019069767441860466, 'memory/max_active (GiB)': 23.7, 'memory/max_allocated (GiB)': 23.7, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1775.41, 'epoch': 0.29}
 10%|█████████████▏                                                                                                                          | 42/432 [21:32<3:03:44, 28.27s/it] 10%|█████████████▌                                                                                                                          | 43/432 [22:02<3:06:18, 28.74s/it]                                                                                                                                                                                {'loss': 0.8627, 'grad_norm': 0.06805545091629028, 'learning_rate': 0.00019534883720930232, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1830.25, 'epoch': 0.3}
 10%|█████████████▌                                                                                                                          | 43/432 [22:02<3:06:18, 28.74s/it] 10%|█████████████▊                                                                                                                          | 44/432 [22:35<3:13:22, 29.90s/it]                                                                                                                                                                                {'loss': 0.9417, 'grad_norm': 0.06951376795768738, 'learning_rate': 0.0002, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1843.05, 'epoch': 0.31}
 10%|█████████████▊                                                                                                                          | 44/432 [22:35<3:13:22, 29.90s/it] 10%|██████████████▏                                                                                                                         | 45/432 [23:07<3:18:05, 30.71s/it]                                                                                                                                                                                {'loss': 0.9017, 'grad_norm': 0.06728649139404297, 'learning_rate': 0.00019999673886943734, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1889.73, 'epoch': 0.31}
 10%|██████████████▏                                                                                                                         | 45/432 [23:07<3:18:05, 30.71s/it] 11%|██████████████▍                                                                                                                         | 46/432 [23:39<3:19:09, 30.96s/it]                                                                                                                                                                                {'loss': 1.0087, 'grad_norm': 0.0888209342956543, 'learning_rate': 0.0001999869556904488, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1805.58, 'epoch': 0.32}
 11%|██████████████▍                                                                                                                         | 46/432 [23:39<3:19:09, 30.96s/it] 11%|██████████████▊                                                                                                                         | 47/432 [24:08<3:16:18, 30.59s/it]                                                                                                                                                                                {'loss': 0.9246, 'grad_norm': 0.07477093487977982, 'learning_rate': 0.00019997065110111885, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1807.73, 'epoch': 0.33}
 11%|██████████████▊                                                                                                                         | 47/432 [24:08<3:16:18, 30.59s/it] 11%|███████████████                                                                                                                         | 48/432 [24:39<3:15:53, 30.61s/it]                                                                                                                                                                                {'loss': 0.936, 'grad_norm': 0.08000776916742325, 'learning_rate': 0.00019994782616487538, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1732.16, 'epoch': 0.33}
 11%|███████████████                                                                                                                         | 48/432 [24:39<3:15:53, 30.61s/it] 11%|███████████████▍                                                                                                                        | 49/432 [25:06<3:08:03, 29.46s/it]                                                                                                                                                                                {'loss': 0.9732, 'grad_norm': 0.2703610956668854, 'learning_rate': 0.00019991848237042035, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1814.28, 'epoch': 0.34}
 11%|███████████████▍                                                                                                                        | 49/432 [25:06<3:08:03, 29.46s/it] 12%|███████████████▋                                                                                                                        | 50/432 [25:34<3:04:18, 28.95s/it]                                                                                                                                                                                {'loss': 0.9867, 'grad_norm': 0.08173573762178421, 'learning_rate': 0.00019988262163163264, 'memory/max_active (GiB)': 26.25, 'memory/max_allocated (GiB)': 26.25, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1746.16, 'epoch': 0.35}
 12%|███████████████▋                                                                                                                        | 50/432 [25:34<3:04:18, 28.95s/it] 12%|████████████████                                                                                                                        | 51/432 [26:06<3:10:51, 30.06s/it]                                                                                                                                                                                {'loss': 0.9353, 'grad_norm': 0.06703449040651321, 'learning_rate': 0.00019984024628744328, 'memory/max_active (GiB)': 25.31, 'memory/max_allocated (GiB)': 25.31, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1803.49, 'epoch': 0.35}
 12%|████████████████                                                                                                                        | 51/432 [26:06<3:10:51, 30.06s/it] 12%|████████████████▎                                                                                                                       | 52/432 [26:31<3:00:46, 28.54s/it]                                                                                                                                                                                {'loss': 0.9705, 'grad_norm': 0.0770621970295906, 'learning_rate': 0.0001997913591016829, 'memory/max_active (GiB)': 27.44, 'memory/max_allocated (GiB)': 27.44, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1805.23, 'epoch': 0.36}
 12%|████████████████▎                                                                                                                       | 52/432 [26:31<3:00:46, 28.54s/it] 12%|████████████████▋                                                                                                                       | 53/432 [27:04<3:08:21, 29.82s/it]                                                                                                                                                                                {'loss': 0.9082, 'grad_norm': 0.08800782263278961, 'learning_rate': 0.00019973596326290137, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1787.79, 'epoch': 0.37}
 12%|████████████████▋                                                                                                                       | 53/432 [27:04<3:08:21, 29.82s/it] 12%|█████████████████                                                                                                                       | 54/432 [27:38<3:16:01, 31.11s/it]                                                                                                                                                                                {'loss': 0.964, 'grad_norm': 0.0656328946352005, 'learning_rate': 0.00019967406238415998, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1888.13, 'epoch': 0.38}
 12%|█████████████████                                                                                                                       | 54/432 [27:38<3:16:01, 31.11s/it] 13%|█████████████████▎                                                                                                                      | 55/432 [28:08<3:13:44, 30.84s/it]                                                                                                                                                                                {'loss': 0.918, 'grad_norm': 0.09178014099597931, 'learning_rate': 0.00019960566050279566, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1822.06, 'epoch': 0.38}
 13%|█████████████████▎                                                                                                                      | 55/432 [28:08<3:13:44, 30.84s/it] 13%|█████████████████▋                                                                                                                      | 56/432 [28:34<3:03:56, 29.35s/it]                                                                                                                                                                                {'loss': 1.0078, 'grad_norm': 0.07544898241758347, 'learning_rate': 0.00019953076208015772, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1779.76, 'epoch': 0.39}
 13%|█████████████████▋                                                                                                                      | 56/432 [28:34<3:03:56, 29.35s/it] 13%|█████████████████▉                                                                                                                      | 57/432 [29:07<3:09:09, 30.27s/it]                                                                                                                                                                                {'loss': 0.952, 'grad_norm': 0.07013165950775146, 'learning_rate': 0.0001994493720013169, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1875.9, 'epoch': 0.4}
 13%|█████████████████▉                                                                                                                      | 57/432 [29:07<3:09:09, 30.27s/it] 13%|██████████████████▎                                                                                                                     | 58/432 [29:36<3:06:17, 29.89s/it]                                                                                                                                                                                {'loss': 0.9751, 'grad_norm': 0.2212851643562317, 'learning_rate': 0.00019936149557474666, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1808.54, 'epoch': 0.4}
 13%|██████████████████▎                                                                                                                     | 58/432 [29:36<3:06:17, 29.89s/it] 14%|██████████████████▌                                                                                                                     | 59/432 [30:09<3:12:19, 30.94s/it]                                                                                                                                                                                {'loss': 0.9055, 'grad_norm': 0.0661102756857872, 'learning_rate': 0.00019926713853197695, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1802.3, 'epoch': 0.41}
 14%|██████████████████▌                                                                                                                     | 59/432 [30:09<3:12:19, 30.94s/it] 14%|██████████████████▉                                                                                                                     | 60/432 [30:40<3:12:31, 31.05s/it]                                                                                                                                                                                {'loss': 0.9826, 'grad_norm': 0.08663811534643173, 'learning_rate': 0.0001991663070272206, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1707.88, 'epoch': 0.42}
 14%|██████████████████▉                                                                                                                     | 60/432 [30:40<3:12:31, 31.05s/it] 14%|███████████████████▏                                                                                                                    | 61/432 [31:14<3:15:52, 31.68s/it]                                                                                                                                                                                {'loss': 0.9759, 'grad_norm': 0.07683200389146805, 'learning_rate': 0.0001990590076369715, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1895.98, 'epoch': 0.42}
 14%|███████████████████▏                                                                                                                    | 61/432 [31:14<3:15:52, 31.68s/it] 14%|███████████████████▌                                                                                                                    | 62/432 [31:45<3:14:33, 31.55s/it]                                                                                                                                                                                {'loss': 0.9168, 'grad_norm': 0.07595925778150558, 'learning_rate': 0.00019894524735957622, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1797.18, 'epoch': 0.43}
 14%|███████████████████▌                                                                                                                    | 62/432 [31:45<3:14:33, 31.55s/it] 15%|███████████████████▊                                                                                                                    | 63/432 [32:13<3:08:40, 30.68s/it]                                                                                                                                                                                {'loss': 0.9679, 'grad_norm': 0.07661418616771698, 'learning_rate': 0.00019882503361477705, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1830.69, 'epoch': 0.44}
 15%|███████████████████▊                                                                                                                    | 63/432 [32:13<3:08:40, 30.68s/it] 15%|████████████████████▏                                                                                                                   | 64/432 [32:44<3:08:27, 30.73s/it]                                                                                                                                                                                {'loss': 0.9592, 'grad_norm': 0.08054457604885101, 'learning_rate': 0.00019869837424322829, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1798.08, 'epoch': 0.44}
 15%|████████████████████▏                                                                                                                   | 64/432 [32:44<3:08:27, 30.73s/it] 15%|████████████████████▍                                                                                                                   | 65/432 [33:15<3:08:07, 30.76s/it]                                                                                                                                                                                {'loss': 0.9257, 'grad_norm': 0.08320043236017227, 'learning_rate': 0.00019856527750598493, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1795.23, 'epoch': 0.45}
 15%|████████████████████▍                                                                                                                   | 65/432 [33:15<3:08:07, 30.76s/it] 15%|████████████████████▊                                                                                                                   | 66/432 [33:49<3:13:58, 31.80s/it]                                                                                                                                                                                {'loss': 0.8969, 'grad_norm': 0.0733579471707344, 'learning_rate': 0.00019842575208396372, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1861.37, 'epoch': 0.46}
 15%|████████████████████▊                                                                                                                   | 66/432 [33:49<3:13:58, 31.80s/it] 16%|█████████████████████                                                                                                                   | 67/432 [34:22<3:14:20, 31.95s/it]                                                                                                                                                                                {'loss': 0.8604, 'grad_norm': 0.29595091938972473, 'learning_rate': 0.00019827980707737703, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1844.94, 'epoch': 0.47}
 16%|█████████████████████                                                                                                                   | 67/432 [34:22<3:14:20, 31.95s/it] 16%|█████████████████████▍                                                                                                                  | 68/432 [34:51<3:09:19, 31.21s/it]                                                                                                                                                                                {'loss': 0.9479, 'grad_norm': 0.10486430674791336, 'learning_rate': 0.00019812745200513927, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1823.2, 'epoch': 0.47}
 16%|█████████████████████▍                                                                                                                  | 68/432 [34:51<3:09:19, 31.21s/it] 16%|█████████████████████▋                                                                                                                  | 69/432 [35:28<3:18:46, 32.85s/it]                                                                                                                                                                                {'loss': 0.9287, 'grad_norm': 0.13543325662612915, 'learning_rate': 0.0001979686968042461, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1821.33, 'epoch': 0.48}
 16%|█████████████████████▋                                                                                                                  | 69/432 [35:28<3:18:46, 32.85s/it] 16%|██████████████████████                                                                                                                  | 70/432 [36:00<3:16:21, 32.55s/it]                                                                                                                                                                                {'loss': 0.9248, 'grad_norm': 0.07873474061489105, 'learning_rate': 0.00019780355182912626, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1771.5, 'epoch': 0.49}
 16%|██████████████████████                                                                                                                  | 70/432 [36:00<3:16:21, 32.55s/it] 16%|██████████████████████▎                                                                                                                 | 71/432 [36:30<3:11:56, 31.90s/it]                                                                                                                                                                                {'loss': 0.9172, 'grad_norm': 0.06926668435335159, 'learning_rate': 0.0001976320278509663, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1875.05, 'epoch': 0.49}
 16%|██████████████████████▎                                                                                                                 | 71/432 [36:30<3:11:56, 31.90s/it] 17%|██████████████████████▋                                                                                                                 | 72/432 [37:06<3:19:18, 33.22s/it]                                                                                                                                                                                {'loss': 0.8823, 'grad_norm': 0.08082268387079239, 'learning_rate': 0.0001974541360570079, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1865.89, 'epoch': 0.5}
 17%|██████████████████████▋                                                                                                                 | 72/432 [37:06<3:19:18, 33.22s/it] 17%|██████████████████████▉                                                                                                                 | 73/432 [37:37<3:14:13, 32.46s/it]                                                                                                                                                                                {'loss': 0.9185, 'grad_norm': 0.07178379595279694, 'learning_rate': 0.00019726988804981844, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1854.53, 'epoch': 0.51}
 17%|██████████████████████▉                                                                                                                 | 73/432 [37:37<3:14:13, 32.46s/it] 17%|███████████████████████▎                                                                                                                | 74/432 [38:09<3:12:00, 32.18s/it]                                                                                                                                                                                {'loss': 0.9461, 'grad_norm': 0.07196955382823944, 'learning_rate': 0.00019707929584653408, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1820.12, 'epoch': 0.51}
 17%|███████████████████████▎                                                                                                                | 74/432 [38:09<3:12:00, 32.18s/it] 17%|███████████████████████▌                                                                                                                | 75/432 [38:35<3:01:38, 30.53s/it]                                                                                                                                                                                {'loss': 1.0447, 'grad_norm': 0.07153692096471786, 'learning_rate': 0.00019688237187807594, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1809.64, 'epoch': 0.52}
 17%|███████████████████████▌                                                                                                                | 75/432 [38:35<3:01:38, 30.53s/it] 18%|███████████████████████▉                                                                                                                | 76/432 [39:04<2:57:30, 29.92s/it]                                                                                                                                                                                {'loss': 0.8106, 'grad_norm': 0.06721945106983185, 'learning_rate': 0.00019667912898833955, 'memory/max_active (GiB)': 23.22, 'memory/max_allocated (GiB)': 23.22, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1785.2, 'epoch': 0.53}
 18%|███████████████████████▉                                                                                                                | 76/432 [39:04<2:57:30, 29.92s/it] 18%|████████████████████████▏                                                                                                               | 77/432 [39:35<2:58:54, 30.24s/it]                                                                                                                                                                                {'loss': 0.9299, 'grad_norm': 0.08322236686944962, 'learning_rate': 0.00019646958043335677, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1836.34, 'epoch': 0.53}
 18%|████████████████████████▏                                                                                                               | 77/432 [39:35<2:58:54, 30.24s/it] 18%|████████████████████████▌                                                                                                               | 78/432 [40:07<3:02:40, 30.96s/it]                                                                                                                                                                                {'loss': 0.9262, 'grad_norm': 0.06773433834314346, 'learning_rate': 0.00019625373988043165, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1850.19, 'epoch': 0.54}
 18%|████████████████████████▌                                                                                                               | 78/432 [40:07<3:02:40, 30.96s/it] 18%|████████████████████████▊                                                                                                               | 79/432 [40:40<3:05:38, 31.55s/it]                                                                                                                                                                                {'loss': 0.9067, 'grad_norm': 0.06558340042829514, 'learning_rate': 0.00019603162140724862, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1876.53, 'epoch': 0.55}
 18%|████████████████████████▊                                                                                                               | 79/432 [40:40<3:05:38, 31.55s/it] 19%|█████████████████████████▏                                                                                                              | 80/432 [41:07<2:56:33, 30.10s/it]                                                                                                                                                                                {'loss': 0.8971, 'grad_norm': 0.06962298601865768, 'learning_rate': 0.0001958032395009545, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1767.39, 'epoch': 0.56}
 19%|█████████████████████████▏                                                                                                              | 80/432 [41:07<2:56:33, 30.10s/it] 19%|█████████████████████████▌                                                                                                              | 81/432 [41:32<2:47:00, 28.55s/it]                                                                                                                                                                                {'loss': 0.9593, 'grad_norm': 0.08821487426757812, 'learning_rate': 0.00019556860905721362, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1789.22, 'epoch': 0.56}
 19%|█████████████████████████▌                                                                                                              | 81/432 [41:32<2:47:00, 28.55s/it] 19%|█████████████████████████▊                                                                                                              | 82/432 [42:00<2:45:10, 28.32s/it]                                                                                                                                                                                {'loss': 0.9409, 'grad_norm': 0.07249249517917633, 'learning_rate': 0.00019532774537923617, 'memory/max_active (GiB)': 27.44, 'memory/max_allocated (GiB)': 27.44, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1764.78, 'epoch': 0.57}
 19%|█████████████████████████▊                                                                                                              | 82/432 [42:00<2:45:10, 28.32s/it] 19%|██████████████████████████▏                                                                                                             | 83/432 [42:29<2:46:56, 28.70s/it]                                                                                                                                                                                {'loss': 0.8989, 'grad_norm': 0.08999690413475037, 'learning_rate': 0.00019508066417678018, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1821.55, 'epoch': 0.58}
 19%|██████████████████████████▏                                                                                                             | 83/432 [42:29<2:46:56, 28.70s/it] 19%|██████████████████████████▍                                                                                                             | 84/432 [43:05<2:58:37, 30.80s/it]                                                                                                                                                                                {'loss': 0.957, 'grad_norm': 0.06516412645578384, 'learning_rate': 0.00019482738156512692, 'memory/max_active (GiB)': 28.38, 'memory/max_allocated (GiB)': 28.38, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1902.34, 'epoch': 0.58}
 19%|██████████████████████████▍                                                                                                             | 84/432 [43:05<2:58:37, 30.80s/it] 20%|██████████████████████████▊                                                                                                             | 85/432 [43:39<3:03:34, 31.74s/it]                                                                                                                                                                                {'loss': 0.9576, 'grad_norm': 0.0862964540719986, 'learning_rate': 0.00019456791406402964, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1848.41, 'epoch': 0.59}
 20%|██████████████████████████▊                                                                                                             | 85/432 [43:39<3:03:34, 31.74s/it] 20%|███████████████████████████                                                                                                             | 86/432 [44:14<3:08:38, 32.71s/it]                                                                                                                                                                                {'loss': 0.9729, 'grad_norm': 0.11609019339084625, 'learning_rate': 0.00019430227859663633, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1869.76, 'epoch': 0.6}
 20%|███████████████████████████                                                                                                             | 86/432 [44:14<3:08:38, 32.71s/it] 20%|███████████████████████████▍                                                                                                            | 87/432 [44:44<3:03:59, 32.00s/it]                                                                                                                                                                                {'loss': 0.9315, 'grad_norm': 0.08986852318048477, 'learning_rate': 0.00019403049248838578, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1824.83, 'epoch': 0.6}
 20%|███████████████████████████▍                                                                                                            | 87/432 [44:44<3:03:59, 32.00s/it] 20%|███████████████████████████▋                                                                                                            | 88/432 [45:11<2:53:53, 30.33s/it]                                                                                                                                                                                {'loss': 0.9937, 'grad_norm': 0.08460818976163864, 'learning_rate': 0.00019375257346587773, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1763.25, 'epoch': 0.61}
 20%|███████████████████████████▋                                                                                                            | 88/432 [45:11<2:53:53, 30.33s/it] 21%|████████████████████████████                                                                                                            | 89/432 [45:41<2:53:27, 30.34s/it]                                                                                                                                                                                {'loss': 0.937, 'grad_norm': 0.07170393317937851, 'learning_rate': 0.0001934685396557165, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1806.52, 'epoch': 0.62}
 21%|████████████████████████████                                                                                                            | 89/432 [45:41<2:53:27, 30.34s/it] 21%|████████████████████████████▎                                                                                                           | 90/432 [46:14<2:57:09, 31.08s/it]                                                                                                                                                                                {'loss': 0.8459, 'grad_norm': 0.1740889698266983, 'learning_rate': 0.00019317840958332888, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1882.4, 'epoch': 0.62}
 21%|████████████████████████████▎                                                                                                           | 90/432 [46:14<2:57:09, 31.08s/it] 21%|████████████████████████████▋                                                                                                           | 91/432 [46:49<3:03:16, 32.25s/it]                                                                                                                                                                                {'loss': 0.7879, 'grad_norm': 0.06397266685962677, 'learning_rate': 0.00019288220217175583, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1867.77, 'epoch': 0.63}
 21%|████████████████████████████▋                                                                                                           | 91/432 [46:49<3:03:16, 32.25s/it] 21%|████████████████████████████▉                                                                                                           | 92/432 [47:26<3:10:55, 33.69s/it]                                                                                                                                                                                {'loss': 0.8671, 'grad_norm': 0.06102391704916954, 'learning_rate': 0.00019257993674041813, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1878.38, 'epoch': 0.64}
 21%|████████████████████████████▉                                                                                                           | 92/432 [47:26<3:10:55, 33.69s/it] 22%|█████████████████████████████▎                                                                                                          | 93/432 [47:57<3:06:46, 33.06s/it]                                                                                                                                                                                {'loss': 0.9089, 'grad_norm': 0.06330034881830215, 'learning_rate': 0.00019227163300385662, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1859.18, 'epoch': 0.65}
 22%|█████████████████████████████▎                                                                                                          | 93/432 [47:57<3:06:46, 33.06s/it] 22%|█████████████████████████████▌                                                                                                          | 94/432 [48:24<2:55:04, 31.08s/it]                                                                                                                                                                                {'loss': 0.8842, 'grad_norm': 0.07149945199489594, 'learning_rate': 0.00019195731107044594, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1784.86, 'epoch': 0.65}
 22%|█████████████████████████████▌                                                                                                          | 94/432 [48:24<2:55:04, 31.08s/it] 22%|█████████████████████████████▉                                                                                                          | 95/432 [48:51<2:47:06, 29.75s/it]                                                                                                                                                                                {'loss': 0.875, 'grad_norm': 0.07301725447177887, 'learning_rate': 0.0001916369914410834, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1697.59, 'epoch': 0.66}
 22%|█████████████████████████████▉                                                                                                          | 95/432 [48:51<2:47:06, 29.75s/it] 22%|██████████████████████████████▏                                                                                                         | 96/432 [49:22<2:48:41, 30.12s/it]                                                                                                                                                                                {'loss': 0.798, 'grad_norm': 0.060419220477342606, 'learning_rate': 0.00019131069500785174, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1802.63, 'epoch': 0.67}
 22%|██████████████████████████████▏                                                                                                         | 96/432 [49:22<2:48:41, 30.12s/it] 22%|██████████████████████████████▌                                                                                                         | 97/432 [49:55<2:53:04, 31.00s/it]                                                                                                                                                                                {'loss': 0.8801, 'grad_norm': 0.06787065416574478, 'learning_rate': 0.00019097844305265624, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1756.93, 'epoch': 0.67}
 22%|██████████████████████████████▌                                                                                                         | 97/432 [49:55<2:53:04, 31.00s/it] 23%|██████████████████████████████▊                                                                                                         | 98/432 [50:27<2:55:38, 31.55s/it]                                                                                                                                                                                {'loss': 0.9047, 'grad_norm': 0.07948441058397293, 'learning_rate': 0.0001906402572458371, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1838.22, 'epoch': 0.68}
 23%|██████████████████████████████▊                                                                                                         | 98/432 [50:27<2:55:38, 31.55s/it] 23%|███████████████████████████████▏                                                                                                        | 99/432 [51:02<2:59:29, 32.34s/it]                                                                                                                                                                                {'loss': 0.9473, 'grad_norm': 0.06950388848781586, 'learning_rate': 0.0001902961596447557, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1809.3, 'epoch': 0.69}
 23%|███████████████████████████████▏                                                                                                        | 99/432 [51:02<2:59:29, 32.34s/it] 23%|███████████████████████████████▎                                                                                                       | 100/432 [51:37<3:04:12, 33.29s/it]                                                                                                                                                                                {'loss': 0.837, 'grad_norm': 0.059347931295633316, 'learning_rate': 0.00018994617269235616, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1897.82, 'epoch': 0.69}
 23%|███████████████████████████████▎                                                                                                       | 100/432 [51:37<3:04:12, 33.29s/it][2025-12-25 23:20:19,296] [INFO] [axolotl.core.trainers.base._save:671] [PID:1133] Saving model checkpoint to ./outputs/qwen25-coder-n8n/checkpoint-100
 23%|███████████████████████████████▌                                                                                                       | 101/432 [52:02<2:49:03, 30.65s/it]                                                                                                                                                                                {'loss': 0.8884, 'grad_norm': 0.0786047875881195, 'learning_rate': 0.00018959031921570135, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1783.4, 'epoch': 0.7}
 23%|███████████████████████████████▌                                                                                                       | 101/432 [52:02<2:49:03, 30.65s/it] 24%|███████████████████████████████▉                                                                                                       | 102/432 [52:34<2:51:56, 31.26s/it]                                                                                                                                                                                {'loss': 0.9047, 'grad_norm': 0.0657181590795517, 'learning_rate': 0.0001892286224244843, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1810.31, 'epoch': 0.71}
 24%|███████████████████████████████▉                                                                                                       | 102/432 [52:34<2:51:56, 31.26s/it] 24%|████████████████████████████████▏                                                                                                      | 103/432 [53:03<2:47:19, 30.51s/it]                                                                                                                                                                                {'loss': 0.9022, 'grad_norm': 0.07979200780391693, 'learning_rate': 0.00018886110590951417, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1739.77, 'epoch': 0.72}
 24%|████████████████████████████████▏                                                                                                      | 103/432 [53:03<2:47:19, 30.51s/it] 24%|████████████████████████████████▌                                                                                                      | 104/432 [53:29<2:38:32, 29.00s/it]                                                                                                                                                                                {'loss': 0.8916, 'grad_norm': 0.07467928528785706, 'learning_rate': 0.00018848779364117775, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1796.23, 'epoch': 0.72}
 24%|████████████████████████████████▌                                                                                                      | 104/432 [53:29<2:38:32, 29.00s/it] 24%|████████████████████████████████▊                                                                                                      | 105/432 [53:59<2:39:47, 29.32s/it]                                                                                                                                                                                {'loss': 0.9186, 'grad_norm': 0.07130390405654907, 'learning_rate': 0.000188108709967876, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1834.56, 'epoch': 0.73}
 24%|████████████████████████████████▊                                                                                                      | 105/432 [53:59<2:39:47, 29.32s/it] 25%|█████████████████████████████████▏                                                                                                     | 106/432 [54:27<2:37:21, 28.96s/it]                                                                                                                                                                                {'loss': 0.9381, 'grad_norm': 0.08154763281345367, 'learning_rate': 0.000187723879614436, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1711.53, 'epoch': 0.74}
 25%|█████████████████████████████████▏                                                                                                     | 106/432 [54:27<2:37:21, 28.96s/it] 25%|█████████████████████████████████▍                                                                                                     | 107/432 [54:57<2:39:07, 29.38s/it]                                                                                                                                                                                {'loss': 0.9567, 'grad_norm': 0.07683106511831284, 'learning_rate': 0.00018733332768049827, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1720.36, 'epoch': 0.74}
 25%|█████████████████████████████████▍                                                                                                     | 107/432 [54:57<2:39:07, 29.38s/it] 25%|█████████████████████████████████▊                                                                                                     | 108/432 [55:25<2:35:51, 28.86s/it]                                                                                                                                                                                {'loss': 0.9454, 'grad_norm': 0.07069261372089386, 'learning_rate': 0.00018693707963887978, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1795.58, 'epoch': 0.75}
 25%|█████████████████████████████████▊                                                                                                     | 108/432 [55:25<2:35:51, 28.86s/it] 25%|██████████████████████████████████                                                                                                     | 109/432 [55:55<2:36:55, 29.15s/it]                                                                                                                                                                                {'loss': 0.9739, 'grad_norm': 0.07336299121379852, 'learning_rate': 0.0001865351613339125, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1695.16, 'epoch': 0.76}
 25%|██████████████████████████████████                                                                                                     | 109/432 [55:55<2:36:55, 29.15s/it] 25%|██████████████████████████████████▍                                                                                                    | 110/432 [56:26<2:40:29, 29.90s/it]                                                                                                                                                                                {'loss': 0.8957, 'grad_norm': 0.0726110115647316, 'learning_rate': 0.0001861275989797578, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1866.56, 'epoch': 0.76}
 25%|██████████████████████████████████▍                                                                                                    | 110/432 [56:26<2:40:29, 29.90s/it] 26%|██████████████████████████████████▋                                                                                                    | 111/432 [56:58<2:42:44, 30.42s/it]                                                                                                                                                                                {'loss': 0.9204, 'grad_norm': 0.08780913054943085, 'learning_rate': 0.00018571441915869662, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1820.22, 'epoch': 0.77}
 26%|██████████████████████████████████▋                                                                                                    | 111/432 [56:58<2:42:44, 30.42s/it] 26%|███████████████████████████████████                                                                                                    | 112/432 [57:33<2:49:33, 31.79s/it]                                                                                                                                                                                {'loss': 0.9357, 'grad_norm': 0.10503561049699783, 'learning_rate': 0.0001852956488193959, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1793.45, 'epoch': 0.78}
 26%|███████████████████████████████████                                                                                                    | 112/432 [57:33<2:49:33, 31.79s/it] 26%|███████████████████████████████████▎                                                                                                   | 113/432 [58:05<2:48:56, 31.77s/it]                                                                                                                                                                                {'loss': 0.8725, 'grad_norm': 0.06898421794176102, 'learning_rate': 0.0001848713152751506, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1794.32, 'epoch': 0.78}
 26%|███████████████████████████████████▎                                                                                                   | 113/432 [58:05<2:48:56, 31.77s/it] 26%|███████████████████████████████████▋                                                                                                   | 114/432 [58:40<2:54:33, 32.93s/it]                                                                                                                                                                                {'loss': 0.9115, 'grad_norm': 0.06764024496078491, 'learning_rate': 0.00018444144620210256, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1811.27, 'epoch': 0.79}
 26%|███████████████████████████████████▋                                                                                                   | 114/432 [58:40<2:54:33, 32.93s/it] 27%|███████████████████████████████████▉                                                                                                   | 115/432 [59:07<2:44:48, 31.20s/it]                                                                                                                                                                                {'loss': 0.866, 'grad_norm': 0.07626543939113617, 'learning_rate': 0.00018400606963743518, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1798.98, 'epoch': 0.8}
 27%|███████████████████████████████████▉                                                                                                   | 115/432 [59:07<2:44:48, 31.20s/it] 27%|████████████████████████████████████▎                                                                                                  | 116/432 [59:40<2:47:03, 31.72s/it]                                                                                                                                                                                {'loss': 0.911, 'grad_norm': 0.06234179437160492, 'learning_rate': 0.00018356521397754495, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1837.38, 'epoch': 0.81}
 27%|████████████████████████████████████▎                                                                                                  | 116/432 [59:40<2:47:03, 31.72s/it] 27%|████████████████████████████████████                                                                                                 | 117/432 [1:00:13<2:48:44, 32.14s/it]                                                                                                                                                                                {'loss': 0.9853, 'grad_norm': 0.07429645955562592, 'learning_rate': 0.00018311890797618915, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1909.7, 'epoch': 0.81}
 27%|████████████████████████████████████                                                                                                 | 117/432 [1:00:13<2:48:44, 32.14s/it] 27%|████████████████████████████████████▎                                                                                                | 118/432 [1:00:44<2:45:40, 31.66s/it]                                                                                                                                                                                {'loss': 0.8815, 'grad_norm': 0.0701533630490303, 'learning_rate': 0.00018266718074261062, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1862.25, 'epoch': 0.82}
 27%|████████████████████████████████████▎                                                                                                | 118/432 [1:00:44<2:45:40, 31.66s/it] 28%|████████████████████████████████████▋                                                                                                | 119/432 [1:01:14<2:42:28, 31.14s/it]                                                                                                                                                                                {'loss': 0.9683, 'grad_norm': 0.08356419950723648, 'learning_rate': 0.00018221006173963912, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1779.76, 'epoch': 0.83}
 28%|████████████████████████████████████▋                                                                                                | 119/432 [1:01:14<2:42:28, 31.14s/it] 28%|████████████████████████████████████▉                                                                                                | 120/432 [1:01:42<2:37:02, 30.20s/it]                                                                                                                                                                                {'loss': 0.8591, 'grad_norm': 0.06717222929000854, 'learning_rate': 0.00018174758078176963, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1819.98, 'epoch': 0.83}
 28%|████████████████████████████████████▉                                                                                                | 120/432 [1:01:42<2:37:02, 30.20s/it] 28%|█████████████████████████████████████▎                                                                                               | 121/432 [1:02:12<2:36:29, 30.19s/it]                                                                                                                                                                                {'loss': 0.8717, 'grad_norm': 0.07267988473176956, 'learning_rate': 0.00018127976803321793, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1790.21, 'epoch': 0.84}
 28%|█████████████████████████████████████▎                                                                                               | 121/432 [1:02:12<2:36:29, 30.19s/it] 28%|█████████████████████████████████████▌                                                                                               | 122/432 [1:02:40<2:31:48, 29.38s/it]                                                                                                                                                                                {'loss': 0.8591, 'grad_norm': 0.07312195748090744, 'learning_rate': 0.00018080665400595303, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1784.17, 'epoch': 0.85}
 28%|█████████████████████████████████████▌                                                                                               | 122/432 [1:02:40<2:31:48, 29.38s/it] 28%|█████████████████████████████████████▊                                                                                               | 123/432 [1:03:12<2:36:03, 30.30s/it]                                                                                                                                                                                {'loss': 0.826, 'grad_norm': 0.06259205937385559, 'learning_rate': 0.00018032826955770724, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1872.69, 'epoch': 0.85}
 28%|█████████████████████████████████████▊                                                                                               | 123/432 [1:03:12<2:36:03, 30.30s/it] 29%|██████████████████████████████████████▏                                                                                              | 124/432 [1:03:48<2:43:52, 31.92s/it]                                                                                                                                                                                {'loss': 0.8974, 'grad_norm': 0.062194038182497025, 'learning_rate': 0.00017984464588996342, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1856.73, 'epoch': 0.86}
 29%|██████████████████████████████████████▏                                                                                              | 124/432 [1:03:48<2:43:52, 31.92s/it] 29%|██████████████████████████████████████▍                                                                                              | 125/432 [1:04:20<2:44:38, 32.18s/it]                                                                                                                                                                                {'loss': 0.8899, 'grad_norm': 0.06809177249670029, 'learning_rate': 0.00017935581454592002, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1904.82, 'epoch': 0.87}
 29%|██████████████████████████████████████▍                                                                                              | 125/432 [1:04:20<2:44:38, 32.18s/it] 29%|██████████████████████████████████████▊                                                                                              | 126/432 [1:04:54<2:45:49, 32.52s/it]                                                                                                                                                                                {'loss': 0.8287, 'grad_norm': 0.058420922607183456, 'learning_rate': 0.00017886180740843383, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1699.16, 'epoch': 0.88}
 29%|██████████████████████████████████████▊                                                                                              | 126/432 [1:04:54<2:45:49, 32.52s/it] 29%|███████████████████████████████████████                                                                                              | 127/432 [1:05:27<2:46:43, 32.80s/it]                                                                                                                                                                                {'loss': 0.7913, 'grad_norm': 0.06883256137371063, 'learning_rate': 0.00017836265669794033, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.39, 'tokens_per_second_per_gpu': 1877.6, 'epoch': 0.88}
 29%|███████████████████████████████████████                                                                                              | 127/432 [1:05:27<2:46:43, 32.80s/it] 30%|███████████████████████████████████████▍                                                                                             | 128/432 [1:05:58<2:43:10, 32.20s/it]                                                                                                                                                                                {'loss': 0.8462, 'grad_norm': 0.06439166516065598, 'learning_rate': 0.00017785839497035222, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1785.45, 'epoch': 0.89}
 30%|███████████████████████████████████████▍                                                                                             | 128/432 [1:05:58<2:43:10, 32.20s/it] 30%|███████████████████████████████████████▋                                                                                             | 129/432 [1:06:29<2:41:10, 31.92s/it]                                                                                                                                                                                {'loss': 0.9299, 'grad_norm': 0.07990575581789017, 'learning_rate': 0.00017734905511493615, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1863.91, 'epoch': 0.9}
 30%|███████████████████████████████████████▋                                                                                             | 129/432 [1:06:29<2:41:10, 31.92s/it] 30%|████████████████████████████████████████                                                                                             | 130/432 [1:07:00<2:38:11, 31.43s/it]                                                                                                                                                                                {'loss': 0.8973, 'grad_norm': 0.13562186062335968, 'learning_rate': 0.0001768346703521675, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1841.01, 'epoch': 0.9}
 30%|████████████████████████████████████████                                                                                             | 130/432 [1:07:00<2:38:11, 31.43s/it] 30%|████████████████████████████████████████▎                                                                                            | 131/432 [1:07:32<2:38:28, 31.59s/it]                                                                                                                                                                                {'loss': 0.8393, 'grad_norm': 0.0757925733923912, 'learning_rate': 0.0001763152742315637, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1841.76, 'epoch': 0.91}
 30%|████████████████████████████████████████▎                                                                                            | 131/432 [1:07:32<2:38:28, 31.59s/it] 31%|████████████████████████████████████████▋                                                                                            | 132/432 [1:08:05<2:40:59, 32.20s/it]                                                                                                                                                                                {'loss': 0.9476, 'grad_norm': 0.1594410538673401, 'learning_rate': 0.000175790900629496, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1900.8, 'epoch': 0.92}
 31%|████████████████████████████████████████▋                                                                                            | 132/432 [1:08:05<2:40:59, 32.20s/it] 31%|████████████████████████████████████████▉                                                                                            | 133/432 [1:08:37<2:39:10, 31.94s/it]                                                                                                                                                                                {'loss': 0.8889, 'grad_norm': 0.07541660219430923, 'learning_rate': 0.00017526158374698, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1862.75, 'epoch': 0.92}
 31%|████████████████████████████████████████▉                                                                                            | 133/432 [1:08:37<2:39:10, 31.94s/it] 31%|█████████████████████████████████████████▎                                                                                           | 134/432 [1:09:06<2:35:03, 31.22s/it]                                                                                                                                                                                {'loss': 0.8986, 'grad_norm': 0.06783576309680939, 'learning_rate': 0.00017472735810744494, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1834.08, 'epoch': 0.93}
 31%|█████████████████████████████████████████▎                                                                                           | 134/432 [1:09:06<2:35:03, 31.22s/it] 31%|█████████████████████████████████████████▌                                                                                           | 135/432 [1:09:32<2:26:52, 29.67s/it]                                                                                                                                                                                {'loss': 0.8216, 'grad_norm': 0.08990088850259781, 'learning_rate': 0.00017418825855448206, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1756.08, 'epoch': 0.94}
 31%|█████████████████████████████████████████▌                                                                                           | 135/432 [1:09:32<2:26:52, 29.67s/it] 31%|█████████████████████████████████████████▊                                                                                           | 136/432 [1:10:08<2:35:58, 31.62s/it]                                                                                                                                                                                {'loss': 0.9572, 'grad_norm': 0.06768841296434402, 'learning_rate': 0.00017364432024957193, 'memory/max_active (GiB)': 27.44, 'memory/max_allocated (GiB)': 27.44, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1894.76, 'epoch': 0.94}
 31%|█████████████████████████████████████████▊                                                                                           | 136/432 [1:10:08<2:35:58, 31.62s/it] 32%|██████████████████████████████████████████▏                                                                                          | 137/432 [1:10:36<2:29:18, 30.37s/it]                                                                                                                                                                                {'loss': 0.9175, 'grad_norm': 0.07805129885673523, 'learning_rate': 0.00017309557866979113, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1814.77, 'epoch': 0.95}
 32%|██████████████████████████████████████████▏                                                                                          | 137/432 [1:10:36<2:29:18, 30.37s/it] 32%|██████████████████████████████████████████▍                                                                                          | 138/432 [1:11:06<2:28:37, 30.33s/it]                                                                                                                                                                                {'loss': 0.9275, 'grad_norm': 0.07132866978645325, 'learning_rate': 0.00017254206960549842, 'memory/max_active (GiB)': 26.49, 'memory/max_allocated (GiB)': 26.49, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1802.23, 'epoch': 0.96}
 32%|██████████████████████████████████████████▍                                                                                          | 138/432 [1:11:06<2:28:37, 30.33s/it] 32%|██████████████████████████████████████████▊                                                                                          | 139/432 [1:11:32<2:21:21, 28.95s/it]                                                                                                                                                                                {'loss': 0.9107, 'grad_norm': 0.0779808983206749, 'learning_rate': 0.00017198382915800033, 'memory/max_active (GiB)': 26.25, 'memory/max_allocated (GiB)': 26.25, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1816.41, 'epoch': 0.97}
 32%|██████████████████████████████████████████▊                                                                                          | 139/432 [1:11:32<2:21:21, 28.95s/it] 32%|███████████████████████████████████████████                                                                                          | 140/432 [1:12:01<2:21:24, 29.06s/it]                                                                                                                                                                                {'loss': 0.8597, 'grad_norm': 0.07991725951433182, 'learning_rate': 0.0001714208937371965, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1831.07, 'epoch': 0.97}
 32%|███████████████████████████████████████████                                                                                          | 140/432 [1:12:01<2:21:24, 29.06s/it] 33%|███████████████████████████████████████████▍                                                                                         | 141/432 [1:12:30<2:21:00, 29.07s/it]                                                                                                                                                                                {'loss': 0.9037, 'grad_norm': 0.07846493273973465, 'learning_rate': 0.00017085330005920516, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1772.26, 'epoch': 0.98}
 33%|███████████████████████████████████████████▍                                                                                         | 141/432 [1:12:30<2:21:00, 29.07s/it] 33%|███████████████████████████████████████████▋                                                                                         | 142/432 [1:12:59<2:20:03, 28.98s/it]                                                                                                                                                                                {'loss': 0.8545, 'grad_norm': 0.07660206407308578, 'learning_rate': 0.00017028108514396799, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1841.68, 'epoch': 0.99}
 33%|███████████████████████████████████████████▋                                                                                         | 142/432 [1:12:59<2:20:03, 28.98s/it] 33%|████████████████████████████████████████████                                                                                         | 143/432 [1:13:31<2:24:05, 29.92s/it]                                                                                                                                                                                {'loss': 0.8313, 'grad_norm': 0.06597072631120682, 'learning_rate': 0.000169704286312836, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1819.32, 'epoch': 0.99}
 33%|████████████████████████████████████████████                                                                                         | 143/432 [1:13:31<2:24:05, 29.92s/it] 33%|████████████████████████████████████████████▎                                                                                        | 144/432 [1:14:00<2:22:56, 29.78s/it]                                                                                                                                                                                {'loss': 0.9172, 'grad_norm': 0.12106018513441086, 'learning_rate': 0.00016912294118613517, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1816.15, 'epoch': 1.0}
 33%|████████████████████████████████████████████▎                                                                                        | 144/432 [1:14:00<2:22:56, 29.78s/it] 34%|████████████████████████████████████████████▋                                                                                        | 145/432 [1:14:36<2:30:54, 31.55s/it]                                                                                                                                                                                {'loss': 0.9025, 'grad_norm': 0.07370701432228088, 'learning_rate': 0.00016853708768071264, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1740.51, 'epoch': 1.01}
 34%|████████████████████████████████████████████▋                                                                                        | 145/432 [1:14:36<2:30:54, 31.55s/it] 34%|████████████████████████████████████████████▉                                                                                        | 146/432 [1:15:09<2:31:52, 31.86s/it]                                                                                                                                                                                {'loss': 0.8453, 'grad_norm': 0.06994107365608215, 'learning_rate': 0.0001679467640074639, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1858.12, 'epoch': 1.01}
 34%|████████████████████████████████████████████▉                                                                                        | 146/432 [1:15:09<2:31:52, 31.86s/it] 34%|█████████████████████████████████████████████▎                                                                                       | 147/432 [1:15:37<2:26:09, 30.77s/it]                                                                                                                                                                                {'loss': 0.8769, 'grad_norm': 0.07402420789003372, 'learning_rate': 0.00016735200866884036, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1768.73, 'epoch': 1.02}
 34%|█████████████████████████████████████████████▎                                                                                       | 147/432 [1:15:37<2:26:09, 30.77s/it] 34%|█████████████████████████████████████████████▌                                                                                       | 148/432 [1:16:09<2:27:03, 31.07s/it]                                                                                                                                                                                {'loss': 0.9602, 'grad_norm': 0.09437773376703262, 'learning_rate': 0.00016675286045633828, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1793.91, 'epoch': 1.03}
 34%|█████████████████████████████████████████████▌                                                                                       | 148/432 [1:16:09<2:27:03, 31.07s/it] 34%|█████████████████████████████████████████████▊                                                                                       | 149/432 [1:16:33<2:16:20, 28.91s/it]                                                                                                                                                                                {'loss': 0.9701, 'grad_norm': 0.09405123442411423, 'learning_rate': 0.00016614935844796864, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1738.78, 'epoch': 1.03}
 34%|█████████████████████████████████████████████▊                                                                                       | 149/432 [1:16:33<2:16:20, 28.91s/it] 35%|██████████████████████████████████████████████▏                                                                                      | 150/432 [1:17:06<2:22:11, 30.25s/it]                                                                                                                                                                                {'loss': 0.9213, 'grad_norm': 0.0800110325217247, 'learning_rate': 0.00016554154200570825, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1838.3, 'epoch': 1.04}
 35%|██████████████████████████████████████████████▏                                                                                      | 150/432 [1:17:06<2:22:11, 30.25s/it] 35%|██████████████████████████████████████████████▍                                                                                      | 151/432 [1:17:32<2:16:17, 29.10s/it]                                                                                                                                                                                {'loss': 0.9151, 'grad_norm': 0.07217224687337875, 'learning_rate': 0.0001649294507729327, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1800.16, 'epoch': 1.05}
 35%|██████████████████████████████████████████████▍                                                                                      | 151/432 [1:17:32<2:16:17, 29.10s/it] 35%|██████████████████████████████████████████████▊                                                                                      | 152/432 [1:18:08<2:24:52, 31.04s/it]                                                                                                                                                                                {'loss': 0.8443, 'grad_norm': 0.11542835831642151, 'learning_rate': 0.0001643131246718305, 'memory/max_active (GiB)': 26.26, 'memory/max_allocated (GiB)': 26.26, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1808.4, 'epoch': 1.06}
 35%|██████████████████████████████████████████████▊                                                                                      | 152/432 [1:18:08<2:24:52, 31.04s/it] 35%|███████████████████████████████████████████████                                                                                      | 153/432 [1:18:33<2:16:12, 29.29s/it]                                                                                                                                                                                {'loss': 0.8658, 'grad_norm': 0.16738373041152954, 'learning_rate': 0.00016369260390079933, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1786.38, 'epoch': 1.06}
 35%|███████████████████████████████████████████████                                                                                      | 153/432 [1:18:33<2:16:12, 29.29s/it] 36%|███████████████████████████████████████████████▍                                                                                     | 154/432 [1:19:02<2:15:04, 29.15s/it]                                                                                                                                                                                {'loss': 0.8402, 'grad_norm': 0.08216153830289841, 'learning_rate': 0.0001630679289318242, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1721.01, 'epoch': 1.07}
 36%|███████████████████████████████████████████████▍                                                                                     | 154/432 [1:19:02<2:15:04, 29.15s/it] 36%|███████████████████████████████████████████████▋                                                                                     | 155/432 [1:19:28<2:10:23, 28.25s/it]                                                                                                                                                                                {'loss': 0.843, 'grad_norm': 0.0893600732088089, 'learning_rate': 0.00016243914050783785, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1769.48, 'epoch': 1.08}
 36%|███████████████████████████████████████████████▋                                                                                     | 155/432 [1:19:28<2:10:23, 28.25s/it] 36%|████████████████████████████████████████████████                                                                                     | 156/432 [1:19:58<2:12:22, 28.78s/it]                                                                                                                                                                                {'loss': 0.8911, 'grad_norm': 0.08116093277931213, 'learning_rate': 0.00016180627964006313, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1890.64, 'epoch': 1.08}
 36%|████████████████████████████████████████████████                                                                                     | 156/432 [1:19:58<2:12:22, 28.78s/it] 36%|████████████████████████████████████████████████▎                                                                                    | 157/432 [1:20:28<2:13:20, 29.09s/it]                                                                                                                                                                                {'loss': 0.9208, 'grad_norm': 0.08874551951885223, 'learning_rate': 0.00016116938760533844, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1768.32, 'epoch': 1.09}
 36%|████████████████████████████████████████████████▎                                                                                    | 157/432 [1:20:28<2:13:20, 29.09s/it] 37%|████████████████████████████████████████████████▋                                                                                    | 158/432 [1:20:57<2:12:31, 29.02s/it]                                                                                                                                                                                {'loss': 0.9199, 'grad_norm': 0.10523993521928787, 'learning_rate': 0.00016052850594342534, 'memory/max_active (GiB)': 23.22, 'memory/max_allocated (GiB)': 23.22, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1866.22, 'epoch': 1.1}
 37%|████████████████████████████████████████████████▋                                                                                    | 158/432 [1:20:57<2:12:31, 29.02s/it] 37%|████████████████████████████████████████████████▉                                                                                    | 159/432 [1:21:28<2:14:59, 29.67s/it]                                                                                                                                                                                {'loss': 0.8523, 'grad_norm': 0.1344747096300125, 'learning_rate': 0.00015988367645429938, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1796.77, 'epoch': 1.1}
 37%|████████████████████████████████████████████████▉                                                                                    | 159/432 [1:21:28<2:14:59, 29.67s/it] 37%|█████████████████████████████████████████████████▎                                                                                   | 160/432 [1:21:57<2:13:26, 29.44s/it]                                                                                                                                                                                {'loss': 0.9055, 'grad_norm': 0.10914891213178635, 'learning_rate': 0.0001592349411954236, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1796.0, 'epoch': 1.11}
 37%|█████████████████████████████████████████████████▎                                                                                   | 160/432 [1:21:57<2:13:26, 29.44s/it] 37%|█████████████████████████████████████████████████▌                                                                                   | 161/432 [1:22:26<2:12:41, 29.38s/it]                                                                                                                                                                                {'loss': 0.834, 'grad_norm': 0.09863642603158951, 'learning_rate': 0.0001585823424790056, 'memory/max_active (GiB)': 26.26, 'memory/max_allocated (GiB)': 26.26, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1744.31, 'epoch': 1.12}
 37%|█████████████████████████████████████████████████▌                                                                                   | 161/432 [1:22:26<2:12:41, 29.38s/it] 38%|█████████████████████████████████████████████████▉                                                                                   | 162/432 [1:22:58<2:16:11, 30.27s/it]                                                                                                                                                                                {'loss': 0.8731, 'grad_norm': 0.0731300413608551, 'learning_rate': 0.0001579259228692378, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1840.36, 'epoch': 1.12}
 38%|█████████████████████████████████████████████████▉                                                                                   | 162/432 [1:22:58<2:16:11, 30.27s/it] 38%|██████████████████████████████████████████████████▏                                                                                  | 163/432 [1:23:30<2:16:51, 30.53s/it]                                                                                                                                                                                {'loss': 0.8169, 'grad_norm': 0.08072181046009064, 'learning_rate': 0.00015726572517952122, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1874.55, 'epoch': 1.13}
 38%|██████████████████████████████████████████████████▏                                                                                  | 163/432 [1:23:30<2:16:51, 30.53s/it] 38%|██████████████████████████████████████████████████▍                                                                                  | 164/432 [1:24:03<2:19:48, 31.30s/it]                                                                                                                                                                                {'loss': 0.8925, 'grad_norm': 0.07996222376823425, 'learning_rate': 0.00015660179246967314, 'memory/max_active (GiB)': 28.38, 'memory/max_allocated (GiB)': 28.38, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1858.78, 'epoch': 1.14}
 38%|██████████████████████████████████████████████████▍                                                                                  | 164/432 [1:24:03<2:19:48, 31.30s/it] 38%|██████████████████████████████████████████████████▊                                                                                  | 165/432 [1:24:39<2:25:54, 32.79s/it]                                                                                                                                                                                {'loss': 0.842, 'grad_norm': 0.07483426481485367, 'learning_rate': 0.00015593416804311852, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1792.51, 'epoch': 1.15}
 38%|██████████████████████████████████████████████████▊                                                                                  | 165/432 [1:24:39<2:25:54, 32.79s/it] 38%|███████████████████████████████████████████████████                                                                                  | 166/432 [1:25:08<2:20:27, 31.68s/it]                                                                                                                                                                                {'loss': 0.8672, 'grad_norm': 0.07248706370592117, 'learning_rate': 0.00015526289544406585, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1778.82, 'epoch': 1.15}
 38%|███████████████████████████████████████████████████                                                                                  | 166/432 [1:25:08<2:20:27, 31.68s/it] 39%|███████████████████████████████████████████████████▍                                                                                 | 167/432 [1:25:39<2:18:54, 31.45s/it]                                                                                                                                                                                {'loss': 0.9355, 'grad_norm': 0.07618600875139236, 'learning_rate': 0.0001545880184546669, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1743.04, 'epoch': 1.16}
 39%|███████████████████████████████████████████████████▍                                                                                 | 167/432 [1:25:39<2:18:54, 31.45s/it] 39%|███████████████████████████████████████████████████▋                                                                                 | 168/432 [1:26:14<2:23:45, 32.67s/it]                                                                                                                                                                                {'loss': 0.8303, 'grad_norm': 0.06785187125205994, 'learning_rate': 0.0001539095810921612, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1858.47, 'epoch': 1.17}
 39%|███████████████████████████████████████████████████▋                                                                                 | 168/432 [1:26:14<2:23:45, 32.67s/it] 39%|████████████████████████████████████████████████████                                                                                 | 169/432 [1:26:45<2:20:25, 32.04s/it]                                                                                                                                                                                {'loss': 0.8736, 'grad_norm': 0.06521926075220108, 'learning_rate': 0.0001532276276060051, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1828.71, 'epoch': 1.17}
 39%|████████████████████████████████████████████████████                                                                                 | 169/432 [1:26:45<2:20:25, 32.04s/it] 39%|████████████████████████████████████████████████████▎                                                                                | 170/432 [1:27:18<2:21:23, 32.38s/it]                                                                                                                                                                                {'loss': 0.8526, 'grad_norm': 0.07702817767858505, 'learning_rate': 0.00015254220247498573, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1843.68, 'epoch': 1.18}
 39%|████████████████████████████████████████████████████▎                                                                                | 170/432 [1:27:18<2:21:23, 32.38s/it] 40%|████████████████████████████████████████████████████▋                                                                                | 171/432 [1:27:44<2:12:27, 30.45s/it]                                                                                                                                                                                {'loss': 0.8973, 'grad_norm': 0.1337224841117859, 'learning_rate': 0.0001518533504043199, 'memory/max_active (GiB)': 26.25, 'memory/max_allocated (GiB)': 26.25, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1884.45, 'epoch': 1.19}
 40%|████████████████████████████████████████████████████▋                                                                                | 171/432 [1:27:44<2:12:27, 30.45s/it] 40%|████████████████████████████████████████████████████▉                                                                                | 172/432 [1:28:18<2:16:11, 31.43s/it]                                                                                                                                                                                {'loss': 0.8214, 'grad_norm': 0.09579396992921829, 'learning_rate': 0.0001511611163227385, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1824.99, 'epoch': 1.19}
 40%|████████████████████████████████████████████████████▉                                                                                | 172/432 [1:28:18<2:16:11, 31.43s/it] 40%|█████████████████████████████████████████████████████▎                                                                               | 173/432 [1:28:47<2:13:03, 30.82s/it]                                                                                                                                                                                {'loss': 0.8975, 'grad_norm': 0.08288433402776718, 'learning_rate': 0.00015046554537955585, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1815.52, 'epoch': 1.2}
 40%|█████████████████████████████████████████████████████▎                                                                               | 173/432 [1:28:47<2:13:03, 30.82s/it] 40%|█████████████████████████████████████████████████████▌                                                                               | 174/432 [1:29:16<2:09:17, 30.07s/it]                                                                                                                                                                                {'loss': 0.8802, 'grad_norm': 0.07618972659111023, 'learning_rate': 0.00014976668294172527, 'memory/max_active (GiB)': 26.49, 'memory/max_allocated (GiB)': 26.49, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1844.86, 'epoch': 1.21}
 40%|█████████████████████████████████████████████████████▌                                                                               | 174/432 [1:29:16<2:09:17, 30.07s/it] 41%|█████████████████████████████████████████████████████▉                                                                               | 175/432 [1:29:46<2:08:41, 30.04s/it]                                                                                                                                                                                {'loss': 0.8764, 'grad_norm': 0.08120069652795792, 'learning_rate': 0.00014906457459087978, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1855.53, 'epoch': 1.22}
 41%|█████████████████████████████████████████████████████▉                                                                               | 175/432 [1:29:46<2:08:41, 30.04s/it] 41%|██████████████████████████████████████████████████████▏                                                                              | 176/432 [1:30:17<2:10:33, 30.60s/it]                                                                                                                                                                                {'loss': 0.7791, 'grad_norm': 0.0804535299539566, 'learning_rate': 0.00014835926612035945, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1806.63, 'epoch': 1.22}
 41%|██████████████████████████████████████████████████████▏                                                                              | 176/432 [1:30:17<2:10:33, 30.60s/it] 41%|██████████████████████████████████████████████████████▍                                                                              | 177/432 [1:30:45<2:06:13, 29.70s/it]                                                                                                                                                                                {'loss': 0.8774, 'grad_norm': 0.07893332093954086, 'learning_rate': 0.00014765080353222447, 'memory/max_active (GiB)': 23.75, 'memory/max_allocated (GiB)': 23.75, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1791.96, 'epoch': 1.23}
 41%|██████████████████████████████████████████████████████▍                                                                              | 177/432 [1:30:45<2:06:13, 29.70s/it] 41%|██████████████████████████████████████████████████████▊                                                                              | 178/432 [1:31:17<2:09:04, 30.49s/it]                                                                                                                                                                                {'loss': 0.8865, 'grad_norm': 0.08453946560621262, 'learning_rate': 0.0001469392330342548, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1846.08, 'epoch': 1.24}
 41%|██████████████████████████████████████████████████████▊                                                                              | 178/432 [1:31:17<2:09:04, 30.49s/it] 41%|███████████████████████████████████████████████████████                                                                              | 179/432 [1:31:48<2:08:57, 30.58s/it]                                                                                                                                                                                {'loss': 0.8611, 'grad_norm': 0.09483584016561508, 'learning_rate': 0.0001462246010369364, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1746.22, 'epoch': 1.24}
 41%|███████████████████████████████████████████████████████                                                                              | 179/432 [1:31:48<2:08:57, 30.58s/it] 42%|███████████████████████████████████████████████████████▍                                                                             | 180/432 [1:32:14<2:02:07, 29.08s/it]                                                                                                                                                                                {'loss': 0.887, 'grad_norm': 0.10927578061819077, 'learning_rate': 0.0001455069541504342, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1829.41, 'epoch': 1.25}
 42%|███████████████████████████████████████████████████████▍                                                                             | 180/432 [1:32:14<2:02:07, 29.08s/it] 42%|███████████████████████████████████████████████████████▋                                                                             | 181/432 [1:32:40<1:57:59, 28.20s/it]                                                                                                                                                                                {'loss': 0.7864, 'grad_norm': 0.08271358907222748, 'learning_rate': 0.00014478633918155217, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1757.68, 'epoch': 1.26}
 42%|███████████████████████████████████████████████████████▋                                                                             | 181/432 [1:32:40<1:57:59, 28.20s/it] 42%|████████████████████████████████████████████████████████                                                                             | 182/432 [1:33:08<1:57:34, 28.22s/it]                                                                                                                                                                                {'loss': 0.8428, 'grad_norm': 0.09157366305589676, 'learning_rate': 0.00014406280313068018, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1808.32, 'epoch': 1.26}
 42%|████████████████████████████████████████████████████████                                                                             | 182/432 [1:33:08<1:57:34, 28.22s/it] 42%|████████████████████████████████████████████████████████▎                                                                            | 183/432 [1:33:37<1:57:35, 28.33s/it]                                                                                                                                                                                {'loss': 0.8618, 'grad_norm': 0.09229514002799988, 'learning_rate': 0.0001433363931887289, 'memory/max_active (GiB)': 24.27, 'memory/max_allocated (GiB)': 24.27, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1808.02, 'epoch': 1.27}
 42%|████████████████████████████████████████████████████████▎                                                                            | 183/432 [1:33:37<1:57:35, 28.33s/it] 43%|████████████████████████████████████████████████████████▋                                                                            | 184/432 [1:34:10<2:02:37, 29.67s/it]                                                                                                                                                                                {'loss': 0.8205, 'grad_norm': 0.08157222718000412, 'learning_rate': 0.00014260715673405157, 'memory/max_active (GiB)': 27.44, 'memory/max_allocated (GiB)': 27.44, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1820.59, 'epoch': 1.28}
 43%|████████████████████████████████████████████████████████▋                                                                            | 184/432 [1:34:10<2:02:37, 29.67s/it] 43%|████████████████████████████████████████████████████████▉                                                                            | 185/432 [1:34:40<2:03:19, 29.96s/it]                                                                                                                                                                                {'loss': 0.8863, 'grad_norm': 0.07500192523002625, 'learning_rate': 0.00014187514132935392, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1786.34, 'epoch': 1.28}
 43%|████████████████████████████████████████████████████████▉                                                                            | 185/432 [1:34:40<2:03:19, 29.96s/it] 43%|█████████████████████████████████████████████████████████▎                                                                           | 186/432 [1:35:10<2:02:17, 29.83s/it]                                                                                                                                                                                {'loss': 0.8631, 'grad_norm': 0.08555968850851059, 'learning_rate': 0.00014114039471859222, 'memory/max_active (GiB)': 28.38, 'memory/max_allocated (GiB)': 28.38, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1752.67, 'epoch': 1.29}
 43%|█████████████████████████████████████████████████████████▎                                                                           | 186/432 [1:35:10<2:02:17, 29.83s/it] 43%|█████████████████████████████████████████████████████████▌                                                                           | 187/432 [1:35:45<2:09:03, 31.60s/it]                                                                                                                                                                                {'loss': 0.9533, 'grad_norm': 0.08531264960765839, 'learning_rate': 0.00014040296482385894, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1935.53, 'epoch': 1.3}
 43%|█████████████████████████████████████████████████████████▌                                                                           | 187/432 [1:35:45<2:09:03, 31.60s/it] 44%|█████████████████████████████████████████████████████████▉                                                                           | 188/432 [1:36:16<2:06:41, 31.15s/it]                                                                                                                                                                                {'loss': 0.9088, 'grad_norm': 0.0975320041179657, 'learning_rate': 0.0001396628997422575, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1858.47, 'epoch': 1.31}
 44%|█████████████████████████████████████████████████████████▉                                                                           | 188/432 [1:36:16<2:06:41, 31.15s/it] 44%|██████████████████████████████████████████████████████████▏                                                                          | 189/432 [1:36:47<2:06:18, 31.19s/it]                                                                                                                                                                                {'loss': 0.8836, 'grad_norm': 0.08182326704263687, 'learning_rate': 0.00013892024774276495, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1805.73, 'epoch': 1.31}
 44%|██████████████████████████████████████████████████████████▏                                                                          | 189/432 [1:36:47<2:06:18, 31.19s/it] 44%|██████████████████████████████████████████████████████████▍                                                                          | 190/432 [1:37:17<2:04:30, 30.87s/it]                                                                                                                                                                                {'loss': 0.8415, 'grad_norm': 0.09812135249376297, 'learning_rate': 0.00013817505726308402, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1786.37, 'epoch': 1.32}
 44%|██████████████████████████████████████████████████████████▍                                                                          | 190/432 [1:37:17<2:04:30, 30.87s/it] 44%|██████████████████████████████████████████████████████████▊                                                                          | 191/432 [1:37:47<2:02:37, 30.53s/it]                                                                                                                                                                                {'loss': 0.8869, 'grad_norm': 0.0917779952287674, 'learning_rate': 0.00013742737690648361, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1818.34, 'epoch': 1.33}
 44%|██████████████████████████████████████████████████████████▊                                                                          | 191/432 [1:37:47<2:02:37, 30.53s/it] 44%|███████████████████████████████████████████████████████████                                                                          | 192/432 [1:38:18<2:03:01, 30.76s/it]                                                                                                                                                                                {'loss': 0.8554, 'grad_norm': 0.0986262708902359, 'learning_rate': 0.00013667725543862905, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1825.63, 'epoch': 1.33}
 44%|███████████████████████████████████████████████████████████                                                                          | 192/432 [1:38:18<2:03:01, 30.76s/it] 45%|███████████████████████████████████████████████████████████▍                                                                         | 193/432 [1:38:48<2:01:30, 30.51s/it]                                                                                                                                                                                {'loss': 0.8649, 'grad_norm': 0.08627785742282867, 'learning_rate': 0.00013592474178440115, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1804.99, 'epoch': 1.34}
 45%|███████████████████████████████████████████████████████████▍                                                                         | 193/432 [1:38:48<2:01:30, 30.51s/it] 45%|███████████████████████████████████████████████████████████▋                                                                         | 194/432 [1:39:23<2:06:21, 31.86s/it]                                                                                                                                                                                {'loss': 0.8681, 'grad_norm': 0.07916709780693054, 'learning_rate': 0.0001351698850247055, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1806.46, 'epoch': 1.35}
 45%|███████████████████████████████████████████████████████████▋                                                                         | 194/432 [1:39:23<2:06:21, 31.86s/it] 45%|████████████████████████████████████████████████████████████                                                                         | 195/432 [1:39:52<2:02:20, 30.97s/it]                                                                                                                                                                                {'loss': 0.8953, 'grad_norm': 0.08284994214773178, 'learning_rate': 0.000134412734393271, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1827.15, 'epoch': 1.35}
 45%|████████████████████████████████████████████████████████████                                                                         | 195/432 [1:39:52<2:02:20, 30.97s/it] 45%|████████████████████████████████████████████████████████████▎                                                                        | 196/432 [1:40:29<2:08:53, 32.77s/it]                                                                                                                                                                                {'loss': 0.9466, 'grad_norm': 0.08089049905538559, 'learning_rate': 0.00013365333927343906, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1850.2, 'epoch': 1.36}
 45%|████████████████████████████████████████████████████████████▎                                                                        | 196/432 [1:40:29<2:08:53, 32.77s/it] 46%|████████████████████████████████████████████████████████████▋                                                                        | 197/432 [1:40:57<2:02:40, 31.32s/it]                                                                                                                                                                                {'loss': 0.8445, 'grad_norm': 0.09982682019472122, 'learning_rate': 0.00013289174919494228, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1776.51, 'epoch': 1.37}
 46%|████████████████████████████████████████████████████████████▋                                                                        | 197/432 [1:40:57<2:02:40, 31.32s/it] 46%|████████████████████████████████████████████████████████████▉                                                                        | 198/432 [1:41:27<2:00:27, 30.89s/it]                                                                                                                                                                                {'loss': 0.92, 'grad_norm': 0.08014615625143051, 'learning_rate': 0.0001321280138306743, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1849.96, 'epoch': 1.38}
 46%|████████████████████████████████████████████████████████████▉                                                                        | 198/432 [1:41:27<2:00:27, 30.89s/it] 46%|█████████████████████████████████████████████████████████████▎                                                                       | 199/432 [1:42:03<2:06:00, 32.45s/it]                                                                                                                                                                                {'loss': 0.7737, 'grad_norm': 0.10110778361558914, 'learning_rate': 0.00013136218299344992, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1853.85, 'epoch': 1.38}
 46%|█████████████████████████████████████████████████████████████▎                                                                       | 199/432 [1:42:03<2:06:00, 32.45s/it] 46%|█████████████████████████████████████████████████████████████▌                                                                       | 200/432 [1:42:31<2:00:49, 31.25s/it]                                                                                                                                                                                {'loss': 0.9339, 'grad_norm': 0.15635082125663757, 'learning_rate': 0.0001305943066327561, 'memory/max_active (GiB)': 25.31, 'memory/max_allocated (GiB)': 25.31, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1818.61, 'epoch': 1.39}
 46%|█████████████████████████████████████████████████████████████▌                                                                       | 200/432 [1:42:31<2:00:49, 31.25s/it][2025-12-26 00:11:13,333] [INFO] [axolotl.core.trainers.base._save:671] [PID:1133] Saving model checkpoint to ./outputs/qwen25-coder-n8n/checkpoint-200
 47%|█████████████████████████████████████████████████████████████▉                                                                       | 201/432 [1:43:03<2:00:40, 31.35s/it]                                                                                                                                                                                {'loss': 0.8845, 'grad_norm': 0.09929472953081131, 'learning_rate': 0.00012982443483149423, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1817.2, 'epoch': 1.4}
 47%|█████████████████████████████████████████████████████████████▉                                                                       | 201/432 [1:43:03<2:00:40, 31.35s/it] 47%|██████████████████████████████████████████████████████████████▏                                                                      | 202/432 [1:43:33<1:59:16, 31.12s/it]                                                                                                                                                                                {'loss': 0.8707, 'grad_norm': 0.09515942633152008, 'learning_rate': 0.00012905261780271344, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1837.43, 'epoch': 1.4}
 47%|██████████████████████████████████████████████████████████████▏                                                                      | 202/432 [1:43:33<1:59:16, 31.12s/it] 47%|██████████████████████████████████████████████████████████████▍                                                                      | 203/432 [1:44:04<1:57:50, 30.88s/it]                                                                                                                                                                                {'loss': 0.8496, 'grad_norm': 0.09018309414386749, 'learning_rate': 0.0001282789058863359, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1816.33, 'epoch': 1.41}
 47%|██████████████████████████████████████████████████████████████▍                                                                      | 203/432 [1:44:04<1:57:50, 30.88s/it] 47%|██████████████████████████████████████████████████████████████▊                                                                      | 204/432 [1:44:38<2:01:09, 31.89s/it]                                                                                                                                                                                {'loss': 0.8792, 'grad_norm': 0.08522883802652359, 'learning_rate': 0.00012750334954587296, 'memory/max_active (GiB)': 27.63, 'memory/max_allocated (GiB)': 27.63, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1824.68, 'epoch': 1.42}
 47%|██████████████████████████████████████████████████████████████▊                                                                      | 204/432 [1:44:38<2:01:09, 31.89s/it] 47%|███████████████████████████████████████████████████████████████                                                                      | 205/432 [1:45:10<2:01:17, 32.06s/it]                                                                                                                                                                                {'loss': 0.8472, 'grad_norm': 0.08992571383714676, 'learning_rate': 0.0001267259993651345, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1866.8, 'epoch': 1.42}
 47%|███████████████████████████████████████████████████████████████                                                                      | 205/432 [1:45:10<2:01:17, 32.06s/it] 48%|███████████████████████████████████████████████████████████████▍                                                                     | 206/432 [1:45:42<2:00:12, 31.91s/it]                                                                                                                                                                                {'loss': 0.9094, 'grad_norm': 0.09144216775894165, 'learning_rate': 0.00012594690604492904, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1745.68, 'epoch': 1.43}
 48%|███████████████████████████████████████████████████████████████▍                                                                     | 206/432 [1:45:42<2:00:12, 31.91s/it] 48%|███████████████████████████████████████████████████████████████▋                                                                     | 207/432 [1:46:19<2:05:42, 33.52s/it]                                                                                                                                                                                {'loss': 0.8063, 'grad_norm': 0.07513560354709625, 'learning_rate': 0.00012516612039975743, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1931.76, 'epoch': 1.44}
 48%|███████████████████████████████████████████████████████████████▋                                                                     | 207/432 [1:46:19<2:05:42, 33.52s/it] 48%|████████████████████████████████████████████████████████████████                                                                     | 208/432 [1:46:52<2:04:22, 33.32s/it]                                                                                                                                                                                {'loss': 0.8781, 'grad_norm': 0.08792822808027267, 'learning_rate': 0.0001243836933544982, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1827.06, 'epoch': 1.44}
 48%|████████████████████████████████████████████████████████████████                                                                     | 208/432 [1:46:52<2:04:22, 33.32s/it] 48%|████████████████████████████████████████████████████████████████▎                                                                    | 209/432 [1:47:29<2:08:02, 34.45s/it]                                                                                                                                                                                {'loss': 0.9232, 'grad_norm': 0.08969538658857346, 'learning_rate': 0.00012359967594108642, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1890.53, 'epoch': 1.45}
 48%|████████████████████████████████████████████████████████████████▎                                                                    | 209/432 [1:47:29<2:08:02, 34.45s/it] 49%|████████████████████████████████████████████████████████████████▋                                                                    | 210/432 [1:48:01<2:04:13, 33.58s/it]                                                                                                                                                                                {'loss': 0.8174, 'grad_norm': 0.08039836585521698, 'learning_rate': 0.000122814119295185, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1885.57, 'epoch': 1.46}
 49%|████████████████████████████████████████████████████████████████▋                                                                    | 210/432 [1:48:01<2:04:13, 33.58s/it] 49%|████████████████████████████████████████████████████████████████▉                                                                    | 211/432 [1:48:27<1:55:15, 31.29s/it]                                                                                                                                                                                {'loss': 0.8835, 'grad_norm': 0.10929764062166214, 'learning_rate': 0.00012202707465284973, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1756.47, 'epoch': 1.47}
 49%|████████████████████████████████████████████████████████████████▉                                                                    | 211/432 [1:48:27<1:55:15, 31.29s/it] 49%|█████████████████████████████████████████████████████████████████▎                                                                   | 212/432 [1:49:01<1:57:38, 32.09s/it]                                                                                                                                                                                {'loss': 0.8583, 'grad_norm': 0.08015114814043045, 'learning_rate': 0.00012123859334718732, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1868.39, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████████████████████▎                                                                   | 212/432 [1:49:01<1:57:38, 32.09s/it] 49%|█████████████████████████████████████████████████████████████████▌                                                                   | 213/432 [1:49:31<1:54:59, 31.51s/it]                                                                                                                                                                                {'loss': 0.9098, 'grad_norm': 0.09009604901075363, 'learning_rate': 0.00012044872680500742, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1819.35, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████████████████████▌                                                                   | 213/432 [1:49:31<1:54:59, 31.51s/it] 50%|█████████████████████████████████████████████████████████████████▉                                                                   | 214/432 [1:49:58<1:49:40, 30.18s/it]                                                                                                                                                                                {'loss': 0.8883, 'grad_norm': 0.08752250671386719, 'learning_rate': 0.00011965752654346853, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1884.22, 'epoch': 1.49}
 50%|█████████████████████████████████████████████████████████████████▉                                                                   | 214/432 [1:49:58<1:49:40, 30.18s/it] 50%|██████████████████████████████████████████████████████████████████▏                                                                  | 215/432 [1:50:27<1:48:18, 29.95s/it]                                                                                                                                                                                {'loss': 0.8918, 'grad_norm': 0.11148025095462799, 'learning_rate': 0.00011886504416671768, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1859.76, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████████████████████▏                                                                  | 215/432 [1:50:27<1:48:18, 29.95s/it] 50%|██████████████████████████████████████████████████████████████████▌                                                                  | 216/432 [1:50:58<1:48:54, 30.25s/it]                                                                                                                                                                                {'loss': 0.8242, 'grad_norm': 0.07988481968641281, 'learning_rate': 0.0001180713313625249, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1858.7, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████████████████████▌                                                                  | 216/432 [1:50:58<1:48:54, 30.25s/it] 50%|██████████████████████████████████████████████████████████████████▊                                                                  | 217/432 [1:51:28<1:48:27, 30.27s/it]                                                                                                                                                                                {'loss': 0.8426, 'grad_norm': 0.09761878848075867, 'learning_rate': 0.00011727643989891179, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1856.18, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████████████████████▊                                                                  | 217/432 [1:51:28<1:48:27, 30.27s/it] 50%|███████████████████████████████████████████████████████████████████                                                                  | 218/432 [1:52:03<1:52:11, 31.46s/it]                                                                                                                                                                                {'loss': 0.8674, 'grad_norm': 0.07537931948900223, 'learning_rate': 0.00011648042162077534, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1835.45, 'epoch': 1.51}
 50%|███████████████████████████████████████████████████████████████████                                                                  | 218/432 [1:52:03<1:52:11, 31.46s/it] 51%|███████████████████████████████████████████████████████████████████▍                                                                 | 219/432 [1:52:38<1:56:08, 32.72s/it]                                                                                                                                                                                {'loss': 0.8664, 'grad_norm': 0.09314136207103729, 'learning_rate': 0.00011568332844650622, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1856.96, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████████████████████▍                                                                 | 219/432 [1:52:38<1:56:08, 32.72s/it] 51%|███████████████████████████████████████████████████████████████████▋                                                                 | 220/432 [1:53:08<1:52:14, 31.76s/it]                                                                                                                                                                                {'loss': 0.78, 'grad_norm': 0.08512671291828156, 'learning_rate': 0.00011488521236460265, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1758.27, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████████████████████▋                                                                 | 220/432 [1:53:08<1:52:14, 31.76s/it] 51%|████████████████████████████████████████████████████████████████████                                                                 | 221/432 [1:53:36<1:48:08, 30.75s/it]                                                                                                                                                                                {'loss': 0.8393, 'grad_norm': 0.10404758155345917, 'learning_rate': 0.00011408612543027964, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1819.01, 'epoch': 1.53}
 51%|████████████████████████████████████████████████████████████████████                                                                 | 221/432 [1:53:36<1:48:08, 30.75s/it] 51%|████████████████████████████████████████████████████████████████████▎                                                                | 222/432 [1:54:11<1:52:01, 32.01s/it]                                                                                                                                                                                {'loss': 0.8878, 'grad_norm': 0.07990723848342896, 'learning_rate': 0.00011328611976207358, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1918.78, 'epoch': 1.54}
 51%|████████████████████████████████████████████████████████████████████▎                                                                | 222/432 [1:54:11<1:52:01, 32.01s/it] 52%|████████████████████████████████████████████████████████████████████▋                                                                | 223/432 [1:54:40<1:48:13, 31.07s/it]                                                                                                                                                                                {'loss': 0.9207, 'grad_norm': 0.1014494001865387, 'learning_rate': 0.00011248524753844325, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1775.9, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████████████████████▋                                                                | 223/432 [1:54:40<1:48:13, 31.07s/it] 52%|████████████████████████████████████████████████████████████████████▉                                                                | 224/432 [1:55:11<1:47:49, 31.10s/it]                                                                                                                                                                                {'loss': 0.8358, 'grad_norm': 0.09172676503658295, 'learning_rate': 0.0001116835609943663, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1843.7, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████████████████████▉                                                                | 224/432 [1:55:11<1:47:49, 31.10s/it] 52%|█████████████████████████████████████████████████████████████████████▎                                                               | 225/432 [1:55:45<1:50:06, 31.92s/it]                                                                                                                                                                                {'loss': 0.8325, 'grad_norm': 0.1032896563410759, 'learning_rate': 0.00011088111241793257, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1780.78, 'epoch': 1.56}
 52%|█████████████████████████████████████████████████████████████████████▎                                                               | 225/432 [1:55:45<1:50:06, 31.92s/it] 52%|█████████████████████████████████████████████████████████████████████▌                                                               | 226/432 [1:56:13<1:45:05, 30.61s/it]                                                                                                                                                                                {'loss': 0.9252, 'grad_norm': 0.0878959596157074, 'learning_rate': 0.0001100779541469336, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1826.23, 'epoch': 1.57}
 52%|█████████████████████████████████████████████████████████████████████▌                                                               | 226/432 [1:56:13<1:45:05, 30.61s/it] 53%|█████████████████████████████████████████████████████████████████████▉                                                               | 227/432 [1:56:50<1:51:01, 32.50s/it]                                                                                                                                                                                {'loss': 0.8705, 'grad_norm': 0.08273521810770035, 'learning_rate': 0.00010927413856544906, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1953.86, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████████████████████▉                                                               | 227/432 [1:56:50<1:51:01, 32.50s/it] 53%|██████████████████████████████████████████████████████████████████████▏                                                              | 228/432 [1:57:21<1:49:17, 32.14s/it]                                                                                                                                                                                {'loss': 0.7784, 'grad_norm': 0.08073699474334717, 'learning_rate': 0.00010846971810043016, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1841.1, 'epoch': 1.58}
 53%|██████████████████████████████████████████████████████████████████████▏                                                              | 228/432 [1:57:21<1:49:17, 32.14s/it] 53%|██████████████████████████████████████████████████████████████████████▌                                                              | 229/432 [1:57:51<1:46:47, 31.56s/it]                                                                                                                                                                                {'loss': 0.8653, 'grad_norm': 0.11773651838302612, 'learning_rate': 0.00010766474521828021, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1863.8, 'epoch': 1.59}
 53%|██████████████████████████████████████████████████████████████████████▌                                                              | 229/432 [1:57:51<1:46:47, 31.56s/it] 53%|██████████████████████████████████████████████████████████████████████▊                                                              | 230/432 [1:58:15<1:38:22, 29.22s/it]                                                                                                                                                                                {'loss': 0.855, 'grad_norm': 0.0916401743888855, 'learning_rate': 0.00010685927242143247, 'memory/max_active (GiB)': 22.28, 'memory/max_allocated (GiB)': 22.28, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1704.74, 'epoch': 1.6}
 53%|██████████████████████████████████████████████████████████████████████▊                                                              | 230/432 [1:58:15<1:38:22, 29.22s/it] 53%|███████████████████████████████████████████████████████████████████████                                                              | 231/432 [1:58:48<1:42:18, 30.54s/it]                                                                                                                                                                                {'loss': 0.8633, 'grad_norm': 0.09775011986494064, 'learning_rate': 0.00010605335224492616, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1802.54, 'epoch': 1.6}
 53%|███████████████████████████████████████████████████████████████████████                                                              | 231/432 [1:58:48<1:42:18, 30.54s/it] 54%|███████████████████████████████████████████████████████████████████████▍                                                             | 232/432 [1:59:20<1:42:30, 30.75s/it]                                                                                                                                                                                {'loss': 0.8797, 'grad_norm': 0.08898714184761047, 'learning_rate': 0.00010524703725297957, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1818.02, 'epoch': 1.61}
 54%|███████████████████████████████████████████████████████████████████████▍                                                             | 232/432 [1:59:20<1:42:30, 30.75s/it] 54%|███████████████████████████████████████████████████████████████████████▋                                                             | 233/432 [1:59:52<1:43:50, 31.31s/it]                                                                                                                                                                                {'loss': 0.9125, 'grad_norm': 0.1121303141117096, 'learning_rate': 0.000104440380035562, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1850.21, 'epoch': 1.62}
 54%|███████████████████████████████████████████████████████████████████████▋                                                             | 233/432 [1:59:52<1:43:50, 31.31s/it] 54%|████████████████████████████████████████████████████████████████████████                                                             | 234/432 [2:00:19<1:38:16, 29.78s/it]                                                                                                                                                                                {'loss': 0.9372, 'grad_norm': 0.09762759506702423, 'learning_rate': 0.00010363343320496358, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1741.45, 'epoch': 1.62}
 54%|████████████████████████████████████████████████████████████████████████                                                             | 234/432 [2:00:19<1:38:16, 29.78s/it] 54%|████████████████████████████████████████████████████████████████████████▎                                                            | 235/432 [2:00:51<1:40:18, 30.55s/it]                                                                                                                                                                                {'loss': 0.878, 'grad_norm': 0.09309601783752441, 'learning_rate': 0.00010282624939236367, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1801.22, 'epoch': 1.63}
 54%|████████████████████████████████████████████████████████████████████████▎                                                            | 235/432 [2:00:51<1:40:18, 30.55s/it] 55%|████████████████████████████████████████████████████████████████████████▋                                                            | 236/432 [2:01:31<1:49:25, 33.50s/it]                                                                                                                                                                                {'loss': 0.8456, 'grad_norm': 0.08035903424024582, 'learning_rate': 0.00010201888124439836, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1852.12, 'epoch': 1.64}
 55%|████████████████████████████████████████████████████████████████████████▋                                                            | 236/432 [2:01:31<1:49:25, 33.50s/it] 55%|████████████████████████████████████████████████████████████████████████▉                                                            | 237/432 [2:02:05<1:49:14, 33.61s/it]                                                                                                                                                                                {'loss': 0.7949, 'grad_norm': 0.09497448056936264, 'learning_rate': 0.00010121138141972648, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1797.28, 'epoch': 1.65}
 55%|████████████████████████████████████████████████████████████████████████▉                                                            | 237/432 [2:02:05<1:49:14, 33.61s/it] 55%|█████████████████████████████████████████████████████████████████████████▎                                                           | 238/432 [2:02:41<1:51:05, 34.36s/it]                                                                                                                                                                                {'loss': 0.8362, 'grad_norm': 0.07064519077539444, 'learning_rate': 0.00010040380258559519, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1883.85, 'epoch': 1.65}
 55%|█████████████████████████████████████████████████████████████████████████▎                                                           | 238/432 [2:02:41<1:51:05, 34.36s/it] 55%|█████████████████████████████████████████████████████████████████████████▌                                                           | 239/432 [2:03:14<1:49:07, 33.92s/it]                                                                                                                                                                                {'loss': 0.8508, 'grad_norm': 0.08790645003318787, 'learning_rate': 9.959619741440485e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1855.49, 'epoch': 1.66}
 55%|█████████████████████████████████████████████████████████████████████████▌                                                           | 239/432 [2:03:14<1:49:07, 33.92s/it] 56%|█████████████████████████████████████████████████████████████████████████▉                                                           | 240/432 [2:03:39<1:40:00, 31.25s/it]                                                                                                                                                                                {'loss': 0.8734, 'grad_norm': 0.11324595659971237, 'learning_rate': 9.878861858027356e-05, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1711.71, 'epoch': 1.67}
 56%|█████████████████████████████████████████████████████████████████████████▉                                                           | 240/432 [2:03:39<1:40:00, 31.25s/it] 56%|██████████████████████████████████████████████████████████████████████████▏                                                          | 241/432 [2:04:16<1:44:41, 32.89s/it]                                                                                                                                                                                {'loss': 0.7948, 'grad_norm': 0.08453542739152908, 'learning_rate': 9.798111875560166e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1948.65, 'epoch': 1.67}
 56%|██████████████████████████████████████████████████████████████████████████▏                                                          | 241/432 [2:04:16<1:44:41, 32.89s/it] 56%|██████████████████████████████████████████████████████████████████████████▌                                                          | 242/432 [2:04:49<1:44:03, 32.86s/it]                                                                                                                                                                                {'loss': 0.9066, 'grad_norm': 0.09879390895366669, 'learning_rate': 9.717375060763635e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1794.2, 'epoch': 1.68}
 56%|██████████████████████████████████████████████████████████████████████████▌                                                          | 242/432 [2:04:49<1:44:03, 32.86s/it] 56%|██████████████████████████████████████████████████████████████████████████▊                                                          | 243/432 [2:05:20<1:42:12, 32.45s/it]                                                                                                                                                                                {'loss': 0.8287, 'grad_norm': 0.12350359559059143, 'learning_rate': 9.636656679503647e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1865.82, 'epoch': 1.69}
 56%|██████████████████████████████████████████████████████████████████████████▊                                                          | 243/432 [2:05:20<1:42:12, 32.45s/it] 56%|███████████████████████████████████████████████████████████████████████████                                                          | 244/432 [2:05:48<1:37:18, 31.05s/it]                                                                                                                                                                                {'loss': 0.9052, 'grad_norm': 0.09640428423881531, 'learning_rate': 9.555961996443802e-05, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1773.17, 'epoch': 1.69}
 56%|███████████████████████████████████████████████████████████████████████████                                                          | 244/432 [2:05:48<1:37:18, 31.05s/it] 57%|███████████████████████████████████████████████████████████████████████████▍                                                         | 245/432 [2:06:20<1:37:18, 31.22s/it]                                                                                                                                                                                {'loss': 0.8773, 'grad_norm': 0.08821994811296463, 'learning_rate': 9.475296274702044e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1817.71, 'epoch': 1.7}
 57%|███████████████████████████████████████████████████████████████████████████▍                                                         | 245/432 [2:06:20<1:37:18, 31.22s/it] 57%|███████████████████████████████████████████████████████████████████████████▋                                                         | 246/432 [2:06:49<1:35:31, 30.81s/it]                                                                                                                                                                                {'loss': 0.8856, 'grad_norm': 0.08469712734222412, 'learning_rate': 9.394664775507386e-05, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1832.28, 'epoch': 1.71}
 57%|███████████████████████████████████████████████████████████████████████████▋                                                         | 246/432 [2:06:49<1:35:31, 30.81s/it] 57%|████████████████████████████████████████████████████████████████████████████                                                         | 247/432 [2:07:15<1:30:13, 29.26s/it]                                                                                                                                                                                {'loss': 0.919, 'grad_norm': 0.08056015521287918, 'learning_rate': 9.314072757856752e-05, 'memory/max_active (GiB)': 26.25, 'memory/max_allocated (GiB)': 26.25, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1761.99, 'epoch': 1.72}
 57%|████████████████████████████████████████████████████████████████████████████                                                         | 247/432 [2:07:15<1:30:13, 29.26s/it] 57%|████████████████████████████████████████████████████████████████████████████▎                                                        | 248/432 [2:07:48<1:32:47, 30.26s/it]                                                                                                                                                                                {'loss': 0.8668, 'grad_norm': 0.08589974790811539, 'learning_rate': 9.233525478171985e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1749.38, 'epoch': 1.72}
 57%|████████████████████████████████████████████████████████████████████████████▎                                                        | 248/432 [2:07:48<1:32:47, 30.26s/it] 58%|████████████████████████████████████████████████████████████████████████████▋                                                        | 249/432 [2:08:23<1:36:32, 31.65s/it]                                                                                                                                                                                {'loss': 0.796, 'grad_norm': 0.0930853933095932, 'learning_rate': 9.153028189956986e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1784.47, 'epoch': 1.73}
 58%|████████████████████████████████████████████████████████████████████████████▋                                                        | 249/432 [2:08:23<1:36:32, 31.65s/it] 58%|████████████████████████████████████████████████████████████████████████████▉                                                        | 250/432 [2:08:54<1:35:54, 31.62s/it]                                                                                                                                                                                {'loss': 0.8382, 'grad_norm': 0.07989697903394699, 'learning_rate': 9.072586143455097e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1868.02, 'epoch': 1.74}
 58%|████████████████████████████████████████████████████████████████████████████▉                                                        | 250/432 [2:08:54<1:35:54, 31.62s/it] 58%|█████████████████████████████████████████████████████████████████████████████▎                                                       | 251/432 [2:09:27<1:36:32, 32.00s/it]                                                                                                                                                                                {'loss': 0.8661, 'grad_norm': 0.08756358176469803, 'learning_rate': 8.99220458530664e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1780.22, 'epoch': 1.74}
 58%|█████████████████████████████████████████████████████████████████████████████▎                                                       | 251/432 [2:09:27<1:36:32, 32.00s/it] 58%|█████████████████████████████████████████████████████████████████████████████▌                                                       | 252/432 [2:10:00<1:36:36, 32.20s/it]                                                                                                                                                                                {'loss': 0.8648, 'grad_norm': 0.09106790274381638, 'learning_rate': 8.911888758206746e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1867.43, 'epoch': 1.75}
 58%|█████████████████████████████████████████████████████████████████████████████▌                                                       | 252/432 [2:10:00<1:36:36, 32.20s/it] 59%|█████████████████████████████████████████████████████████████████████████████▉                                                       | 253/432 [2:10:30<1:34:47, 31.77s/it]                                                                                                                                                                                {'loss': 0.818, 'grad_norm': 0.08131217211484909, 'learning_rate': 8.831643900563372e-05, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1822.77, 'epoch': 1.76}
 59%|█████████████████████████████████████████████████████████████████████████████▉                                                       | 253/432 [2:10:30<1:34:47, 31.77s/it] 59%|██████████████████████████████████████████████████████████████████████████████▏                                                      | 254/432 [2:10:56<1:28:54, 29.97s/it]                                                                                                                                                                                {'loss': 0.8088, 'grad_norm': 0.11942015588283539, 'learning_rate': 8.751475246155677e-05, 'memory/max_active (GiB)': 23.7, 'memory/max_allocated (GiB)': 23.7, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1729.21, 'epoch': 1.76}
 59%|██████████████████████████████████████████████████████████████████████████████▏                                                      | 254/432 [2:10:56<1:28:54, 29.97s/it] 59%|██████████████████████████████████████████████████████████████████████████████▌                                                      | 255/432 [2:11:28<1:29:57, 30.50s/it]                                                                                                                                                                                {'loss': 0.8724, 'grad_norm': 0.09604175388813019, 'learning_rate': 8.671388023792642e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1886.58, 'epoch': 1.77}
 59%|██████████████████████████████████████████████████████████████████████████████▌                                                      | 255/432 [2:11:28<1:29:57, 30.50s/it] 59%|██████████████████████████████████████████████████████████████████████████████▊                                                      | 256/432 [2:11:58<1:28:45, 30.26s/it]                                                                                                                                                                                {'loss': 0.8124, 'grad_norm': 0.0788886770606041, 'learning_rate': 8.59138745697204e-05, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1754.64, 'epoch': 1.78}
 59%|██████████████████████████████████████████████████████████████████████████████▊                                                      | 256/432 [2:11:58<1:28:45, 30.26s/it] 59%|███████████████████████████████████████████████████████████████████████████████                                                      | 257/432 [2:12:25<1:25:57, 29.47s/it]                                                                                                                                                                                {'loss': 0.7003, 'grad_norm': 0.0804813876748085, 'learning_rate': 8.511478763539736e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1794.04, 'epoch': 1.78}
 59%|███████████████████████████████████████████████████████████████████████████████                                                      | 257/432 [2:12:25<1:25:57, 29.47s/it] 60%|███████████████████████████████████████████████████████████████████████████████▍                                                     | 258/432 [2:12:50<1:21:01, 27.94s/it]                                                                                                                                                                                {'loss': 0.866, 'grad_norm': 0.09597983211278915, 'learning_rate': 8.431667155349381e-05, 'memory/max_active (GiB)': 23.32, 'memory/max_allocated (GiB)': 23.32, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1748.56, 'epoch': 1.79}
 60%|███████████████████████████████████████████████████████████████████████████████▍                                                     | 258/432 [2:12:50<1:21:01, 27.94s/it] 60%|███████████████████████████████████████████████████████████████████████████████▋                                                     | 259/432 [2:13:19<1:22:04, 28.46s/it]                                                                                                                                                                                {'loss': 0.863, 'grad_norm': 0.11629097163677216, 'learning_rate': 8.351957837922467e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1773.79, 'epoch': 1.8}
 60%|███████████████████████████████████████████████████████████████████████████████▋                                                     | 259/432 [2:13:19<1:22:04, 28.46s/it] 60%|████████████████████████████████████████████████████████████████████████████████                                                     | 260/432 [2:13:43<1:17:44, 27.12s/it]                                                                                                                                                                                {'loss': 0.8615, 'grad_norm': 0.09090136736631393, 'learning_rate': 8.27235601010882e-05, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1774.56, 'epoch': 1.81}
 60%|████████████████████████████████████████████████████████████████████████████████                                                     | 260/432 [2:13:43<1:17:44, 27.12s/it] 60%|████████████████████████████████████████████████████████████████████████████████▎                                                    | 261/432 [2:14:10<1:17:21, 27.14s/it]                                                                                                                                                                                {'loss': 0.8546, 'grad_norm': 0.10009613633155823, 'learning_rate': 8.192866863747515e-05, 'memory/max_active (GiB)': 27.0, 'memory/max_allocated (GiB)': 27.0, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1750.52, 'epoch': 1.81}
 60%|████████████████████████████████████████████████████████████████████████████████▎                                                    | 261/432 [2:14:10<1:17:21, 27.14s/it] 61%|████████████████████████████████████████████████████████████████████████████████▋                                                    | 262/432 [2:14:36<1:15:42, 26.72s/it]                                                                                                                                                                                {'loss': 0.7865, 'grad_norm': 0.0965074971318245, 'learning_rate': 8.113495583328233e-05, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1680.7, 'epoch': 1.82}
 61%|████████████████████████████████████████████████████████████████████████████████▋                                                    | 262/432 [2:14:36<1:15:42, 26.72s/it] 61%|████████████████████████████████████████████████████████████████████████████████▉                                                    | 263/432 [2:15:07<1:18:24, 27.84s/it]                                                                                                                                                                                {'loss': 0.8501, 'grad_norm': 0.09880048781633377, 'learning_rate': 8.034247345653148e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1889.0, 'epoch': 1.83}
 61%|████████████████████████████████████████████████████████████████████████████████▉                                                    | 263/432 [2:15:07<1:18:24, 27.84s/it] 61%|█████████████████████████████████████████████████████████████████████████████████▎                                                   | 264/432 [2:15:41<1:23:05, 29.68s/it]                                                                                                                                                                                {'loss': 0.8325, 'grad_norm': 0.0786200538277626, 'learning_rate': 7.955127319499259e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1823.88, 'epoch': 1.83}
 61%|█████████████████████████████████████████████████████████████████████████████████▎                                                   | 264/432 [2:15:41<1:23:05, 29.68s/it] 61%|█████████████████████████████████████████████████████████████████████████████████▌                                                   | 265/432 [2:16:16<1:27:06, 31.30s/it]                                                                                                                                                                                {'loss': 0.8751, 'grad_norm': 0.07960072159767151, 'learning_rate': 7.876140665281271e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1897.77, 'epoch': 1.84}
 61%|█████████████████████████████████████████████████████████████████████████████████▌                                                   | 265/432 [2:16:16<1:27:06, 31.30s/it] 62%|█████████████████████████████████████████████████████████████████████████████████▉                                                   | 266/432 [2:16:46<1:25:36, 30.94s/it]                                                                                                                                                                                {'loss': 0.8494, 'grad_norm': 0.08863594383001328, 'learning_rate': 7.797292534715031e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1813.39, 'epoch': 1.85}
 62%|█████████████████████████████████████████████████████████████████████████████████▉                                                   | 266/432 [2:16:46<1:25:36, 30.94s/it] 62%|██████████████████████████████████████████████████████████████████████████████████▏                                                  | 267/432 [2:17:22<1:29:32, 32.56s/it]                                                                                                                                                                                {'loss': 0.8065, 'grad_norm': 0.08356545120477676, 'learning_rate': 7.718588070481501e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1812.7, 'epoch': 1.85}
 62%|██████████████████████████████████████████████████████████████████████████████████▏                                                  | 267/432 [2:17:22<1:29:32, 32.56s/it] 62%|██████████████████████████████████████████████████████████████████████████████████▌                                                  | 268/432 [2:17:51<1:25:46, 31.38s/it]                                                                                                                                                                                {'loss': 0.7955, 'grad_norm': 0.11613404750823975, 'learning_rate': 7.64003240589136e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1771.17, 'epoch': 1.86}
 62%|██████████████████████████████████████████████████████████████████████████████████▌                                                  | 268/432 [2:17:51<1:25:46, 31.38s/it] 62%|██████████████████████████████████████████████████████████████████████████████████▊                                                  | 269/432 [2:18:17<1:21:13, 29.90s/it]                                                                                                                                                                                {'loss': 0.8593, 'grad_norm': 0.09824944287538528, 'learning_rate': 7.561630664550179e-05, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1768.77, 'epoch': 1.87}
 62%|██████████████████████████████████████████████████████████████████████████████████▊                                                  | 269/432 [2:18:17<1:21:13, 29.90s/it] 62%|███████████████████████████████████████████████████████████████████████████████████▏                                                 | 270/432 [2:18:47<1:20:28, 29.81s/it]                                                                                                                                                                                {'loss': 0.8571, 'grad_norm': 0.09118006378412247, 'learning_rate': 7.483387960024261e-05, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1805.31, 'epoch': 1.88}
 62%|███████████████████████████████████████████████████████████████████████████████████▏                                                 | 270/432 [2:18:47<1:20:28, 29.81s/it] 63%|███████████████████████████████████████████████████████████████████████████████████▍                                                 | 271/432 [2:19:16<1:19:30, 29.63s/it]                                                                                                                                                                                {'loss': 0.8738, 'grad_norm': 0.09468278288841248, 'learning_rate': 7.405309395507097e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1793.21, 'epoch': 1.88}
 63%|███████████████████████████████████████████████████████████████████████████████████▍                                                 | 271/432 [2:19:16<1:19:30, 29.63s/it] 63%|███████████████████████████████████████████████████████████████████████████████████▋                                                 | 272/432 [2:19:47<1:20:27, 30.17s/it]                                                                                                                                                                                {'loss': 0.8775, 'grad_norm': 0.0904763713479042, 'learning_rate': 7.327400063486554e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1886.32, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████████████████████████▋                                                 | 272/432 [2:19:47<1:20:27, 30.17s/it] 63%|████████████████████████████████████████████████████████████████████████████████████                                                 | 273/432 [2:20:15<1:17:32, 29.26s/it]                                                                                                                                                                                {'loss': 0.8815, 'grad_norm': 0.09754563868045807, 'learning_rate': 7.249665045412703e-05, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1869.03, 'epoch': 1.9}
 63%|████████████████████████████████████████████████████████████████████████████████████                                                 | 273/432 [2:20:15<1:17:32, 29.26s/it] 63%|████████████████████████████████████████████████████████████████████████████████████▎                                                | 274/432 [2:20:44<1:17:30, 29.44s/it]                                                                                                                                                                                {'loss': 0.9238, 'grad_norm': 0.08886516839265823, 'learning_rate': 7.172109411366417e-05, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1854.15, 'epoch': 1.9}
 63%|████████████████████████████████████████████████████████████████████████████████████▎                                                | 274/432 [2:20:44<1:17:30, 29.44s/it] 64%|████████████████████████████████████████████████████████████████████████████████████▋                                                | 275/432 [2:21:12<1:15:39, 28.91s/it]                                                                                                                                                                                {'loss': 0.9098, 'grad_norm': 0.09808940440416336, 'learning_rate': 7.094738219728657e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1739.44, 'epoch': 1.91}
 64%|████████████████████████████████████████████████████████████████████████████████████▋                                                | 275/432 [2:21:12<1:15:39, 28.91s/it] 64%|████████████████████████████████████████████████████████████████████████████████████▉                                                | 276/432 [2:21:38<1:13:09, 28.14s/it]                                                                                                                                                                                {'loss': 0.8904, 'grad_norm': 0.07680974900722504, 'learning_rate': 7.017556516850581e-05, 'memory/max_active (GiB)': 23.22, 'memory/max_allocated (GiB)': 23.22, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1810.82, 'epoch': 1.92}
 64%|████████████████████████████████████████████████████████████████████████████████████▉                                                | 276/432 [2:21:38<1:13:09, 28.14s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████▎                                               | 277/432 [2:22:11<1:16:25, 29.59s/it]                                                                                                                                                                                {'loss': 0.8547, 'grad_norm': 0.07694356143474579, 'learning_rate': 6.94056933672439e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1902.73, 'epoch': 1.92}
 64%|█████████████████████████████████████████████████████████████████████████████████████▎                                               | 277/432 [2:22:11<1:16:25, 29.59s/it] 64%|█████████████████████████████████████████████████████████████████████████████████████▌                                               | 278/432 [2:22:44<1:18:28, 30.58s/it]                                                                                                                                                                                {'loss': 0.8173, 'grad_norm': 0.08431762456893921, 'learning_rate': 6.863781700655011e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1798.48, 'epoch': 1.93}
 64%|█████████████████████████████████████████████████████████████████████████████████████▌                                               | 278/432 [2:22:44<1:18:28, 30.58s/it] 65%|█████████████████████████████████████████████████████████████████████████████████████▉                                               | 279/432 [2:23:19<1:21:00, 31.77s/it]                                                                                                                                                                                {'loss': 0.8748, 'grad_norm': 0.07724566757678986, 'learning_rate': 6.787198616932571e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1917.22, 'epoch': 1.94}
 65%|█████████████████████████████████████████████████████████████████████████████████████▉                                               | 279/432 [2:23:19<1:21:00, 31.77s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████▏                                              | 280/432 [2:23:52<1:21:16, 32.08s/it]                                                                                                                                                                                {'loss': 0.9169, 'grad_norm': 0.11666595935821533, 'learning_rate': 6.710825080505775e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1713.95, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████████████████████████▏                                              | 280/432 [2:23:52<1:21:16, 32.08s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████▌                                              | 281/432 [2:24:19<1:16:57, 30.58s/it]                                                                                                                                                                                {'loss': 0.8569, 'grad_norm': 0.09968864172697067, 'learning_rate': 6.634666072656097e-05, 'memory/max_active (GiB)': 27.0, 'memory/max_allocated (GiB)': 27.0, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1781.62, 'epoch': 1.95}
 65%|██████████████████████████████████████████████████████████████████████████████████████▌                                              | 281/432 [2:24:19<1:16:57, 30.58s/it] 65%|██████████████████████████████████████████████████████████████████████████████████████▊                                              | 282/432 [2:24:50<1:16:46, 30.71s/it]                                                                                                                                                                                {'loss': 0.788, 'grad_norm': 0.09674399346113205, 'learning_rate': 6.558726560672899e-05, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1865.35, 'epoch': 1.96}
 65%|██████████████████████████████████████████████████████████████████████████████████████▊                                              | 282/432 [2:24:50<1:16:46, 30.71s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████▏                                             | 283/432 [2:25:19<1:14:50, 30.14s/it]                                                                                                                                                                                {'loss': 0.8589, 'grad_norm': 0.09675844758749008, 'learning_rate': 6.483011497529456e-05, 'memory/max_active (GiB)': 26.25, 'memory/max_allocated (GiB)': 26.25, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1743.26, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████████████████████████▏                                             | 283/432 [2:25:19<1:14:50, 30.14s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████▍                                             | 284/432 [2:25:51<1:15:39, 30.67s/it]                                                                                                                                                                                {'loss': 0.8096, 'grad_norm': 0.09706730395555496, 'learning_rate': 6.407525821559887e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1861.42, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████████████████████████▍                                             | 284/432 [2:25:51<1:15:39, 30.67s/it] 66%|███████████████████████████████████████████████████████████████████████████████████████▋                                             | 285/432 [2:26:26<1:18:42, 32.13s/it]                                                                                                                                                                                {'loss': 0.8119, 'grad_norm': 0.07886802405118942, 'learning_rate': 6.332274456137097e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1899.29, 'epoch': 1.98}
 66%|███████████████████████████████████████████████████████████████████████████████████████▋                                             | 285/432 [2:26:26<1:18:42, 32.13s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████                                             | 286/432 [2:26:56<1:16:23, 31.40s/it]                                                                                                                                                                                {'loss': 0.8325, 'grad_norm': 0.11373884230852127, 'learning_rate': 6.257262309351637e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1767.65, 'epoch': 1.99}
 66%|████████████████████████████████████████████████████████████████████████████████████████                                             | 286/432 [2:26:56<1:16:23, 31.40s/it] 66%|████████████████████████████████████████████████████████████████████████████████████████▎                                            | 287/432 [2:27:21<1:11:43, 29.68s/it]                                                                                                                                                                                {'loss': 0.8644, 'grad_norm': 0.10353608429431915, 'learning_rate': 6.182494273691601e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1813.76, 'epoch': 1.99}
 66%|████████████████████████████████████████████████████████████████████████████████████████▎                                            | 287/432 [2:27:21<1:11:43, 29.68s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████▋                                            | 288/432 [2:27:57<1:15:15, 31.36s/it]                                                                                                                                                                                {'loss': 0.8194, 'grad_norm': 0.0775594413280487, 'learning_rate': 6.107975225723506e-05, 'memory/max_active (GiB)': 26.49, 'memory/max_allocated (GiB)': 26.49, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1879.94, 'epoch': 2.0}
 67%|████████████████████████████████████████████████████████████████████████████████████████▋                                            | 288/432 [2:27:57<1:15:15, 31.36s/it] 67%|████████████████████████████████████████████████████████████████████████████████████████▉                                            | 289/432 [2:28:27<1:14:20, 31.19s/it]                                                                                                                                                                                {'loss': 0.8638, 'grad_norm': 0.3271954655647278, 'learning_rate': 6.0337100257742526e-05, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1807.54, 'epoch': 2.01}
 67%|████████████████████████████████████████████████████████████████████████████████████████▉                                            | 289/432 [2:28:27<1:14:20, 31.19s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████▎                                           | 290/432 [2:29:01<1:15:17, 31.81s/it]                                                                                                                                                                                {'loss': 0.8505, 'grad_norm': 0.09865723550319672, 'learning_rate': 5.959703517614107e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1841.54, 'epoch': 2.01}
 67%|█████████████████████████████████████████████████████████████████████████████████████████▎                                           | 290/432 [2:29:01<1:15:17, 31.81s/it] 67%|█████████████████████████████████████████████████████████████████████████████████████████▌                                           | 291/432 [2:29:30<1:12:49, 30.99s/it]                                                                                                                                                                                {'loss': 0.9427, 'grad_norm': 0.10358452796936035, 'learning_rate': 5.885960528140784e-05, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1871.58, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████████████████████████▌                                           | 291/432 [2:29:30<1:12:49, 30.99s/it] 68%|█████████████████████████████████████████████████████████████████████████████████████████▉                                           | 292/432 [2:30:02<1:13:16, 31.40s/it]                                                                                                                                                                                {'loss': 0.8465, 'grad_norm': 0.08211047947406769, 'learning_rate': 5.8124858670646076e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1929.81, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████████████████████████▉                                           | 292/432 [2:30:02<1:13:16, 31.40s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████▏                                          | 293/432 [2:30:40<1:17:06, 33.28s/it]                                                                                                                                                                                {'loss': 0.8665, 'grad_norm': 0.0825471431016922, 'learning_rate': 5.7392843265948445e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1887.14, 'epoch': 2.03}
 68%|██████████████████████████████████████████████████████████████████████████████████████████▏                                          | 293/432 [2:30:40<1:17:06, 33.28s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████▌                                          | 294/432 [2:31:08<1:13:16, 31.86s/it]                                                                                                                                                                                {'loss': 0.8792, 'grad_norm': 0.10379532724618912, 'learning_rate': 5.666360681127109e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1790.02, 'epoch': 2.04}
 68%|██████████████████████████████████████████████████████████████████████████████████████████▌                                          | 294/432 [2:31:08<1:13:16, 31.86s/it] 68%|██████████████████████████████████████████████████████████████████████████████████████████▊                                          | 295/432 [2:31:41<1:13:31, 32.20s/it]                                                                                                                                                                                {'loss': 0.8132, 'grad_norm': 0.09821659326553345, 'learning_rate': 5.59371968693198e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1845.27, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████████████████████████▊                                          | 295/432 [2:31:41<1:13:31, 32.20s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████▏                                         | 296/432 [2:32:10<1:10:26, 31.08s/it]                                                                                                                                                                                {'loss': 0.844, 'grad_norm': 0.112259142100811, 'learning_rate': 5.5213660818447876e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1750.46, 'epoch': 2.06}
 69%|███████████████████████████████████████████████████████████████████████████████████████████▏                                         | 296/432 [2:32:10<1:10:26, 31.08s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████▍                                         | 297/432 [2:32:40<1:09:17, 30.80s/it]                                                                                                                                                                                {'loss': 0.8193, 'grad_norm': 0.12411390990018845, 'learning_rate': 5.449304584956582e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1835.3, 'epoch': 2.06}
 69%|███████████████████████████████████████████████████████████████████████████████████████████▍                                         | 297/432 [2:32:40<1:09:17, 30.80s/it] 69%|███████████████████████████████████████████████████████████████████████████████████████████▋                                         | 298/432 [2:33:12<1:09:36, 31.17s/it]                                                                                                                                                                                {'loss': 0.8435, 'grad_norm': 0.13642744719982147, 'learning_rate': 5.377539896306363e-05, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1875.92, 'epoch': 2.07}
 69%|███████████████████████████████████████████████████████████████████████████████████████████▋                                         | 298/432 [2:33:12<1:09:36, 31.17s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████                                         | 299/432 [2:33:35<1:03:47, 28.78s/it]                                                                                                                                                                                {'loss': 0.8313, 'grad_norm': 0.1161445826292038, 'learning_rate': 5.3060766965745224e-05, 'memory/max_active (GiB)': 23.7, 'memory/max_allocated (GiB)': 23.7, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1779.07, 'epoch': 2.08}
 69%|████████████████████████████████████████████████████████████████████████████████████████████                                         | 299/432 [2:33:35<1:03:47, 28.78s/it] 69%|████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 300/432 [2:34:07<1:05:14, 29.65s/it]                                                                                                                                                                                {'loss': 0.7722, 'grad_norm': 0.1206204742193222, 'learning_rate': 5.2349196467775564e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1826.73, 'epoch': 2.08}
 69%|████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 300/432 [2:34:07<1:05:14, 29.65s/it][2025-12-26 01:02:49,078] [INFO] [axolotl.core.trainers.base._save:671] [PID:1133] Saving model checkpoint to ./outputs/qwen25-coder-n8n/checkpoint-300
 70%|████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 301/432 [2:34:42<1:08:01, 31.15s/it]                                                                                                                                                                                {'loss': 0.7582, 'grad_norm': 0.10483237355947495, 'learning_rate': 5.164073387964057e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1856.16, 'epoch': 2.09}
 70%|████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 301/432 [2:34:42<1:08:01, 31.15s/it] 70%|████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 302/432 [2:35:10<1:05:48, 30.37s/it]                                                                                                                                                                                {'loss': 0.8407, 'grad_norm': 0.08910904079675674, 'learning_rate': 5.093542540912024e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1712.18, 'epoch': 2.1}
 70%|████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 302/432 [2:35:10<1:05:48, 30.37s/it] 70%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 303/432 [2:35:37<1:02:52, 29.24s/it]                                                                                                                                                                                {'loss': 0.8836, 'grad_norm': 0.11549682915210724, 'learning_rate': 5.023331705827477e-05, 'memory/max_active (GiB)': 27.44, 'memory/max_allocated (GiB)': 27.44, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1756.42, 'epoch': 2.1}
 70%|█████████████████████████████████████████████████████████████████████████████████████████████▎                                       | 303/432 [2:35:37<1:02:52, 29.24s/it] 70%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 304/432 [2:36:09<1:04:11, 30.09s/it]                                                                                                                                                                                {'loss': 0.7829, 'grad_norm': 0.09834477305412292, 'learning_rate': 4.9534454620444145e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1856.85, 'epoch': 2.11}
 70%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 304/432 [2:36:09<1:04:11, 30.09s/it] 71%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 305/432 [2:36:36<1:01:39, 29.13s/it]                                                                                                                                                                                {'loss': 0.8453, 'grad_norm': 0.10889922827482224, 'learning_rate': 4.883888367726153e-05, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1809.25, 'epoch': 2.12}
 71%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                       | 305/432 [2:36:36<1:01:39, 29.13s/it] 71%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 306/432 [2:37:05<1:01:29, 29.28s/it]                                                                                                                                                                                {'loss': 0.8669, 'grad_norm': 0.0908389538526535, 'learning_rate': 4.8146649595680106e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1833.44, 'epoch': 2.12}
 71%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                      | 306/432 [2:37:05<1:01:29, 29.28s/it] 71%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 307/432 [2:37:38<1:03:09, 30.32s/it]                                                                                                                                                                                {'loss': 0.804, 'grad_norm': 0.09255880862474442, 'learning_rate': 4.7457797525014294e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1812.18, 'epoch': 2.13}
 71%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 307/432 [2:37:38<1:03:09, 30.32s/it] 71%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 308/432 [2:38:06<1:01:00, 29.52s/it]                                                                                                                                                                                {'loss': 0.8572, 'grad_norm': 0.10134515911340714, 'learning_rate': 4.677237239399489e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1800.68, 'epoch': 2.14}
 71%|██████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 308/432 [2:38:06<1:01:00, 29.52s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 309/432 [2:38:33<59:08, 28.85s/it]                                                                                                                                                                                {'loss': 0.8331, 'grad_norm': 0.09899571537971497, 'learning_rate': 4.609041890783882e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1801.36, 'epoch': 2.15}
 72%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                      | 309/432 [2:38:33<59:08, 28.85s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 310/432 [2:39:03<59:12, 29.12s/it]                                                                                                                                                                                {'loss': 0.8021, 'grad_norm': 0.09702388197183609, 'learning_rate': 4.541198154533311e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1825.58, 'epoch': 2.15}
 72%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                      | 310/432 [2:39:03<59:12, 29.12s/it] 72%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 311/432 [2:39:31<58:16, 28.90s/it]                                                                                                                                                                                {'loss': 0.8754, 'grad_norm': 0.10719087719917297, 'learning_rate': 4.4737104555934164e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1691.89, 'epoch': 2.16}
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████▏                                     | 311/432 [2:39:31<58:16, 28.90s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████                                     | 312/432 [2:40:08<1:02:19, 31.16s/it]                                                                                                                                                                                {'loss': 0.8347, 'grad_norm': 0.10494202375411987, 'learning_rate': 4.40658319568815e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1870.08, 'epoch': 2.17}
 72%|████████████████████████████████████████████████████████████████████████████████████████████████                                     | 312/432 [2:40:08<1:02:19, 31.16s/it] 72%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 313/432 [2:40:41<1:03:02, 31.78s/it]                                                                                                                                                                                {'loss': 0.8044, 'grad_norm': 0.08886885643005371, 'learning_rate': 4.3398207530326915e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1858.98, 'epoch': 2.17}
 72%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                    | 313/432 [2:40:41<1:03:02, 31.78s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 314/432 [2:41:18<1:05:56, 33.53s/it]                                                                                                                                                                                {'loss': 0.8233, 'grad_norm': 0.09062239527702332, 'learning_rate': 4.27342748204788e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1825.04, 'epoch': 2.18}
 73%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                    | 314/432 [2:41:18<1:05:56, 33.53s/it] 73%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 315/432 [2:41:47<1:02:13, 31.91s/it]                                                                                                                                                                                {'loss': 0.8216, 'grad_norm': 0.11928120255470276, 'learning_rate': 4.207407713076221e-05, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1761.75, 'epoch': 2.19}
 73%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                    | 315/432 [2:41:47<1:02:13, 31.91s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 316/432 [2:42:16<1:00:01, 31.05s/it]                                                                                                                                                                                {'loss': 0.8625, 'grad_norm': 0.11144374310970306, 'learning_rate': 4.1417657520994405e-05, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1733.02, 'epoch': 2.19}
 73%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                   | 316/432 [2:42:16<1:00:01, 31.05s/it] 73%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 317/432 [2:42:48<1:00:20, 31.48s/it]                                                                                                                                                                                {'loss': 0.8506, 'grad_norm': 0.08445002883672714, 'learning_rate': 4.0765058804576416e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1877.93, 'epoch': 2.2}
 73%|█████████████████████████████████████████████████████████████████████████████████████████████████▌                                   | 317/432 [2:42:48<1:00:20, 31.48s/it] 74%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 318/432 [2:43:22<1:01:23, 32.31s/it]                                                                                                                                                                                {'loss': 0.835, 'grad_norm': 0.10655620694160461, 'learning_rate': 4.0116323545700675e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1849.34, 'epoch': 2.21}
 74%|█████████████████████████████████████████████████████████████████████████████████████████████████▉                                   | 318/432 [2:43:22<1:01:23, 32.31s/it] 74%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 319/432 [2:43:51<58:59, 31.32s/it]                                                                                                                                                                                {'loss': 0.773, 'grad_norm': 0.09846463054418564, 'learning_rate': 3.9471494056574686e-05, 'memory/max_active (GiB)': 23.66, 'memory/max_allocated (GiB)': 23.66, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1826.04, 'epoch': 2.22}
 74%|███████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 319/432 [2:43:51<58:59, 31.32s/it] 74%|████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 320/432 [2:44:23<58:48, 31.51s/it]                                                                                                                                                                                {'loss': 0.7294, 'grad_norm': 0.08937955647706985, 'learning_rate': 3.8830612394661605e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1838.38, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████                                   | 320/432 [2:44:23<58:48, 31.51s/it] 74%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 321/432 [2:45:00<1:01:02, 33.00s/it]                                                                                                                                                                                {'loss': 0.7987, 'grad_norm': 0.09597578644752502, 'learning_rate': 3.81937203599369e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1881.8, 'epoch': 2.23}
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 321/432 [2:45:00<1:01:02, 33.00s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 322/432 [2:45:32<1:00:14, 32.86s/it]                                                                                                                                                                                {'loss': 0.8584, 'grad_norm': 0.11112694442272186, 'learning_rate': 3.756085949216218e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1803.07, 'epoch': 2.24}
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                 | 322/432 [2:45:32<1:00:14, 32.86s/it] 75%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 323/432 [2:46:06<1:00:02, 33.05s/it]                                                                                                                                                                                {'loss': 0.7849, 'grad_norm': 0.09991186112165451, 'learning_rate': 3.69320710681758e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1881.65, 'epoch': 2.24}
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 323/432 [2:46:06<1:00:02, 33.05s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 324/432 [2:46:37<58:22, 32.43s/it]                                                                                                                                                                                {'loss': 0.8531, 'grad_norm': 0.097774937748909, 'learning_rate': 3.6307396099200684e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1858.8, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                 | 324/432 [2:46:37<58:22, 32.43s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 325/432 [2:46:59<52:23, 29.38s/it]                                                                                                                                                                                {'loss': 0.8608, 'grad_norm': 0.1338118612766266, 'learning_rate': 3.568687532816951e-05, 'memory/max_active (GiB)': 25.31, 'memory/max_allocated (GiB)': 25.31, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1700.93, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 | 325/432 [2:46:59<52:23, 29.38s/it] 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 326/432 [2:47:32<53:56, 30.53s/it]                                                                                                                                                                                {'loss': 0.9267, 'grad_norm': 0.2812134027481079, 'learning_rate': 3.507054922706733e-05, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1860.78, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 | 326/432 [2:47:32<53:56, 30.53s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 327/432 [2:48:04<54:01, 30.87s/it]                                                                                                                                                                                {'loss': 0.8684, 'grad_norm': 0.09611228853464127, 'learning_rate': 3.445845799429176e-05, 'memory/max_active (GiB)': 26.26, 'memory/max_allocated (GiB)': 26.26, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1811.27, 'epoch': 2.27}
 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 327/432 [2:48:04<54:01, 30.87s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 328/432 [2:48:40<56:09, 32.40s/it]                                                                                                                                                                                {'loss': 0.7347, 'grad_norm': 0.08556186407804489, 'learning_rate': 3.385064155203138e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1825.98, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                | 328/432 [2:48:40<56:09, 32.40s/it] 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 329/432 [2:49:09<54:08, 31.54s/it]                                                                                                                                                                                {'loss': 0.852, 'grad_norm': 0.10197862982749939, 'learning_rate': 3.324713954366171e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1861.36, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                | 329/432 [2:49:09<54:08, 31.54s/it] 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 330/432 [2:49:46<56:14, 33.09s/it]                                                                                                                                                                                {'loss': 0.8236, 'grad_norm': 0.1492842137813568, 'learning_rate': 3.264799133115963e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1892.98, 'epoch': 2.29}
 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 330/432 [2:49:46<56:14, 33.09s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 331/432 [2:50:23<57:30, 34.16s/it]                                                                                                                                                                                {'loss': 0.8086, 'grad_norm': 0.0990268662571907, 'learning_rate': 3.2053235992536134e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1737.96, 'epoch': 2.3}
 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████▍                               | 331/432 [2:50:23<57:30, 34.16s/it] 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 332/432 [2:50:52<54:28, 32.68s/it]                                                                                                                                                                                {'loss': 0.8093, 'grad_norm': 0.09925055503845215, 'learning_rate': 3.1462912319287375e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1818.79, 'epoch': 2.31}
 77%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                               | 332/432 [2:50:52<54:28, 32.68s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 333/432 [2:51:20<51:49, 31.40s/it]                                                                                                                                                                                {'loss': 0.7252, 'grad_norm': 0.10327502340078354, 'learning_rate': 3.087705881386486e-05, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1797.21, 'epoch': 2.31}
 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████                               | 333/432 [2:51:20<51:49, 31.40s/it] 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 334/432 [2:51:54<52:26, 32.11s/it]                                                                                                                                                                                {'loss': 0.8185, 'grad_norm': 0.14320008456707, 'learning_rate': 3.0295713687164007e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1801.4, 'epoch': 2.32}
 77%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                              | 334/432 [2:51:54<52:26, 32.11s/it] 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 335/432 [2:52:19<48:34, 30.04s/it]                                                                                                                                                                                {'loss': 0.8296, 'grad_norm': 0.11287199705839157, 'learning_rate': 2.971891485603203e-05, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1842.36, 'epoch': 2.33}
 78%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                              | 335/432 [2:52:19<48:34, 30.04s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 336/432 [2:52:46<46:25, 29.01s/it]                                                                                                                                                                                {'loss': 0.8122, 'grad_norm': 0.10159208625555038, 'learning_rate': 2.9146699940794864e-05, 'memory/max_active (GiB)': 23.22, 'memory/max_allocated (GiB)': 23.22, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1760.31, 'epoch': 2.33}
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                              | 336/432 [2:52:46<46:25, 29.01s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 337/432 [2:53:15<45:44, 28.89s/it]                                                                                                                                                                                {'loss': 0.8574, 'grad_norm': 0.10231487452983856, 'learning_rate': 2.8579106262803466e-05, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1821.83, 'epoch': 2.34}
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                             | 337/432 [2:53:15<45:44, 28.89s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 338/432 [2:53:48<47:21, 30.23s/it]                                                                                                                                                                                {'loss': 0.7637, 'grad_norm': 0.09942459315061569, 'learning_rate': 2.8016170841999667e-05, 'memory/max_active (GiB)': 26.69, 'memory/max_allocated (GiB)': 26.69, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1819.25, 'epoch': 2.35}
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                             | 338/432 [2:53:48<47:21, 30.23s/it] 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 339/432 [2:54:17<46:24, 29.94s/it]                                                                                                                                                                                {'loss': 0.8113, 'grad_norm': 0.10532701760530472, 'learning_rate': 2.7457930394501562e-05, 'memory/max_active (GiB)': 22.65, 'memory/max_allocated (GiB)': 22.65, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1796.34, 'epoch': 2.35}
 78%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                             | 339/432 [2:54:17<46:24, 29.94s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 340/432 [2:54:44<44:39, 29.12s/it]                                                                                                                                                                                {'loss': 0.8426, 'grad_norm': 0.10633235424757004, 'learning_rate': 2.6904421330208883e-05, 'memory/max_active (GiB)': 24.64, 'memory/max_allocated (GiB)': 24.64, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1855.82, 'epoch': 2.36}
 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                            | 340/432 [2:54:44<44:39, 29.12s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 341/432 [2:55:15<44:54, 29.61s/it]                                                                                                                                                                                {'loss': 0.8737, 'grad_norm': 0.10168317705392838, 'learning_rate': 2.6355679750428086e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1823.03, 'epoch': 2.37}
 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                            | 341/432 [2:55:15<44:54, 29.61s/it] 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 342/432 [2:55:49<46:20, 30.90s/it]                                                                                                                                                                                {'loss': 0.8571, 'grad_norm': 0.10064361244440079, 'learning_rate': 2.5811741445517945e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1879.25, 'epoch': 2.38}
 79%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                            | 342/432 [2:55:49<46:20, 30.90s/it] 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 343/432 [2:56:22<46:38, 31.44s/it]                                                                                                                                                                                {'loss': 0.7609, 'grad_norm': 0.09406903386116028, 'learning_rate': 2.527264189255507e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1805.74, 'epoch': 2.38}
 79%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                           | 343/432 [2:56:22<46:38, 31.44s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 344/432 [2:56:52<45:46, 31.21s/it]                                                                                                                                                                                {'loss': 0.9006, 'grad_norm': 0.11502882093191147, 'learning_rate': 2.473841625302006e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1806.4, 'epoch': 2.39}
 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                           | 344/432 [2:56:52<45:46, 31.21s/it] 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 345/432 [2:57:17<42:27, 29.29s/it]                                                                                                                                                                                {'loss': 0.9385, 'grad_norm': 0.13979212939739227, 'learning_rate': 2.420909937050405e-05, 'memory/max_active (GiB)': 21.8, 'memory/max_allocated (GiB)': 21.8, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1768.95, 'epoch': 2.4}
 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           | 345/432 [2:57:17<42:27, 29.29s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 346/432 [2:57:50<43:34, 30.40s/it]                                                                                                                                                                                {'loss': 0.8276, 'grad_norm': 0.10192658007144928, 'learning_rate': 2.3684725768436332e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1866.73, 'epoch': 2.4}
 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                          | 346/432 [2:57:50<43:34, 30.40s/it] 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 347/432 [2:58:17<41:33, 29.34s/it]                                                                                                                                                                                {'loss': 0.7505, 'grad_norm': 0.10716025531291962, 'learning_rate': 2.3165329647832522e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1830.88, 'epoch': 2.41}
 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                          | 347/432 [2:58:17<41:33, 29.34s/it] 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 348/432 [2:58:49<42:06, 30.07s/it]                                                                                                                                                                                {'loss': 0.7762, 'grad_norm': 0.11043676733970642, 'learning_rate': 2.2650944885063897e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1802.58, 'epoch': 2.42}
 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                          | 348/432 [2:58:49<42:06, 30.07s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 349/432 [2:59:23<43:18, 31.31s/it]                                                                                                                                                                                {'loss': 0.7837, 'grad_norm': 0.1073077991604805, 'learning_rate': 2.214160502964783e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1887.68, 'epoch': 2.42}
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                          | 349/432 [2:59:23<43:18, 31.31s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 350/432 [2:59:53<42:13, 30.89s/it]                                                                                                                                                                                {'loss': 0.8455, 'grad_norm': 0.12652604281902313, 'learning_rate': 2.163734330205971e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1834.8, 'epoch': 2.43}
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                         | 350/432 [2:59:53<42:13, 30.89s/it] 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 351/432 [3:00:27<42:56, 31.81s/it]                                                                                                                                                                                {'loss': 0.7924, 'grad_norm': 0.0960283875465393, 'learning_rate': 2.1138192591566176e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1834.94, 'epoch': 2.44}
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                         | 351/432 [3:00:27<42:56, 31.81s/it] 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 352/432 [3:00:58<42:12, 31.66s/it]                                                                                                                                                                                {'loss': 0.8456, 'grad_norm': 0.10233157128095627, 'learning_rate': 2.0644185454079977e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1847.96, 'epoch': 2.44}
 81%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████                         | 352/432 [3:00:58<42:12, 31.66s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 353/432 [3:01:31<42:18, 32.13s/it]                                                                                                                                                                                {'loss': 0.8035, 'grad_norm': 0.10484486073255539, 'learning_rate': 2.0155354110036604e-05, 'memory/max_active (GiB)': 28.38, 'memory/max_allocated (GiB)': 28.38, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1786.65, 'epoch': 2.45}
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 353/432 [3:01:31<42:18, 32.13s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 354/432 [3:02:01<40:38, 31.26s/it]                                                                                                                                                                                {'loss': 0.835, 'grad_norm': 0.1015055924654007, 'learning_rate': 1.967173044229278e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1884.13, 'epoch': 2.46}
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                        | 354/432 [3:02:01<40:38, 31.26s/it] 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 355/432 [3:02:31<39:41, 30.93s/it]                                                                                                                                                                                {'loss': 0.8258, 'grad_norm': 0.1266254186630249, 'learning_rate': 1.919334599404696e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1787.3, 'epoch': 2.47}
 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                        | 355/432 [3:02:31<39:41, 30.93s/it] 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 356/432 [3:02:58<37:52, 29.90s/it]                                                                                                                                                                                {'loss': 0.8396, 'grad_norm': 0.11822691559791565, 'learning_rate': 1.8720231966782063e-05, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1702.41, 'epoch': 2.47}
 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                       | 356/432 [3:02:58<37:52, 29.90s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 357/432 [3:03:28<37:18, 29.84s/it]                                                                                                                                                                                {'loss': 0.8544, 'grad_norm': 0.11631257086992264, 'learning_rate': 1.825241921823039e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1804.36, 'epoch': 2.48}
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       | 357/432 [3:03:28<37:18, 29.84s/it] 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 358/432 [3:03:56<35:59, 29.19s/it]                                                                                                                                                                                {'loss': 0.9094, 'grad_norm': 0.10697708278894424, 'learning_rate': 1.7789938260360904e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1795.64, 'epoch': 2.49}
 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 358/432 [3:03:56<35:59, 29.19s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 359/432 [3:04:30<37:30, 30.83s/it]                                                                                                                                                                                {'loss': 0.8145, 'grad_norm': 0.09850968420505524, 'learning_rate': 1.733281925738939e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1897.62, 'epoch': 2.49}
 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 359/432 [3:04:30<37:30, 30.83s/it] 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 360/432 [3:04:58<35:42, 29.76s/it]                                                                                                                                                                                {'loss': 0.8407, 'grad_norm': 0.10670553892850876, 'learning_rate': 1.6881092023810853e-05, 'memory/max_active (GiB)': 25.17, 'memory/max_allocated (GiB)': 25.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1784.79, 'epoch': 2.5}
 83%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                      | 360/432 [3:04:58<35:42, 29.76s/it] 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 361/432 [3:05:26<34:40, 29.30s/it]                                                                                                                                                                                {'loss': 0.8405, 'grad_norm': 0.11095992475748062, 'learning_rate': 1.6434786022455073e-05, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1779.3, 'epoch': 2.51}
 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      | 361/432 [3:05:26<34:40, 29.30s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 362/432 [3:06:00<35:56, 30.80s/it]                                                                                                                                                                                {'loss': 0.8309, 'grad_norm': 0.11120492219924927, 'learning_rate': 1.5993930362564835e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1852.11, 'epoch': 2.51}
 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████                      | 362/432 [3:06:00<35:56, 30.80s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 363/432 [3:06:29<34:52, 30.33s/it]                                                                                                                                                                                {'loss': 0.7261, 'grad_norm': 0.10228531807661057, 'learning_rate': 1.555855379789747e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1748.01, 'epoch': 2.52}
 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                     | 363/432 [3:06:29<34:52, 30.33s/it] 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 364/432 [3:07:00<34:22, 30.34s/it]                                                                                                                                                                                {'loss': 0.8694, 'grad_norm': 0.11399529129266739, 'learning_rate': 1.512868472484943e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1843.28, 'epoch': 2.53}
 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 364/432 [3:07:00<34:22, 30.34s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 365/432 [3:07:27<32:59, 29.54s/it]                                                                                                                                                                                {'loss': 0.863, 'grad_norm': 0.13473452627658844, 'learning_rate': 1.4704351180604126e-05, 'memory/max_active (GiB)': 24.17, 'memory/max_allocated (GiB)': 24.17, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1790.94, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                     | 365/432 [3:07:27<32:59, 29.54s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 366/432 [3:07:57<32:36, 29.65s/it]                                                                                                                                                                                {'loss': 0.8362, 'grad_norm': 0.11323491483926773, 'learning_rate': 1.428558084130338e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1785.86, 'epoch': 2.54}
 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                    | 366/432 [3:07:57<32:36, 29.65s/it] 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 367/432 [3:08:22<30:30, 28.17s/it]                                                                                                                                                                                {'loss': 0.876, 'grad_norm': 0.13538388907909393, 'learning_rate': 1.3872401020242221e-05, 'memory/max_active (GiB)': 23.22, 'memory/max_allocated (GiB)': 23.22, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1801.53, 'epoch': 2.55}
 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                    | 367/432 [3:08:22<30:30, 28.17s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 368/432 [3:08:51<30:22, 28.48s/it]                                                                                                                                                                                {'loss': 0.8166, 'grad_norm': 0.0967227891087532, 'learning_rate': 1.346483866608751e-05, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1798.04, 'epoch': 2.56}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 368/432 [3:08:51<30:22, 28.48s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 369/432 [3:09:21<30:25, 28.98s/it]                                                                                                                                                                                {'loss': 0.7985, 'grad_norm': 0.10000680387020111, 'learning_rate': 1.3062920361120223e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1836.29, 'epoch': 2.56}
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                   | 369/432 [3:09:21<30:25, 28.98s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 370/432 [3:09:52<30:30, 29.52s/it]                                                                                                                                                                                {'loss': 0.7586, 'grad_norm': 0.14123210310935974, 'learning_rate': 1.2666672319501738e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1737.44, 'epoch': 2.57}
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                   | 370/432 [3:09:52<30:30, 29.52s/it] 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 371/432 [3:10:27<31:32, 31.02s/it]                                                                                                                                                                                {'loss': 0.7202, 'grad_norm': 0.11604631692171097, 'learning_rate': 1.2276120385564004e-05, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1811.73, 'epoch': 2.58}
 86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                   | 371/432 [3:10:27<31:32, 31.02s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 372/432 [3:11:03<32:36, 32.61s/it]                                                                                                                                                                                {'loss': 0.7902, 'grad_norm': 0.1004401445388794, 'learning_rate': 1.1891290032124002e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1878.63, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                  | 372/432 [3:11:03<32:36, 32.61s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 373/432 [3:11:33<31:08, 31.67s/it]                                                                                                                                                                                {'loss': 0.8919, 'grad_norm': 0.10621000081300735, 'learning_rate': 1.1512206358822263e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1783.93, 'epoch': 2.59}
 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 373/432 [3:11:33<31:08, 31.67s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 374/432 [3:12:05<30:51, 31.92s/it]                                                                                                                                                                                {'loss': 0.851, 'grad_norm': 0.11515773832798004, 'learning_rate': 1.1138894090485863e-05, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1795.49, 'epoch': 2.6}
 87%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                  | 374/432 [3:12:05<30:51, 31.92s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 375/432 [3:12:43<32:07, 33.81s/it]                                                                                                                                                                                {'loss': 0.7918, 'grad_norm': 0.09483210742473602, 'learning_rate': 1.0771377575515728e-05, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1844.05, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                 | 375/432 [3:12:43<32:07, 33.81s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 376/432 [3:13:09<29:15, 31.34s/it]                                                                                                                                                                                {'loss': 0.8978, 'grad_norm': 0.10778528451919556, 'learning_rate': 1.0409680784298658e-05, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1807.42, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                 | 376/432 [3:13:09<29:15, 31.34s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 377/432 [3:13:43<29:31, 32.20s/it]                                                                                                                                                                                {'loss': 0.789, 'grad_norm': 0.10410923510789871, 'learning_rate': 1.005382730764386e-05, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1810.88, 'epoch': 2.62}
 87%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                 | 377/432 [3:13:43<29:31, 32.20s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 378/432 [3:14:13<28:27, 31.62s/it]                                                                                                                                                                                {'loss': 0.7429, 'grad_norm': 0.09712324291467667, 'learning_rate': 9.703840355244286e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1836.91, 'epoch': 2.62}
 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 378/432 [3:14:13<28:27, 31.62s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 379/432 [3:14:46<28:20, 32.08s/it]                                                                                                                                                                                {'loss': 0.8078, 'grad_norm': 0.11279500275850296, 'learning_rate': 9.359742754162926e-06, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1691.65, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                | 379/432 [3:14:46<28:20, 32.08s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 380/432 [3:15:20<28:08, 32.46s/it]                                                                                                                                                                                {'loss': 0.8323, 'grad_norm': 0.09859468042850494, 'learning_rate': 9.02155694734379e-06, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1857.55, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                | 380/432 [3:15:20<28:08, 32.46s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 381/432 [3:15:52<27:30, 32.35s/it]                                                                                                                                                                                {'loss': 0.8181, 'grad_norm': 0.08730151504278183, 'learning_rate': 8.689304992148284e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1895.18, 'epoch': 2.65}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                | 381/432 [3:15:52<27:30, 32.35s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 382/432 [3:16:26<27:30, 33.00s/it]                                                                                                                                                                                {'loss': 0.8269, 'grad_norm': 0.10433226078748703, 'learning_rate': 8.363008558916574e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1838.94, 'epoch': 2.65}
 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍               | 382/432 [3:16:26<27:30, 33.00s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 383/432 [3:16:56<26:06, 31.96s/it]                                                                                                                                                                                {'loss': 0.8538, 'grad_norm': 0.10719826817512512, 'learning_rate': 8.042688929554076e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1876.39, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋               | 383/432 [3:16:56<26:06, 31.96s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 384/432 [3:17:28<25:36, 32.01s/it]                                                                                                                                                                                {'loss': 0.8248, 'grad_norm': 0.10298610478639603, 'learning_rate': 7.7283669961434e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1862.53, 'epoch': 2.67}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████               | 384/432 [3:17:28<25:36, 32.01s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 385/432 [3:17:58<24:38, 31.47s/it]                                                                                                                                                                                {'loss': 0.7747, 'grad_norm': 0.09885454922914505, 'learning_rate': 7.420063259581855e-06, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1829.41, 'epoch': 2.67}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎              | 385/432 [3:17:58<24:38, 31.47s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 386/432 [3:18:30<24:09, 31.51s/it]                                                                                                                                                                                {'loss': 0.7923, 'grad_norm': 0.1027243509888649, 'learning_rate': 7.117797828244177e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1826.28, 'epoch': 2.68}
 89%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 386/432 [3:18:30<24:09, 31.51s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 387/432 [3:19:01<23:29, 31.31s/it]                                                                                                                                                                                {'loss': 0.7689, 'grad_norm': 0.10491602122783661, 'learning_rate': 6.8215904166711084e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1833.93, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              | 387/432 [3:19:01<23:29, 31.31s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 388/432 [3:19:31<22:43, 30.98s/it]                                                                                                                                                                                {'loss': 0.7892, 'grad_norm': 0.09954719245433807, 'learning_rate': 6.531460344283513e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1822.87, 'epoch': 2.69}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎             | 388/432 [3:19:31<22:43, 30.98s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 389/432 [3:20:04<22:34, 31.51s/it]                                                                                                                                                                                {'loss': 0.8368, 'grad_norm': 0.1778382658958435, 'learning_rate': 6.247426534122292e-06, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1841.43, 'epoch': 2.7}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 389/432 [3:20:04<22:34, 31.51s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 390/432 [3:20:32<21:22, 30.54s/it]                                                                                                                                                                                {'loss': 0.842, 'grad_norm': 0.11237037181854248, 'learning_rate': 5.969507511614225e-06, 'memory/max_active (GiB)': 26.25, 'memory/max_allocated (GiB)': 26.25, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1794.11, 'epoch': 2.71}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉             | 390/432 [3:20:32<21:22, 30.54s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 391/432 [3:21:05<21:22, 31.28s/it]                                                                                                                                                                                {'loss': 0.8278, 'grad_norm': 0.2676903009414673, 'learning_rate': 5.6977214033636985e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1829.64, 'epoch': 2.72}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏            | 391/432 [3:21:05<21:22, 31.28s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 392/432 [3:21:33<20:15, 30.40s/it]                                                                                                                                                                                {'loss': 0.8265, 'grad_norm': 0.11570659279823303, 'learning_rate': 5.432085935970388e-06, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1768.22, 'epoch': 2.72}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌            | 392/432 [3:21:33<20:15, 30.40s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 393/432 [3:22:02<19:27, 29.95s/it]                                                                                                                                                                                {'loss': 0.8366, 'grad_norm': 0.12637855112552643, 'learning_rate': 5.172618434873111e-06, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1835.2, 'epoch': 2.73}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊            | 393/432 [3:22:02<19:27, 29.95s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 394/432 [3:22:37<19:52, 31.39s/it]                                                                                                                                                                                {'loss': 0.7843, 'grad_norm': 0.10351341217756271, 'learning_rate': 4.9193358232198174e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1822.35, 'epoch': 2.74}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 394/432 [3:22:37<19:52, 31.39s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 395/432 [3:23:06<18:59, 30.79s/it]                                                                                                                                                                                {'loss': 0.7466, 'grad_norm': 0.10283168405294418, 'learning_rate': 4.6722546207638385e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1793.71, 'epoch': 2.74}
 91%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍           | 395/432 [3:23:06<18:59, 30.79s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 396/432 [3:23:34<17:54, 29.84s/it]                                                                                                                                                                                {'loss': 0.8289, 'grad_norm': 0.11357080191373825, 'learning_rate': 4.4313909427863956e-06, 'memory/max_active (GiB)': 23.7, 'memory/max_allocated (GiB)': 23.7, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1787.84, 'epoch': 2.75}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊           | 396/432 [3:23:34<17:54, 29.84s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 397/432 [3:24:01<16:58, 29.11s/it]                                                                                                                                                                                {'loss': 0.809, 'grad_norm': 0.10671019554138184, 'learning_rate': 4.1967604990455045e-06, 'memory/max_active (GiB)': 27.0, 'memory/max_allocated (GiB)': 27.0, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1803.11, 'epoch': 2.76}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 397/432 [3:24:01<16:58, 29.11s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 398/432 [3:24:32<16:47, 29.63s/it]                                                                                                                                                                                {'loss': 0.8229, 'grad_norm': 0.09226933121681213, 'learning_rate': 3.968378592751398e-06, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1904.67, 'epoch': 2.76}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍          | 398/432 [3:24:32<16:47, 29.63s/it] 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 399/432 [3:25:04<16:37, 30.24s/it]                                                                                                                                                                                {'loss': 0.8109, 'grad_norm': 0.09880439937114716, 'learning_rate': 3.746260119568368e-06, 'memory/max_active (GiB)': 26.26, 'memory/max_allocated (GiB)': 26.26, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1828.43, 'epoch': 2.77}
 92%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 399/432 [3:25:04<16:37, 30.24s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 400/432 [3:25:38<16:46, 31.44s/it]                                                                                                                                                                                {'loss': 0.7738, 'grad_norm': 0.10233703255653381, 'learning_rate': 3.5304195666432395e-06, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1919.92, 'epoch': 2.78}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████          | 400/432 [3:25:38<16:46, 31.44s/it][2025-12-26 01:54:20,343] [INFO] [axolotl.core.trainers.base._save:671] [PID:1133] Saving model checkpoint to ./outputs/qwen25-coder-n8n/checkpoint-400
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 401/432 [3:26:13<16:44, 32.42s/it]                                                                                                                                                                                {'loss': 0.7759, 'grad_norm': 0.17234432697296143, 'learning_rate': 3.320871011660498e-06, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1855.88, 'epoch': 2.78}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎         | 401/432 [3:26:13<16:44, 32.42s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 402/432 [3:26:40<15:22, 30.74s/it]                                                                                                                                                                                {'loss': 0.758, 'grad_norm': 0.11207076907157898, 'learning_rate': 3.1176281219240654e-06, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1696.22, 'epoch': 2.79}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋         | 402/432 [3:26:40<15:22, 30.74s/it] 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 403/432 [3:27:05<14:07, 29.23s/it]                                                                                                                                                                                {'loss': 0.7431, 'grad_norm': 0.1065332219004631, 'learning_rate': 2.9207041534659363e-06, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1730.88, 'epoch': 2.8}
 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉         | 403/432 [3:27:05<14:07, 29.23s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 404/432 [3:27:38<14:02, 30.10s/it]                                                                                                                                                                                {'loss': 0.7671, 'grad_norm': 0.10551347583532333, 'learning_rate': 2.7301119501815465e-06, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1759.12, 'epoch': 2.81}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎        | 404/432 [3:27:38<14:02, 30.10s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 405/432 [3:28:01<12:41, 28.21s/it]                                                                                                                                                                                {'loss': 0.9049, 'grad_norm': 0.11033763736486435, 'learning_rate': 2.5458639429921105e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1774.92, 'epoch': 2.81}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 405/432 [3:28:01<12:41, 28.21s/it] 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 406/432 [3:28:31<12:25, 28.68s/it]                                                                                                                                                                                {'loss': 0.8182, 'grad_norm': 0.10400108247995377, 'learning_rate': 2.367972149033726e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1869.76, 'epoch': 2.82}
 94%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 406/432 [3:28:31<12:25, 28.68s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 407/432 [3:29:09<13:07, 31.48s/it]                                                                                                                                                                                {'loss': 0.7896, 'grad_norm': 0.09419360011816025, 'learning_rate': 2.196448170873755e-06, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1841.64, 'epoch': 2.83}
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏       | 407/432 [3:29:09<13:07, 31.48s/it] 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 408/432 [3:29:45<13:06, 32.75s/it]                                                                                                                                                                                {'loss': 0.8237, 'grad_norm': 0.13284596800804138, 'learning_rate': 2.0313031957539197e-06, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1806.24, 'epoch': 2.83}
 94%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌       | 408/432 [3:29:45<13:06, 32.75s/it] 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 409/432 [3:30:13<12:04, 31.48s/it]                                                                                                                                                                                {'loss': 0.8572, 'grad_norm': 0.12487660348415375, 'learning_rate': 1.8725479948607516e-06, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1794.14, 'epoch': 2.84}
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊       | 409/432 [3:30:13<12:04, 31.48s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 410/432 [3:30:37<10:43, 29.24s/it]                                                                                                                                                                                {'loss': 0.7738, 'grad_norm': 0.1171218752861023, 'learning_rate': 1.7201929226229875e-06, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1853.84, 'epoch': 2.85}
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏      | 410/432 [3:30:37<10:43, 29.24s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 411/432 [3:31:09<10:30, 30.01s/it]                                                                                                                                                                                {'loss': 0.8106, 'grad_norm': 0.10732091963291168, 'learning_rate': 1.5742479160362978e-06, 'memory/max_active (GiB)': 27.01, 'memory/max_allocated (GiB)': 27.01, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1838.76, 'epoch': 2.85}
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍      | 411/432 [3:31:09<10:30, 30.01s/it] 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 412/432 [3:31:33<09:23, 28.15s/it]                                                                                                                                                                                {'loss': 0.8634, 'grad_norm': 0.11473925411701202, 'learning_rate': 1.4347224940150838e-06, 'memory/max_active (GiB)': 26.06, 'memory/max_allocated (GiB)': 26.06, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1760.57, 'epoch': 2.86}
 95%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊      | 412/432 [3:31:33<09:23, 28.15s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 413/432 [3:32:02<08:57, 28.31s/it]                                                                                                                                                                                {'loss': 0.8708, 'grad_norm': 0.11678808927536011, 'learning_rate': 1.3016257567717294e-06, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1850.53, 'epoch': 2.87}
 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 413/432 [3:32:02<08:57, 28.31s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 414/432 [3:32:30<08:27, 28.17s/it]                                                                                                                                                                                {'loss': 0.8422, 'grad_norm': 0.13239774107933044, 'learning_rate': 1.1749663852229864e-06, 'memory/max_active (GiB)': 25.31, 'memory/max_allocated (GiB)': 25.31, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1811.16, 'epoch': 2.88}
 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍     | 414/432 [3:32:30<08:27, 28.17s/it] 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 415/432 [3:33:08<08:49, 31.14s/it]                                                                                                                                                                                {'loss': 0.8549, 'grad_norm': 0.09804488718509674, 'learning_rate': 1.054752640423784e-06, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1863.58, 'epoch': 2.88}
 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋     | 415/432 [3:33:08<08:49, 31.14s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 416/432 [3:33:38<08:13, 30.83s/it]                                                                                                                                                                                {'loss': 0.8647, 'grad_norm': 0.09605742990970612, 'learning_rate': 9.409923630284812e-07, 'memory/max_active (GiB)': 24.74, 'memory/max_allocated (GiB)': 24.74, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1863.86, 'epoch': 2.89}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████     | 416/432 [3:33:38<08:13, 30.83s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 417/432 [3:34:06<07:33, 30.21s/it]                                                                                                                                                                                {'loss': 0.8128, 'grad_norm': 0.12115737795829773, 'learning_rate': 8.336929727794319e-07, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1758.19, 'epoch': 2.9}
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 417/432 [3:34:06<07:33, 30.21s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 418/432 [3:34:34<06:52, 29.50s/it]                                                                                                                                                                                {'loss': 0.8259, 'grad_norm': 0.13504910469055176, 'learning_rate': 7.328614680230495e-07, 'memory/max_active (GiB)': 26.49, 'memory/max_allocated (GiB)': 26.49, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1738.62, 'epoch': 2.9}
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋    | 418/432 [3:34:34<06:52, 29.50s/it] 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 419/432 [3:35:03<06:21, 29.33s/it]                                                                                                                                                                                {'loss': 0.7902, 'grad_norm': 0.13194741308689117, 'learning_rate': 6.385044252533723e-07, 'memory/max_active (GiB)': 25.68, 'memory/max_allocated (GiB)': 25.68, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1703.42, 'epoch': 2.91}
 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 419/432 [3:35:03<06:21, 29.33s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 420/432 [3:35:35<05:59, 29.93s/it]                                                                                                                                                                                {'loss': 0.7756, 'grad_norm': 0.10325660556554794, 'learning_rate': 5.506279986831064e-07, 'memory/max_active (GiB)': 27.95, 'memory/max_allocated (GiB)': 27.95, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1853.06, 'epoch': 2.92}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 420/432 [3:35:35<05:59, 29.93s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 421/432 [3:36:04<05:26, 29.64s/it]                                                                                                                                                                                {'loss': 0.8261, 'grad_norm': 0.12070223689079285, 'learning_rate': 4.6923791984228025e-07, 'memory/max_active (GiB)': 28.38, 'memory/max_allocated (GiB)': 28.38, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1775.28, 'epoch': 2.92}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 421/432 [3:36:04<05:26, 29.64s/it] 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 422/432 [3:36:28<04:40, 28.06s/it]                                                                                                                                                                                {'loss': 0.8389, 'grad_norm': 0.15000122785568237, 'learning_rate': 3.943394972043546e-07, 'memory/max_active (GiB)': 23.7, 'memory/max_allocated (GiB)': 23.7, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1706.5, 'epoch': 2.93}
 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉   | 422/432 [3:36:28<04:40, 28.06s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 423/432 [3:36:56<04:14, 28.22s/it]                                                                                                                                                                                {'loss': 0.8162, 'grad_norm': 0.20373791456222534, 'learning_rate': 3.259376158400329e-07, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1808.55, 'epoch': 2.94}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 423/432 [3:36:56<04:14, 28.22s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 424/432 [3:37:32<04:03, 30.41s/it]                                                                                                                                                                                {'loss': 0.8391, 'grad_norm': 0.09305896610021591, 'learning_rate': 2.640367370986385e-07, 'memory/max_active (GiB)': 26.26, 'memory/max_allocated (GiB)': 26.26, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1879.83, 'epoch': 2.94}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 424/432 [3:37:32<04:03, 30.41s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 425/432 [3:38:08<03:44, 32.08s/it]                                                                                                                                                                                {'loss': 0.7987, 'grad_norm': 0.10039401054382324, 'learning_rate': 2.0864089831711396e-07, 'memory/max_active (GiB)': 28.9, 'memory/max_allocated (GiB)': 28.9, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1840.29, 'epoch': 2.95}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 425/432 [3:38:08<03:44, 32.08s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 426/432 [3:38:40<03:12, 32.15s/it]                                                                                                                                                                                {'loss': 0.7855, 'grad_norm': 0.1038123145699501, 'learning_rate': 1.5975371255672056e-07, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1804.61, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 426/432 [3:38:40<03:12, 32.15s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 427/432 [3:39:11<02:38, 31.62s/it]                                                                                                                                                                                {'loss': 0.817, 'grad_norm': 0.10045933723449707, 'learning_rate': 1.1737836836737126e-07, 'memory/max_active (GiB)': 26.26, 'memory/max_allocated (GiB)': 26.26, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1764.93, 'epoch': 2.97}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 427/432 [3:39:11<02:38, 31.62s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 428/432 [3:39:44<02:08, 32.10s/it]                                                                                                                                                                                {'loss': 0.758, 'grad_norm': 0.08594603836536407, 'learning_rate': 8.15176295796638e-08, 'memory/max_active (GiB)': 27.2, 'memory/max_allocated (GiB)': 27.2, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1886.3, 'epoch': 2.97}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 428/432 [3:39:44<02:08, 32.10s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 429/432 [3:40:15<01:35, 31.91s/it]                                                                                                                                                                                {'loss': 0.8586, 'grad_norm': 0.12988920509815216, 'learning_rate': 5.217383512463592e-08, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1827.15, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 429/432 [3:40:15<01:35, 31.91s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 430/432 [3:40:51<01:06, 33.14s/it]                                                                                                                                                                                {'loss': 0.8207, 'grad_norm': 0.10698951780796051, 'learning_rate': 2.934889888116521e-08, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1801.91, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 430/432 [3:40:51<01:06, 33.14s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 431/432 [3:41:26<00:33, 33.47s/it]                                                                                                                                                                                {'loss': 0.8343, 'grad_norm': 0.10340207070112228, 'learning_rate': 1.3044309551213386e-08, 'memory/max_active (GiB)': 28.15, 'memory/max_allocated (GiB)': 28.15, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1886.96, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋| 431/432 [3:41:26<00:33, 33.47s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 432/432 [3:41:56<00:00, 32.47s/it]                                                                                                                                                                                {'loss': 0.7904, 'grad_norm': 0.11241187155246735, 'learning_rate': 3.2611305626706336e-09, 'memory/max_active (GiB)': 25.11, 'memory/max_allocated (GiB)': 25.11, 'memory/device_reserved (GiB)': 32.41, 'tokens_per_second_per_gpu': 1793.6, 'epoch': 3.0}
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 432/432 [3:41:56<00:00, 32.47s/it][2025-12-26 02:10:37,941] [INFO] [axolotl.core.trainers.base._save:671] [PID:1133] Saving model checkpoint to ./outputs/qwen25-coder-n8n/checkpoint-432
                                                                                                                                                                                {'train_runtime': 13317.4275, 'train_samples_per_second': 0.519, 'train_steps_per_second': 0.032, 'train_loss': 0.8797789990074105, 'memory/max_active (GiB)': 10.22, 'memory/max_allocated (GiB)': 10.22, 'memory/device_reserved (GiB)': 32.41, 'epoch': 3.0}
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 432/432 [3:41:57<00:00, 32.47s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 432/432 [3:41:57<00:00, 30.83s/it]
[2025-12-26 02:10:39,329] [INFO] [axolotl.train.save_trained_model:218] [PID:1133] Training completed! Saving trained model to ./outputs/qwen25-coder-n8n.
[2025-12-26 02:10:40,085] [INFO] [axolotl.train.save_trained_model:336] [PID:1133] Model successfully saved to ./outputs/qwen25-coder-n8n