[2025-10-12 02:39:16,867] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:1367687] baseline 0.000GB ()
[2025-10-12 02:39:16,867] [INFO] [axolotl.cli.config.load_cfg:248] [PID:1367687] config:
{
  "activation_offloading": false,
  "auto_resume_from_checkpoints": true,
  "axolotl_config_path": "train_350m_multitask.yaml",
  "base_model": "/home/ubuntu/axolotl/out-350m-audio-pt",
  "base_model_config": "/home/ubuntu/axolotl/out-350m-audio-pt",
  "batch_size": 256,
  "bf16": true,
  "bfloat16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_80",
    "fp8": false,
    "n_gpu": 8,
    "n_node": 1
  },
  "context_parallel_size": 1,
  "cut_cross_entropy": true,
  "dataloader_num_workers": 8,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_prepared_path": "/home/ubuntu/axolotl/preprocessed-data-350m-multitask-ft",
  "dataset_processes": 240,
  "datasets": [
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-s2s-jaen.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-s2s-enja.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-asr-ja.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-tts-ja.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-asr-en.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-tts-en.jsonl",
      "trust_remote_code": false
    }
  ],
  "ddp": true,
  "device": "cuda:0",
  "device_map": {
    "": 0
  },
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "env_capabilities": {
    "torch_version": "2.8.0"
  },
  "eval_batch_size": 8,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_sample_packing": false,
  "eval_steps": 100,
  "eval_strategy": "steps",
  "eval_table_size": 0,
  "experimental_skip_move_to_device": true,
  "flash_attention": true,
  "fp16": false,
  "gradient_accumulation_steps": 1,
  "gradient_checkpointing": false,
  "group_by_length": false,
  "include_tkps": true,
  "is_falcon_derived_model": false,
  "is_llama_derived_model": false,
  "is_mistral_derived_model": false,
  "learning_rate": 5e-05,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": false,
  "load_in_8bit": false,
  "local_rank": 0,
  "logging_steps": 1,
  "loraplus_lr_embedding": 1e-06,
  "lr_scheduler": "cosine",
  "max_grad_norm": 1.0,
  "mean_resizing_embeddings": false,
  "micro_batch_size": 32,
  "model_config_type": "lfm2",
  "num_epochs": 3.0,
  "optimizer": "adamw_torch_fused",
  "output_dir": "/home/ubuntu/axolotl/out-350m-multitask-ft",
  "pad_to_sequence_len": true,
  "plugins": [
    "axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin"
  ],
  "pretrain_multipack_attn": true,
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "remove_unused_columns": false,
  "resources_per_worker": {
    "GPU": 1
  },
  "sample_packing": true,
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "save_steps": 100,
  "save_strategy": "steps",
  "sequence_len": 4096,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": false,
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tf32": true,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "/home/ubuntu/axolotl/out-350m-audio-pt",
  "tokenizer_save_jinja_files": true,
  "tokenizer_type": "AutoTokenizer",
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": false,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "type_of_model": "AutoModelForCausalLM",
  "use_ray": false,
  "use_wandb": true,
  "val_set_size": 0.01,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "wandb_entity": "aratako-lm",
  "wandb_name": "350m-multitask-ft-run1",
  "wandb_project": "liquidai-hackathon",
  "warmup_ratio": 0.1,
  "weight_decay": 0.01,
  "world_size": 8
}
[2025-10-12 02:40:01,705] [INFO] [axolotl.utils.data.sft._load_raw_datasets:320] [PID:1367689] Loading raw datasets...
Loading dataset shards:   0%|                                                                                              | 0/18 [00:00<?, ?it/s]Loading dataset shards: 100%|███████████████████████████████████████████████████████████████████████████████████| 18/18 [00:00<00:00, 4010.28it/s]
[2025-10-12 02:40:01,887] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1367689] Loading dataset: /home/ubuntu/axolotl/hackathon-train_data-s2s-jaen.jsonl with base_type: None and prompt_style: None
Loading dataset shards:   0%|                                                                                              | 0/21 [00:00<?, ?it/s]Loading dataset shards: 100%|███████████████████████████████████████████████████████████████████████████████████| 21/21 [00:00<00:00, 1332.11it/s]
[2025-10-12 02:40:01,967] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1367689] Loading dataset: /home/ubuntu/axolotl/hackathon-train_data-s2s-enja.jsonl with base_type: None and prompt_style: None
[2025-10-12 02:40:02,016] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1367689] Loading dataset: /home/ubuntu/axolotl/hackathon-train_data-asr-ja.jsonl with base_type: None and prompt_style: None
[2025-10-12 02:40:02,067] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1367689] Loading dataset: /home/ubuntu/axolotl/hackathon-train_data-tts-ja.jsonl with base_type: None and prompt_style: None
[2025-10-12 02:40:02,122] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1367689] Loading dataset: /home/ubuntu/axolotl/hackathon-train_data-asr-en.jsonl with base_type: None and prompt_style: None
[2025-10-12 02:40:02,183] [INFO] [axolotl.utils.data.wrappers.get_dataset_wrapper:87] [PID:1367689] Loading dataset: /home/ubuntu/axolotl/hackathon-train_data-tts-en.jsonl with base_type: None and prompt_style: None
[2025-10-12 02:40:10,483] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:1367687] EOS: 7 / <|im_end|>
[2025-10-12 02:40:10,483] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:1367687] BOS: 1 / <|startoftext|>
[2025-10-12 02:40:10,484] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:1367687] PAD: 0 / <|pad|>
[2025-10-12 02:40:10,484] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:1367687] UNK: None / None
Dropping Long Sequences (>4096) (num_proc=240):   0%|                                                          | 0/1185642 [00:00<?, ? examples/s]Dropping Long Sequences (>4096) (num_proc=240):   0%|                                            | 1000/1185642 [00:06<2:13:13, 148.20 examples/s]Dropping Long Sequences (>4096) (num_proc=240):   2%|▋                                           | 20000/1185642 [00:06<04:45, 4078.92 examples/s]Dropping Long Sequences (>4096) (num_proc=240):   3%|█▎                                          | 37000/1185642 [00:06<02:09, 8838.29 examples/s]Dropping Long Sequences (>4096) (num_proc=240):   5%|█▉                                         | 55000/1185642 [00:07<01:13, 15368.21 examples/s]Dropping Long Sequences (>4096) (num_proc=240):   6%|██▋                                        | 73000/1185642 [00:07<00:46, 23967.79 examples/s]Dropping Long Sequences (>4096) (num_proc=240):   8%|███▏                                       | 89000/1185642 [00:07<00:33, 33183.52 examples/s]Dropping Long Sequences (>4096) (num_proc=240):   9%|███▊                                      | 106000/1185642 [00:07<00:23, 45484.98 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  11%|████▍                                     | 127000/1185642 [00:07<00:16, 64139.83 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  13%|█████▋                                    | 159000/1185642 [00:07<00:10, 99657.38 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  16%|██████▍                                  | 187000/1185642 [00:07<00:07, 129571.10 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  19%|███████▌                                 | 220000/1185642 [00:07<00:05, 167897.73 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  21%|████████▋                                | 251000/1185642 [00:07<00:04, 197134.90 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  24%|█████████▋                               | 279000/1185642 [00:08<00:04, 211483.70 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  26%|██████████▋                              | 309000/1185642 [00:08<00:03, 232237.16 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  29%|███████████▊                             | 343000/1185642 [00:08<00:03, 260015.55 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  32%|█████████████                            | 377000/1185642 [00:08<00:02, 278359.02 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  34%|██████████████                           | 408000/1185642 [00:08<00:02, 277664.56 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  37%|███████████████▏                         | 438000/1185642 [00:08<00:02, 268511.49 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  39%|████████████████▏                        | 467000/1185642 [00:08<00:02, 254779.79 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  42%|█████████████████                        | 494000/1185642 [00:08<00:03, 224759.76 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  44%|█████████████████▉                       | 518000/1185642 [00:08<00:03, 208819.91 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  46%|██████████████████▋                      | 539941/1185642 [00:09<00:03, 207937.00 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  48%|███████████████████▍                     | 563823/1185642 [00:09<00:03, 197604.25 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  50%|████████████████████▌                    | 592823/1185642 [00:09<00:02, 219616.15 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  52%|█████████████████████▎                   | 615763/1185642 [00:09<00:02, 198801.06 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  54%|██████████████████████                   | 636704/1185642 [00:09<00:03, 159172.24 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  56%|██████████████████████▊                  | 659350/1185642 [00:09<00:03, 173269.28 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  57%|███████████████████████▍                 | 678818/1185642 [00:09<00:02, 170075.01 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  59%|████████████████████████▎                | 703344/1185642 [00:10<00:02, 188366.46 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  61%|█████████████████████████▏               | 726868/1185642 [00:10<00:02, 197958.91 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  63%|█████████████████████████▉               | 748331/1185642 [00:10<00:02, 198028.04 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  66%|███████████████████████████              | 783032/1185642 [00:10<00:01, 236517.53 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  68%|███████████████████████████▉             | 808314/1185642 [00:10<00:01, 235742.91 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  71%|████████████████████████████▉            | 836716/1185642 [00:10<00:01, 248221.17 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  74%|██████████████████████████████▏          | 873177/1185642 [00:10<00:01, 280186.00 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  76%|███████████████████████████████▏         | 903400/1185642 [00:10<00:00, 285986.91 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  79%|████████████████████████████████▍        | 936621/1185642 [00:10<00:00, 298678.02 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  82%|█████████████████████████████████▌       | 971201/1185642 [00:10<00:00, 309856.38 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  85%|█████████████████████████████████▉      | 1004722/1185642 [00:11<00:00, 315287.00 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  87%|██████████████████████████████████▉     | 1036642/1185642 [00:11<00:00, 274993.63 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  90%|███████████████████████████████████▉    | 1065682/1185642 [00:11<00:00, 245335.45 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  92%|████████████████████████████████████▊   | 1091902/1185642 [00:11<00:00, 238996.99 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  94%|█████████████████████████████████████▋  | 1117362/1185642 [00:11<00:00, 236046.67 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  96%|██████████████████████████████████████▌ | 1142282/1185642 [00:11<00:00, 197506.25 examples/s]Dropping Long Sequences (>4096) (num_proc=240):  98%|███████████████████████████████████████▎| 1164022/1185642 [00:11<00:00, 177990.40 examples/s]Dropping Long Sequences (>4096) (num_proc=240): 100%|███████████████████████████████████████▉| 1183762/1185642 [00:12<00:00, 116666.59 examples/s]Dropping Long Sequences (>4096) (num_proc=240): 100%|█████████████████████████████████████████| 1185642/1185642 [00:13<00:00, 89249.57 examples/s]
Drop Samples with Zero Trainable Tokens (num_proc=240):   0%|                                                  | 0/1185642 [00:00<?, ? examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):   0%|                                    | 1000/1185642 [00:07<2:33:49, 128.35 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):   3%|█                                   | 34000/1185642 [00:07<03:09, 6062.46 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):   4%|█▌                                 | 53000/1185642 [00:08<01:50, 10218.34 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):   6%|█▉                                 | 67000/1185642 [00:08<01:20, 13936.72 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):   7%|██▎                                | 78000/1185642 [00:08<01:04, 17237.93 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):   8%|██▋                                | 89000/1185642 [00:08<00:49, 22356.13 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):   9%|██▉                               | 103000/1185642 [00:08<00:35, 30895.38 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  10%|███▎                              | 114000/1185642 [00:08<00:28, 37762.71 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  11%|███▋                              | 127000/1185642 [00:09<00:21, 48255.29 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  12%|███▉                              | 138000/1185642 [00:09<00:18, 55732.89 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  13%|████▎                             | 148882/1185642 [00:09<00:16, 62227.78 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  13%|████▌                             | 158882/1185642 [00:09<00:15, 68253.57 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  14%|████▉                             | 171764/1185642 [00:09<00:14, 72251.87 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  15%|█████▏                            | 181646/1185642 [00:09<00:14, 70508.56 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  16%|█████▍                            | 190410/1185642 [00:09<00:18, 53418.48 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  17%|█████▋                            | 198233/1185642 [00:10<00:20, 48166.39 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  17%|█████▉                            | 206174/1185642 [00:10<00:18, 53316.38 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  18%|██████▏                           | 215115/1185642 [00:10<00:16, 60532.53 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  19%|██████▌                           | 227997/1185642 [00:10<00:12, 73903.53 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  20%|██████▊                           | 236879/1185642 [00:10<00:14, 63349.30 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  21%|███████                           | 244702/1185642 [00:10<00:15, 60829.15 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  21%|███████▏                          | 251643/1185642 [00:10<00:14, 62395.23 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  22%|███████▌                          | 263525/1185642 [00:11<00:13, 66357.84 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  23%|███████▊                          | 271407/1185642 [00:11<00:14, 61344.87 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  24%|████████                          | 282348/1185642 [00:11<00:12, 70417.77 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  24%|████████▎                         | 290348/1185642 [00:11<00:12, 71001.03 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  25%|████████▌                         | 298348/1185642 [00:11<00:12, 69304.12 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  26%|████████▊                         | 306289/1185642 [00:11<00:13, 65299.40 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  26%|████████▉                         | 313171/1185642 [00:11<00:13, 63498.56 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  27%|█████████▎                        | 323171/1185642 [00:11<00:11, 72402.17 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  28%|█████████▍                        | 331112/1185642 [00:12<00:11, 71483.95 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  29%|█████████▊                        | 342112/1185642 [00:12<00:10, 80955.50 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  30%|██████████                        | 350994/1185642 [00:12<00:12, 65228.67 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  31%|██████████▍                       | 363994/1185642 [00:12<00:10, 79933.38 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  31%|██████████▋                       | 372935/1185642 [00:12<00:10, 77448.52 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  32%|██████████▉                       | 381935/1185642 [00:12<00:10, 79705.56 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  33%|███████████▏                      | 390876/1185642 [00:12<00:09, 80893.98 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  34%|███████████▍                      | 399816/1185642 [00:12<00:09, 79011.39 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  35%|███████████▉                      | 416697/1185642 [00:13<00:07, 97992.39 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  36%|████████████▎                     | 427578/1185642 [00:13<00:08, 93963.03 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  37%|████████████▎                    | 440519/1185642 [00:13<00:07, 100062.59 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  38%|████████████▉                     | 451279/1185642 [00:13<00:09, 73655.05 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  40%|█████████████▏                   | 472921/1185642 [00:13<00:06, 103818.96 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  50%|████████████████▎                | 587362/1185642 [00:13<00:01, 346171.40 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  58%|██████████████████▉              | 681922/1185642 [00:13<00:01, 494597.82 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  70%|███████████████████████▏         | 835062/1185642 [00:13<00:00, 763792.05 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  80%|██████████████████████████▌      | 952502/1185642 [00:14<00:00, 871320.31 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  88%|████████████████████████████▎   | 1047662/1185642 [00:14<00:00, 366149.92 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  94%|██████████████████████████████▏ | 1119222/1185642 [00:15<00:00, 238097.94 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240):  99%|███████████████████████████████▋| 1172362/1185642 [00:16<00:00, 163825.51 examples/s]Drop Samples with Zero Trainable Tokens (num_proc=240): 100%|█████████████████████████████████| 1185642/1185642 [00:17<00:00, 67980.63 examples/s]
Add position_id column (Sample Packing) (num_proc=240):   0%|                                                  | 0/1185642 [00:00<?, ? examples/s]Add position_id column (Sample Packing) (num_proc=240):   0%|                                    | 1000/1185642 [00:08<2:42:24, 121.57 examples/s]Add position_id column (Sample Packing) (num_proc=240):   0%|                                      | 3000/1185642 [00:08<42:47, 460.69 examples/s]Add position_id column (Sample Packing) (num_proc=240):   1%|▏                                    | 7000/1185642 [00:08<14:05, 1394.52 examples/s]Add position_id column (Sample Packing) (num_proc=240):   1%|▎                                   | 10000/1185642 [00:08<08:31, 2297.04 examples/s]Add position_id column (Sample Packing) (num_proc=240):   2%|▌                                   | 20000/1185642 [00:08<02:56, 6597.19 examples/s]Add position_id column (Sample Packing) (num_proc=240):   4%|█▎                                 | 46000/1185642 [00:08<00:52, 21582.13 examples/s]Add position_id column (Sample Packing) (num_proc=240):   5%|█▉                                 | 64000/1185642 [00:08<00:33, 33649.25 examples/s]Add position_id column (Sample Packing) (num_proc=240):   7%|██▍                                | 84000/1185642 [00:09<00:21, 50185.04 examples/s]Add position_id column (Sample Packing) (num_proc=240):   9%|██▉                               | 104000/1185642 [00:09<00:15, 67994.82 examples/s]Add position_id column (Sample Packing) (num_proc=240):  10%|███▍                              | 121000/1185642 [00:09<00:13, 79486.44 examples/s]Add position_id column (Sample Packing) (num_proc=240):  12%|████                             | 148000/1185642 [00:09<00:09, 109527.83 examples/s]Add position_id column (Sample Packing) (num_proc=240):  14%|████▋                            | 167000/1185642 [00:09<00:08, 118190.37 examples/s]Add position_id column (Sample Packing) (num_proc=240):  16%|█████                            | 184000/1185642 [00:09<00:08, 119395.16 examples/s]Add position_id column (Sample Packing) (num_proc=240):  17%|█████▋                           | 206000/1185642 [00:09<00:07, 139632.76 examples/s]Add position_id column (Sample Packing) (num_proc=240):  19%|██████▎                          | 225000/1185642 [00:09<00:06, 150320.43 examples/s]Add position_id column (Sample Packing) (num_proc=240):  20%|██████▊                          | 243000/1185642 [00:10<00:07, 123062.07 examples/s]Add position_id column (Sample Packing) (num_proc=240):  22%|███████▍                          | 258000/1185642 [00:10<00:11, 80958.78 examples/s]Add position_id column (Sample Packing) (num_proc=240):  23%|███████▋                          | 270000/1185642 [00:10<00:11, 82276.82 examples/s]Add position_id column (Sample Packing) (num_proc=240):  24%|████████▏                         | 286000/1185642 [00:10<00:09, 90840.45 examples/s]Add position_id column (Sample Packing) (num_proc=240):  25%|████████▌                         | 298000/1185642 [00:10<00:09, 94605.77 examples/s]Add position_id column (Sample Packing) (num_proc=240):  26%|████████▉                         | 310000/1185642 [00:10<00:09, 88942.21 examples/s]Add position_id column (Sample Packing) (num_proc=240):  27%|█████████▏                        | 321000/1185642 [00:11<00:10, 80933.52 examples/s]Add position_id column (Sample Packing) (num_proc=240):  28%|█████████▌                        | 332000/1185642 [00:11<00:10, 84424.31 examples/s]Add position_id column (Sample Packing) (num_proc=240):  29%|█████████▊                        | 342000/1185642 [00:11<00:10, 83099.27 examples/s]Add position_id column (Sample Packing) (num_proc=240):  30%|██████████                        | 351000/1185642 [00:11<00:10, 76912.19 examples/s]Add position_id column (Sample Packing) (num_proc=240):  31%|██████████▍                       | 363000/1185642 [00:11<00:09, 82670.65 examples/s]Add position_id column (Sample Packing) (num_proc=240):  32%|██████████▊                       | 379000/1185642 [00:11<00:08, 98186.26 examples/s]Add position_id column (Sample Packing) (num_proc=240):  34%|███████████                      | 398000/1185642 [00:11<00:06, 118600.42 examples/s]Add position_id column (Sample Packing) (num_proc=240):  35%|███████████▌                     | 417000/1185642 [00:11<00:05, 136564.46 examples/s]Add position_id column (Sample Packing) (num_proc=240):  36%|████████████                     | 431941/1185642 [00:12<00:06, 123460.18 examples/s]Add position_id column (Sample Packing) (num_proc=240):  38%|████████████▍                    | 448823/1185642 [00:12<00:05, 132030.64 examples/s]Add position_id column (Sample Packing) (num_proc=240):  39%|████████████▉                    | 462764/1185642 [00:12<00:05, 121656.11 examples/s]Add position_id column (Sample Packing) (num_proc=240):  40%|█████████████▏                   | 475764/1185642 [00:12<00:06, 114334.85 examples/s]Add position_id column (Sample Packing) (num_proc=240):  41%|█████████████▌                   | 487764/1185642 [00:12<00:06, 106934.39 examples/s]Add position_id column (Sample Packing) (num_proc=240):  42%|█████████████▉                   | 499705/1185642 [00:12<00:06, 108062.81 examples/s]Add position_id column (Sample Packing) (num_proc=240):  43%|██████████████▏                  | 511587/1185642 [00:12<00:06, 109874.88 examples/s]Add position_id column (Sample Packing) (num_proc=240):  44%|██████████████▋                  | 525587/1185642 [00:12<00:05, 116875.86 examples/s]Add position_id column (Sample Packing) (num_proc=240):  46%|███████████████▎                 | 550469/1185642 [00:13<00:04, 142807.70 examples/s]Add position_id column (Sample Packing) (num_proc=240):  48%|███████████████▋                 | 565410/1185642 [00:13<00:05, 109879.44 examples/s]Add position_id column (Sample Packing) (num_proc=240):  49%|████████████████▏                | 580350/1185642 [00:13<00:05, 115537.43 examples/s]Add position_id column (Sample Packing) (num_proc=240):  50%|████████████████▌                | 593291/1185642 [00:13<00:05, 113288.75 examples/s]Add position_id column (Sample Packing) (num_proc=240):  51%|████████████████▊                | 606291/1185642 [00:13<00:05, 115455.86 examples/s]Add position_id column (Sample Packing) (num_proc=240):  52%|█████████████████▏               | 619231/1185642 [00:13<00:05, 103380.59 examples/s]Add position_id column (Sample Packing) (num_proc=240):  53%|█████████████████▌               | 630231/1185642 [00:13<00:05, 102425.54 examples/s]Add position_id column (Sample Packing) (num_proc=240):  54%|█████████████████▉               | 644231/1185642 [00:13<00:04, 110469.05 examples/s]Add position_id column (Sample Packing) (num_proc=240):  56%|██████████████████▍              | 663052/1185642 [00:14<00:04, 128442.52 examples/s]Add position_id column (Sample Packing) (num_proc=240):  57%|██████████████████▊              | 676993/1185642 [00:14<00:03, 129855.55 examples/s]Add position_id column (Sample Packing) (num_proc=240):  58%|███████████████████▏             | 690993/1185642 [00:14<00:04, 117876.17 examples/s]Add position_id column (Sample Packing) (num_proc=240):  59%|███████████████████▌             | 703993/1185642 [00:14<00:04, 117416.97 examples/s]Add position_id column (Sample Packing) (num_proc=240):  61%|████████████████████             | 718993/1185642 [00:14<00:03, 124947.62 examples/s]Add position_id column (Sample Packing) (num_proc=240):  62%|████████████████████▍            | 734934/1185642 [00:14<00:03, 129290.66 examples/s]Add position_id column (Sample Packing) (num_proc=240):  63%|████████████████████▊            | 748815/1185642 [00:14<00:03, 116494.71 examples/s]Add position_id column (Sample Packing) (num_proc=240):  65%|█████████████████████▍           | 769635/1185642 [00:14<00:03, 137364.10 examples/s]Add position_id column (Sample Packing) (num_proc=240):  66%|█████████████████████▊           | 784515/1185642 [00:15<00:03, 128859.53 examples/s]Add position_id column (Sample Packing) (num_proc=240):  67%|██████████████████████▏          | 798455/1185642 [00:15<00:03, 123450.60 examples/s]Add position_id column (Sample Packing) (num_proc=240):  68%|███████████████████████▎          | 811275/1185642 [00:15<00:03, 97664.99 examples/s]Add position_id column (Sample Packing) (num_proc=240):  69%|███████████████████████▌          | 822155/1185642 [00:15<00:03, 96717.26 examples/s]Add position_id column (Sample Packing) (num_proc=240):  70%|███████████████████████▏         | 835036/1185642 [00:15<00:03, 102055.15 examples/s]Add position_id column (Sample Packing) (num_proc=240):  72%|███████████████████████▊         | 856916/1185642 [00:15<00:02, 129820.06 examples/s]Add position_id column (Sample Packing) (num_proc=240):  74%|████████████████████████▎        | 871737/1185642 [00:15<00:02, 122168.36 examples/s]Add position_id column (Sample Packing) (num_proc=240):  75%|████████████████████████▋        | 885438/1185642 [00:16<00:02, 107145.50 examples/s]Add position_id column (Sample Packing) (num_proc=240):  76%|████████████████████████▉        | 897318/1185642 [00:16<00:02, 108253.99 examples/s]Add position_id column (Sample Packing) (num_proc=240):  77%|██████████████████████████        | 909199/1185642 [00:16<00:02, 98818.63 examples/s]Add position_id column (Sample Packing) (num_proc=240):  78%|█████████████████████████▋       | 922959/1185642 [00:16<00:02, 106452.31 examples/s]Add position_id column (Sample Packing) (num_proc=240):  79%|██████████████████████████       | 937542/1185642 [00:16<00:02, 115624.37 examples/s]Add position_id column (Sample Packing) (num_proc=240):  80%|██████████████████████████▍      | 950244/1185642 [00:16<00:02, 112467.55 examples/s]Add position_id column (Sample Packing) (num_proc=240):  81%|██████████████████████████▊      | 964065/1185642 [00:16<00:01, 117752.02 examples/s]Add position_id column (Sample Packing) (num_proc=240):  82%|████████████████████████████      | 976707/1185642 [00:16<00:02, 87443.11 examples/s]Add position_id column (Sample Packing) (num_proc=240):  83%|████████████████████████████▎     | 988407/1185642 [00:17<00:02, 92378.75 examples/s]Add position_id column (Sample Packing) (num_proc=240):  84%|████████████████████████████▋     | 998868/1185642 [00:17<00:01, 94631.67 examples/s]Add position_id column (Sample Packing) (num_proc=240):  86%|███████████████████████████▍    | 1014509/1185642 [00:17<00:01, 109818.23 examples/s]Add position_id column (Sample Packing) (num_proc=240):  87%|███████████████████████████▊    | 1030091/1185642 [00:17<00:01, 116173.17 examples/s]Add position_id column (Sample Packing) (num_proc=240):  88%|████████████████████████████▏   | 1043492/1185642 [00:17<00:01, 118844.50 examples/s]Add position_id column (Sample Packing) (num_proc=240):  89%|████████████████████████████▌   | 1056713/1185642 [00:17<00:01, 104682.35 examples/s]Add position_id column (Sample Packing) (num_proc=240):  90%|████████████████████████████▊   | 1068175/1185642 [00:17<00:01, 104948.49 examples/s]Add position_id column (Sample Packing) (num_proc=240):  91%|██████████████████████████████   | 1079576/1185642 [00:17<00:01, 99154.69 examples/s]Add position_id column (Sample Packing) (num_proc=240):  93%|█████████████████████████████▌  | 1096797/1185642 [00:18<00:00, 107189.41 examples/s]Add position_id column (Sample Packing) (num_proc=240):  94%|█████████████████████████████▉  | 1110139/1185642 [00:18<00:00, 112689.54 examples/s]Add position_id column (Sample Packing) (num_proc=240):  95%|██████████████████████████████▎ | 1122419/1185642 [00:18<00:00, 105730.72 examples/s]Add position_id column (Sample Packing) (num_proc=240):  96%|██████████████████████████████▌ | 1133700/1185642 [00:18<00:00, 106456.73 examples/s]Add position_id column (Sample Packing) (num_proc=240):  97%|██████████████████████████████▉ | 1144981/1185642 [00:18<00:00, 102917.91 examples/s]Add position_id column (Sample Packing) (num_proc=240):  98%|███████████████████████████████▎| 1158141/1185642 [00:18<00:00, 109638.74 examples/s]Add position_id column (Sample Packing) (num_proc=240):  99%|███████████████████████████████▌| 1169662/1185642 [00:18<00:00, 103969.78 examples/s]Add position_id column (Sample Packing) (num_proc=240): 100%|████████████████████████████████▊| 1180942/1185642 [00:19<00:00, 65602.40 examples/s]Add position_id column (Sample Packing) (num_proc=240): 100%|█████████████████████████████████| 1185642/1185642 [00:22<00:00, 51677.81 examples/s]
Saving the dataset (0/240 shards):   0%|                                                                       | 0/1185642 [00:00<?, ? examples/s]Saving the dataset (0/240 shards):   0%|                                                         | 2000/1185642 [00:09<1:29:22, 220.74 examples/s]Saving the dataset (1/240 shards):   4%|██▍                                                     | 50941/1185642 [00:09<1:25:40, 220.74 examples/s]Saving the dataset (2/240 shards):   5%|██▌                                                     | 53882/1185642 [00:09<1:25:27, 220.74 examples/s]Saving the dataset (3/240 shards):   6%|███▏                                                    | 66823/1185642 [00:09<1:24:28, 220.74 examples/s]Saving the dataset (4/240 shards):   6%|███▍                                                    | 73764/1185642 [00:09<1:23:57, 220.74 examples/s]Saving the dataset (5/240 shards):   7%|████                                                    | 85646/1185642 [00:09<1:23:03, 220.74 examples/s]Saving the dataset (6/240 shards):   7%|████                                                    | 86587/1185642 [00:09<1:22:59, 220.74 examples/s]Saving the dataset (7/240 shards):   7%|████                                                    | 86587/1185642 [00:09<1:22:59, 220.74 examples/s]Saving the dataset (8/240 shards):   8%|████▏                                                   | 89528/1185642 [00:09<1:22:45, 220.74 examples/s]Saving the dataset (9/240 shards):   8%|████▌                                                   | 96469/1185642 [00:09<1:22:14, 220.74 examples/s]Saving the dataset (10/240 shards):   9%|████▌                                                 | 101410/1185642 [00:09<1:21:51, 220.74 examples/s]Saving the dataset (11/240 shards):   9%|████▊                                                 | 104351/1185642 [00:09<1:21:38, 220.74 examples/s]Saving the dataset (12/240 shards):   9%|████▊                                                 | 105292/1185642 [00:09<1:21:34, 220.74 examples/s]Saving the dataset (13/240 shards):  10%|█████▍                                                | 119174/1185642 [00:09<1:20:31, 220.74 examples/s]Saving the dataset (14/240 shards):  10%|█████▌                                                | 121174/1185642 [00:09<1:20:22, 220.74 examples/s]Saving the dataset (15/240 shards):  10%|█████▌                                                | 122115/1185642 [00:09<1:20:18, 220.74 examples/s]Saving the dataset (16/240 shards):  12%|██████▏                                               | 137056/1185642 [00:09<1:19:10, 220.74 examples/s]Saving the dataset (17/240 shards):  13%|██████▊                                               | 149879/1185642 [00:09<1:18:12, 220.74 examples/s]Saving the dataset (18/240 shards):  13%|██████▊                                               | 149879/1185642 [00:09<1:18:12, 220.74 examples/s]Saving the dataset (18/240 shards):  13%|██████▊                                               | 150820/1185642 [00:09<00:44, 23315.24 examples/s]Saving the dataset (19/240 shards):  13%|██████▊                                               | 150820/1185642 [00:09<00:44, 23315.24 examples/s]Saving the dataset (20/240 shards):  13%|██████▉                                               | 152820/1185642 [00:09<00:44, 23315.24 examples/s]Saving the dataset (21/240 shards):  13%|███████                                               | 153761/1185642 [00:09<00:44, 23315.24 examples/s]Saving the dataset (22/240 shards):  14%|███████▌                                              | 165643/1185642 [00:09<00:43, 23315.24 examples/s]Saving the dataset (23/240 shards):  14%|███████▌                                              | 165643/1185642 [00:09<00:43, 23315.24 examples/s]Saving the dataset (24/240 shards):  14%|███████▊                                              | 171525/1185642 [00:09<00:43, 23315.24 examples/s]Saving the dataset (25/240 shards):  14%|███████▊                                              | 171525/1185642 [00:09<00:43, 23315.24 examples/s]Saving the dataset (26/240 shards):  15%|███████▉                                              | 175407/1185642 [00:09<00:43, 23315.24 examples/s]Saving the dataset (27/240 shards):  15%|███████▉                                              | 175407/1185642 [00:09<00:43, 23315.24 examples/s]Saving the dataset (28/240 shards):  15%|████████                                              | 178348/1185642 [00:09<00:43, 23315.24 examples/s]Saving the dataset (29/240 shards):  15%|████████▏                                             | 179289/1185642 [00:09<00:43, 23315.24 examples/s]Saving the dataset (30/240 shards):  15%|████████▎                                             | 182230/1185642 [00:09<00:43, 23315.24 examples/s]Saving the dataset (31/240 shards):  16%|████████▋                                             | 190171/1185642 [00:09<00:42, 23315.24 examples/s]Saving the dataset (32/240 shards):  17%|█████████▎                                            | 204112/1185642 [00:09<00:42, 23315.24 examples/s]Saving the dataset (33/240 shards):  18%|█████████▍                                            | 207994/1185642 [00:09<00:41, 23315.24 examples/s]Saving the dataset (34/240 shards):  18%|█████████▋                                            | 211935/1185642 [00:09<00:41, 23315.24 examples/s]Saving the dataset (35/240 shards):  18%|█████████▊                                            | 215935/1185642 [00:09<00:41, 23315.24 examples/s]Saving the dataset (36/240 shards):  19%|██████████▏                                           | 224817/1185642 [00:09<00:41, 23315.24 examples/s]Saving the dataset (37/240 shards):  19%|██████████▏                                           | 224817/1185642 [00:09<00:41, 23315.24 examples/s]Saving the dataset (38/240 shards):  19%|██████████▍                                           | 229758/1185642 [00:09<00:40, 23315.24 examples/s]Saving the dataset (39/240 shards):  20%|██████████▊                                           | 238699/1185642 [00:09<00:40, 23315.24 examples/s]Saving the dataset (40/240 shards):  21%|███████████▏                                          | 245640/1185642 [00:09<00:40, 23315.24 examples/s]Saving the dataset (41/240 shards):  22%|███████████▋                                          | 255462/1185642 [00:09<00:39, 23315.24 examples/s]Saving the dataset (42/240 shards):  22%|███████████▋                                          | 255462/1185642 [00:09<00:39, 23315.24 examples/s]Saving the dataset (43/240 shards):  22%|███████████▋                                          | 255462/1185642 [00:09<00:39, 23315.24 examples/s]Saving the dataset (44/240 shards):  22%|████████████                                          | 265342/1185642 [00:09<00:39, 23315.24 examples/s]Saving the dataset (45/240 shards):  23%|████████████▎                                         | 270282/1185642 [00:09<00:39, 23315.24 examples/s]Saving the dataset (46/240 shards):  23%|████████████▎                                         | 270282/1185642 [00:09<00:39, 23315.24 examples/s]Saving the dataset (47/240 shards):  24%|████████████▋                                         | 279162/1185642 [00:09<00:38, 23315.24 examples/s]Saving the dataset (48/240 shards):  24%|████████████▊                                         | 280162/1185642 [00:09<00:38, 23315.24 examples/s]Saving the dataset (49/240 shards):  24%|█████████████▏                                        | 288982/1185642 [00:09<00:38, 23315.24 examples/s]Saving the dataset (50/240 shards):  25%|█████████████▎                                        | 292862/1185642 [00:09<00:38, 23315.24 examples/s]Saving the dataset (51/240 shards):  25%|█████████████▌                                        | 296802/1185642 [00:09<00:38, 23315.24 examples/s]Saving the dataset (52/240 shards):  25%|█████████████▌                                        | 296802/1185642 [00:09<00:38, 23315.24 examples/s]Saving the dataset (53/240 shards):  25%|█████████████▋                                        | 299802/1185642 [00:09<00:37, 23315.24 examples/s]Saving the dataset (54/240 shards):  25%|█████████████▋                                        | 299802/1185642 [00:09<00:37, 23315.24 examples/s]Saving the dataset (55/240 shards):  26%|██████████████▏                                       | 311682/1185642 [00:09<00:37, 23315.24 examples/s]Saving the dataset (56/240 shards):  27%|██████████████▎                                       | 314622/1185642 [00:09<00:37, 23315.24 examples/s]Saving the dataset (57/240 shards):  27%|██████████████▎                                       | 315622/1185642 [00:09<00:37, 23315.24 examples/s]Saving the dataset (58/240 shards):  27%|██████████████▋                                       | 323502/1185642 [00:09<00:36, 23315.24 examples/s]Saving the dataset (59/240 shards):  28%|██████████████▉                                       | 327442/1185642 [00:09<00:36, 23315.24 examples/s]Saving the dataset (60/240 shards):  28%|██████████████▉                                       | 327442/1185642 [00:09<00:36, 23315.24 examples/s]Saving the dataset (61/240 shards):  28%|███████████████▎                                      | 337382/1185642 [00:09<00:36, 23315.24 examples/s]Saving the dataset (62/240 shards):  29%|███████████████▌                                      | 341322/1185642 [00:09<00:36, 23315.24 examples/s]Saving the dataset (63/240 shards):  29%|███████████████▋                                      | 343262/1185642 [00:09<00:36, 23315.24 examples/s]Saving the dataset (64/240 shards):  29%|███████████████▊                                      | 346202/1185642 [00:09<00:36, 23315.24 examples/s]Saving the dataset (65/240 shards):  30%|████████████████                                      | 353142/1185642 [00:09<00:35, 23315.24 examples/s]Saving the dataset (66/240 shards):  30%|████████████████▍                                     | 360082/1185642 [00:09<00:35, 23315.24 examples/s]Saving the dataset (67/240 shards):  31%|████████████████▉                                     | 371962/1185642 [00:09<00:34, 23315.24 examples/s]Saving the dataset (68/240 shards):  32%|█████████████████                                     | 373962/1185642 [00:09<00:34, 23315.24 examples/s]Saving the dataset (69/240 shards):  32%|█████████████████▎                                    | 379902/1185642 [00:09<00:34, 23315.24 examples/s]Saving the dataset (70/240 shards):  33%|█████████████████▊                                    | 389842/1185642 [00:09<00:34, 23315.24 examples/s]Saving the dataset (71/240 shards):  34%|██████████████████▎                                   | 400782/1185642 [00:09<00:33, 23315.24 examples/s]Saving the dataset (72/240 shards):  35%|██████████████████▋                                   | 411542/1185642 [00:09<00:33, 23315.24 examples/s]Saving the dataset (73/240 shards):  35%|██████████████████▊                                   | 413542/1185642 [00:09<00:33, 23315.24 examples/s]Saving the dataset (74/240 shards):  35%|██████████████████▊                                   | 413542/1185642 [00:09<00:33, 23315.24 examples/s]Saving the dataset (75/240 shards):  35%|██████████████████▊                                   | 413542/1185642 [00:09<00:33, 23315.24 examples/s]Saving the dataset (76/240 shards):  36%|███████████████████▏                                  | 421482/1185642 [00:09<00:32, 23315.24 examples/s]Saving the dataset (76/240 shards):  36%|███████████████████▎                                  | 423422/1185642 [00:09<00:09, 81939.98 examples/s]Saving the dataset (77/240 shards):  36%|███████████████████▍                                  | 426422/1185642 [00:09<00:09, 81939.98 examples/s]Saving the dataset (78/240 shards):  37%|███████████████████▊                                  | 435302/1185642 [00:09<00:09, 81939.98 examples/s]Saving the dataset (79/240 shards):  37%|███████████████████▉                                  | 437302/1185642 [00:09<00:09, 81939.98 examples/s]Saving the dataset (80/240 shards):  37%|████████████████████▏                                 | 444242/1185642 [00:09<00:09, 81939.98 examples/s]Saving the dataset (81/240 shards):  38%|████████████████████▍                                 | 449182/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (82/240 shards):  38%|████████████████████▋                                 | 453122/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (83/240 shards):  39%|█████████████████████▏                                | 464002/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (84/240 shards):  39%|█████████████████████▏                                | 464002/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (85/240 shards):  40%|█████████████████████▊                                | 478882/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (86/240 shards):  40%|█████████████████████▊                                | 478882/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (87/240 shards):  41%|█████████████████████▉                                | 481762/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (88/240 shards):  41%|█████████████████████▉                                | 481762/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (89/240 shards):  42%|██████████████████████▍                               | 492702/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (90/240 shards):  42%|██████████████████████▉                               | 502642/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (91/240 shards):  43%|███████████████████████                               | 505522/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (92/240 shards):  43%|███████████████████████                               | 505522/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (93/240 shards):  43%|███████████████████████                               | 507462/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (94/240 shards):  43%|███████████████████████▎                              | 511342/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (95/240 shards):  43%|███████████████████████▍                              | 514282/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (96/240 shards):  43%|███████████████████████▍                              | 514282/1185642 [00:09<00:08, 81939.98 examples/s]Saving the dataset (97/240 shards):  45%|████████████████████████▏                             | 530162/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (98/240 shards):  45%|████████████████████████▏                             | 530162/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (99/240 shards):  45%|████████████████████████▌                             | 539102/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (100/240 shards):  46%|████████████████████████▍                            | 547982/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (101/240 shards):  47%|████████████████████████▊                            | 553922/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (102/240 shards):  47%|████████████████████████▊                            | 555862/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (103/240 shards):  47%|█████████████████████████                            | 559802/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (104/240 shards):  48%|█████████████████████████▏                           | 563742/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (105/240 shards):  48%|█████████████████████████▎                           | 565682/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (106/240 shards):  48%|█████████████████████████▎                           | 565682/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (107/240 shards):  48%|█████████████████████████▌                           | 571562/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (108/240 shards):  48%|█████████████████████████▌                           | 571562/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (109/240 shards):  49%|█████████████████████████▉                           | 580502/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (110/240 shards):  50%|██████████████████████████▌                          | 595442/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (111/240 shards):  51%|██████████████████████████▉                          | 602322/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (112/240 shards):  51%|██████████████████████████▉                          | 602322/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (113/240 shards):  51%|███████████████████████████▏                         | 608262/1185642 [00:09<00:07, 81939.98 examples/s]Saving the dataset (114/240 shards):  52%|███████████████████████████▍                         | 614142/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (115/240 shards):  52%|███████████████████████████▍                         | 614142/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (116/240 shards):  53%|███████████████████████████▉                         | 624022/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (117/240 shards):  53%|███████████████████████████▉                         | 624022/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (118/240 shards):  53%|███████████████████████████▉                         | 625962/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (119/240 shards):  53%|████████████████████████████▏                        | 630902/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (120/240 shards):  54%|████████████████████████████▍                        | 635842/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (121/240 shards):  55%|████████████████████████████▉                        | 647722/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (122/240 shards):  55%|████████████████████████████▉                        | 647722/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (123/240 shards):  55%|█████████████████████████████▏                       | 653662/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (124/240 shards):  56%|█████████████████████████████▍                       | 659542/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (125/240 shards):  56%|█████████████████████████████▍                       | 659542/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (126/240 shards):  56%|█████████████████████████████▋                       | 665422/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (127/240 shards):  56%|█████████████████████████████▊                       | 667362/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (128/240 shards):  56%|█████████████████████████████▉                       | 669362/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (129/240 shards):  57%|██████████████████████████████▏                      | 675302/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (130/240 shards):  58%|██████████████████████████████▌                      | 683182/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (131/240 shards):  58%|██████████████████████████████▋                      | 685182/1185642 [00:09<00:06, 81939.98 examples/s]Saving the dataset (132/240 shards):  59%|███████████████████████████████▎                     | 700122/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (133/240 shards):  60%|███████████████████████████████▌                     | 706062/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (134/240 shards):  60%|███████████████████████████████▊                     | 711942/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (135/240 shards):  60%|███████████████████████████████▊                     | 711942/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (136/240 shards):  61%|████████████████████████████████▎                    | 722882/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (137/240 shards):  61%|████████████████████████████████▎                    | 723822/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (138/240 shards):  62%|████████████████████████████████▋                    | 732582/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (139/240 shards):  62%|████████████████████████████████▋                    | 732582/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (140/240 shards):  62%|████████████████████████████████▋                    | 732582/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (141/240 shards):  62%|████████████████████████████████▋                    | 732582/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (142/240 shards):  63%|█████████████████████████████████▌                   | 751462/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (143/240 shards):  63%|█████████████████████████████████▌                   | 751462/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (144/240 shards):  64%|█████████████████████████████████▊                   | 755402/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (145/240 shards):  64%|██████████████████████████████████▏                  | 764342/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (146/240 shards):  65%|██████████████████████████████████▏                  | 765282/1185642 [00:09<00:05, 81939.98 examples/s]Saving the dataset (147/240 shards):  66%|██████████████████████████████████▉                  | 781102/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (148/240 shards):  66%|██████████████████████████████████▉                  | 782102/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (149/240 shards):  66%|██████████████████████████████████▉                  | 782102/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (150/240 shards):  66%|███████████████████████████████████                  | 783042/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (151/240 shards):  67%|███████████████████████████████████▎                 | 789922/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (152/240 shards):  67%|███████████████████████████████████▍                 | 791862/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (153/240 shards):  67%|███████████████████████████████████▍                 | 793862/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (154/240 shards):  67%|███████████████████████████████████▋                 | 798802/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (155/240 shards):  68%|████████████████████████████████████                 | 807742/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (156/240 shards):  69%|████████████████████████████████████▍                | 814682/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (157/240 shards):  69%|████████████████████████████████████▌                | 816622/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (158/240 shards):  69%|████████████████████████████████████▊                | 822562/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (159/240 shards):  70%|█████████████████████████████████████▎               | 833442/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (160/240 shards):  71%|█████████████████████████████████████▍               | 836442/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (161/240 shards):  71%|█████████████████████████████████████▋               | 844262/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (162/240 shards):  72%|█████████████████████████████████████▉               | 848142/1185642 [00:09<00:04, 81939.98 examples/s]Saving the dataset (162/240 shards):  72%|█████████████████████████████████████▏              | 848142/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (163/240 shards):  72%|█████████████████████████████████████▏              | 848142/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (164/240 shards):  72%|█████████████████████████████████████▏              | 848142/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (165/240 shards):  72%|█████████████████████████████████████▏              | 848142/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (166/240 shards):  72%|█████████████████████████████████████▋              | 859082/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (167/240 shards):  73%|██████████████████████████████████████              | 868962/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (168/240 shards):  73%|██████████████████████████████████████▏             | 870902/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (169/240 shards):  73%|██████████████████████████████████████▏             | 870902/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (170/240 shards):  74%|██████████████████████████████████████▍             | 875842/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (171/240 shards):  74%|██████████████████████████████████████▌             | 879782/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (172/240 shards):  75%|██████████████████████████████████████▉             | 887722/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (173/240 shards):  76%|███████████████████████████████████████▌            | 901602/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (174/240 shards):  76%|███████████████████████████████████████▌            | 901602/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (175/240 shards):  77%|███████████████████████████████████████▊            | 907482/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (176/240 shards):  77%|███████████████████████████████████████▊            | 907482/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (177/240 shards):  78%|████████████████████████████████████████▎           | 920422/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (178/240 shards):  78%|████████████████████████████████████████▋           | 927362/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (179/240 shards):  79%|████████████████████████████████████████▉           | 933302/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (180/240 shards):  79%|█████████████████████████████████████████           | 935242/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (181/240 shards):  80%|█████████████████████████████████████████▍          | 944122/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (182/240 shards):  80%|█████████████████████████████████████████▌          | 948062/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (183/240 shards):  80%|█████████████████████████████████████████▌          | 948062/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (184/240 shards):  80%|█████████████████████████████████████████▊          | 954002/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (185/240 shards):  81%|██████████████████████████████████████████▏         | 961942/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (186/240 shards):  81%|██████████████████████████████████████████▎         | 963882/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (187/240 shards):  82%|██████████████████████████████████████████▌         | 971762/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (188/240 shards):  82%|██████████████████████████████████████████▊         | 976702/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (189/240 shards):  82%|██████████████████████████████████████████▊         | 976702/1185642 [00:09<00:01, 207105.19 examples/s]Saving the dataset (190/240 shards):  83%|███████████████████████████████████████████         | 980642/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (191/240 shards):  83%|███████████████████████████████████████████▎        | 988582/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (192/240 shards):  84%|███████████████████████████████████████████▌        | 992522/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (193/240 shards):  84%|███████████████████████████████████████████▊        | 998462/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (194/240 shards):  85%|███████████████████████████████████████████        | 1002402/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (195/240 shards):  85%|███████████████████████████████████████████▎       | 1007282/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (196/240 shards):  85%|███████████████████████████████████████████▍       | 1010222/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (197/240 shards):  85%|███████████████████████████████████████████▍       | 1010222/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (198/240 shards):  86%|███████████████████████████████████████████▋       | 1015162/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (199/240 shards):  87%|████████████████████████████████████████████▎      | 1030042/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (200/240 shards):  87%|████████████████████████████████████████████▍      | 1033922/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (201/240 shards):  87%|████████████████████████████████████████████▍      | 1033922/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (202/240 shards):  87%|████████████████████████████████████████████▌      | 1035922/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (203/240 shards):  88%|████████████████████████████████████████████▋      | 1037862/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (204/240 shards):  88%|████████████████████████████████████████████▉      | 1045742/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (205/240 shards):  89%|█████████████████████████████████████████████▏     | 1049742/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (206/240 shards):  89%|█████████████████████████████████████████████▌     | 1058622/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (207/240 shards):  89%|█████████████████████████████████████████████▌     | 1059622/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (208/240 shards):  90%|█████████████████████████████████████████████▊     | 1064562/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (209/240 shards):  90%|██████████████████████████████████████████████▏    | 1072442/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (210/240 shards):  91%|██████████████████████████████████████████████▍    | 1080382/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (211/240 shards):  91%|██████████████████████████████████████████████▌    | 1082322/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (212/240 shards):  91%|██████████████████████████████████████████████▋    | 1084322/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (213/240 shards):  92%|██████████████████████████████████████████████▉    | 1091262/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (214/240 shards):  93%|███████████████████████████████████████████████▏   | 1097202/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (215/240 shards):  94%|███████████████████████████████████████████████▊   | 1112082/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (216/240 shards):  94%|███████████████████████████████████████████████▊   | 1112082/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (217/240 shards):  94%|████████████████████████████████████████████████   | 1117962/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (218/240 shards):  94%|████████████████████████████████████████████████▏  | 1119902/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (219/240 shards):  95%|████████████████████████████████████████████████▏  | 1120902/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (220/240 shards):  95%|████████████████████████████████████████████████▋  | 1131842/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (221/240 shards):  96%|████████████████████████████████████████████████▉  | 1137782/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (222/240 shards):  97%|█████████████████████████████████████████████████▏ | 1144722/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (223/240 shards):  97%|█████████████████████████████████████████████████▎ | 1146662/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (224/240 shards):  97%|█████████████████████████████████████████████████▍ | 1148602/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (225/240 shards):  97%|█████████████████████████████████████████████████▍ | 1150542/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (226/240 shards):  97%|█████████████████████████████████████████████████▌ | 1152482/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (227/240 shards):  97%|█████████████████████████████████████████████████▋ | 1154422/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (228/240 shards):  98%|█████████████████████████████████████████████████▊ | 1158362/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (229/240 shards):  98%|██████████████████████████████████████████████████ | 1164242/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (230/240 shards):  98%|██████████████████████████████████████████████████▏| 1166182/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (231/240 shards):  99%|██████████████████████████████████████████████████▎| 1170062/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (232/240 shards):  99%|██████████████████████████████████████████████████▎| 1170062/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (233/240 shards):  99%|██████████████████████████████████████████████████▎| 1170062/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (234/240 shards):  99%|██████████████████████████████████████████████████▋| 1178002/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (235/240 shards): 100%|██████████████████████████████████████████████████▊| 1180942/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (236/240 shards): 100%|██████████████████████████████████████████████████▊| 1181882/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (237/240 shards): 100%|██████████████████████████████████████████████████▉| 1183762/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (238/240 shards): 100%|██████████████████████████████████████████████████▉| 1183762/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (239/240 shards): 100%|██████████████████████████████████████████████████▉| 1184702/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (240/240 shards): 100%|███████████████████████████████████████████████████| 1185642/1185642 [00:09<00:00, 207105.19 examples/s]Saving the dataset (240/240 shards): 100%|███████████████████████████████████████████████████| 1185642/1185642 [00:09<00:00, 124260.49 examples/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 3976.08it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 4233.36it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 4162.12it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 3912.43it/s][2025-10-12 02:41:25,651] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:470] [PID:1367687] Loading prepared dataset from disk at /home/ubuntu/axolotl/preprocessed-data-350m-multitask-ft/28514821cb56568b4099ac280cc69eed...
Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 5210.59it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 3893.24it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 3502.89it/s]
[2025-10-12 02:41:33,160] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:1367687] total_num_tokens: 1_001_051_686
[2025-10-12 02:41:47,442] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:1367687] `total_supervised_tokens: 482_472_250`


[2025-10-12 02:42:10,376] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1367687] generate_batches time: 2.6581783294677734


[2025-10-12 02:42:38,308] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367694] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:42:38,311] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367692] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:42:38,314] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367690] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:42:38,316] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367693] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:42:38,316] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367689] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:42:38,318] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367688] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:42:38,318] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367691] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:42:38,334] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1367687] gather_len_batches: [7646, 7646, 7646, 7648, 7647, 7647, 7646, 7645]
[2025-10-12 02:42:38,336] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367687] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:42:38,898] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:483] [PID:1367687] data_loader_len: 955
[2025-10-12 02:42:38,918] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:499] [PID:1367687] sample_packing_eff_est across ranks: [0.9984858632087708, 0.9987469911575317, 0.9984858632087708, 0.9987469911575317, 0.9986163973808289, 0.9988776445388794, 0.9987469911575317, 0.9988776445388794]
[2025-10-12 02:42:38,919] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:511] [PID:1367687] sample_packing_eff_est: 1.0
[2025-10-12 02:42:38,919] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:1367687] total_num_steps: 2865
[2025-10-12 02:42:38,967] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:1367687] Maximum number of steps set at 2865
[2025-10-12 02:42:39,031] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:1367687] Loading tokenizer... /home/ubuntu/axolotl/out-350m-audio-pt
[2025-10-12 02:43:35,539] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:1367687] EOS: 7 / <|im_end|>
[2025-10-12 02:43:35,540] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:1367687] BOS: 1 / <|startoftext|>
[2025-10-12 02:43:35,540] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:1367687] PAD: 0 / <|pad|>
[2025-10-12 02:43:35,540] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:1367687] UNK: None / None
[2025-10-12 02:43:35,540] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:1367687] Loading model
[2025-10-12 02:43:35,564] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:1367687] Patched Trainer.evaluation_loop with nanmean loss calculation
[2025-10-12 02:43:35,566] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:1367687] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
[2025-10-12 02:43:35,567] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:301] [PID:1367687] Applying multipack dataloader patch for sample packing...
[2025-10-12 02:43:36,156] [INFO] [axolotl.integrations.cut_cross_entropy.pre_model_load:94] [PID:1367687] Applying Cut Cross Entropy to model type: lfm2
[2025-10-12 02:43:36,508] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:1367687] Converting modules to torch.bfloat16
[2025-10-12 02:43:36,511] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:1367687] Memory usage after model load 1.285GB (+1.285GB allocated, +1.303GB reserved)
[2025-10-12 02:43:40,065] [INFO] [axolotl.train.save_initial_configs:402] [PID:1367687] Pre-saving tokenizer to /home/ubuntu/axolotl/out-350m-multitask-ft...
[2025-10-12 02:43:40,792] [INFO] [axolotl.train.save_initial_configs:407] [PID:1367687] Pre-saving model config to /home/ubuntu/axolotl/out-350m-multitask-ft...
[2025-10-12 02:43:40,795] [INFO] [axolotl.train.execute_training:196] [PID:1367687] Starting trainer...
[2025-10-12 02:50:32,078] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367693] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:50:40,609] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1367687] generate_batches time: 2.821959972381592
[2025-10-12 02:50:42,712] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367688] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:50:44,543] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367689] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:50:45,500] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367694] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:50:47,700] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367690] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:50:52,950] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367691] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:50:59,700] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367692] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:50:59,701] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1367687] gather_len_batches: [7647, 7647, 7647, 7647, 7647, 7647, 7647, 7647]
[2025-10-12 02:50:59,703] [WARNING] [py.warnings._showwarnmsg:110] [PID:1367687] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[34m[1mwandb[0m: Currently logged in as: [33maratako1998[0m ([33maratako-lm[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: [38;5;178m⢿[0m Waiting for wandb.init()...
[Am[2K[34m[1mwandb[0m: [38;5;178m⣻[0m Waiting for wandb.init()...
[Am[2K[34m[1mwandb[0m: Tracking run with wandb version 0.22.2
[34m[1mwandb[0m: Run data is saved locally in [35m[1m/home/ubuntu/axolotl/wandb/run-20251012_025059-guktalmo[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
[34m[1mwandb[0m: Syncing run [33m350m-multitask-ft-run1[0m
[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/aratako-lm/liquidai-hackathon[0m
[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/aratako-lm/liquidai-hackathon/runs/guktalmo[0m
[34m[1mwandb[0m: Detected [huggingface_hub.inference] in use.
[34m[1mwandb[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
[34m[1mwandb[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/
[34m[1mwandb[0m: [33mWARNING[0m Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
[2025-10-12 02:51:01,203] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:1367687] The Axolotl config has been saved to the WandB run under files.
  0%|                                                                                                                    | 0/2865 [00:00<?, ?it/s][2025-10-12 02:51:01,213] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1367687] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:00<00:30,  6.04it/s][A
  2%|█▊                                                                                                           | 3/185 [00:00<00:52,  3.48it/s][A
  2%|██▎                                                                                                          | 4/185 [00:01<00:59,  3.06it/s][A
  3%|██▉                                                                                                          | 5/185 [00:01<00:59,  3.02it/s][A
  3%|███▌                                                                                                         | 6/185 [00:01<01:02,  2.89it/s][A
  4%|████                                                                                                         | 7/185 [00:02<01:02,  2.87it/s][A
  4%|████▋                                                                                                        | 8/185 [00:02<01:03,  2.79it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:02<01:03,  2.77it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:03<01:03,  2.76it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:03<01:02,  2.78it/s][A
  6%|███████                                                                                                     | 12/185 [00:04<01:02,  2.78it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:04<01:02,  2.76it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:04<01:01,  2.77it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:05<00:59,  2.84it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:05<01:00,  2.78it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:05<01:02,  2.70it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:06<01:01,  2.70it/s][A
 10%|███████████                                                                                                 | 19/185 [00:06<01:01,  2.72it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:07<01:00,  2.72it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:07<00:59,  2.77it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:07<00:58,  2.81it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:08<01:00,  2.69it/s][A
 13%|██████████████                                                                                              | 24/185 [00:08<00:54,  2.93it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:08<00:58,  2.73it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:09<00:58,  2.74it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:09<00:58,  2.71it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:09<00:57,  2.72it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:10<00:56,  2.74it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:10<00:55,  2.82it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:10<00:56,  2.74it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:11<00:53,  2.83it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:11<00:56,  2.69it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:12<00:55,  2.71it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:12<00:52,  2.83it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:12<00:52,  2.82it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:13<00:54,  2.71it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:13<00:54,  2.72it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:13<00:51,  2.86it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:14<00:52,  2.76it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:14<00:51,  2.77it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:14<00:52,  2.72it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:15<00:51,  2.75it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:15<00:51,  2.75it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:15<00:48,  2.89it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:16<00:49,  2.78it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:16<00:50,  2.71it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:17<00:50,  2.73it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:17<00:48,  2.80it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:17<00:49,  2.72it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:18<00:46,  2.86it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:18<00:48,  2.76it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:18<00:48,  2.70it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:19<00:46,  2.83it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:19<00:48,  2.70it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:20<00:46,  2.78it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:20<00:47,  2.70it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:20<00:46,  2.71it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:21<00:46,  2.73it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:21<00:44,  2.82it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:21<00:45,  2.73it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:22<00:44,  2.74it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:22<00:44,  2.74it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:22<00:42,  2.84it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:23<00:42,  2.79it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:23<00:42,  2.77it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:24<00:43,  2.73it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:24<00:41,  2.81it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:24<00:40,  2.86it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:25<00:40,  2.81it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:25<00:40,  2.81it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:25<00:42,  2.66it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:26<00:41,  2.70it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:26<00:40,  2.75it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:26<00:40,  2.72it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:27<00:36,  2.99it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:27<00:38,  2.79it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:28<00:40,  2.66it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:28<00:38,  2.72it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:28<00:37,  2.78it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:29<00:37,  2.78it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:29<00:37,  2.73it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:29<00:37,  2.74it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:30<00:36,  2.76it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:30<00:36,  2.75it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:30<00:36,  2.74it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:31<00:34,  2.82it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:31<00:34,  2.79it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:31<00:34,  2.77it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:32<00:34,  2.76it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:32<00:34,  2.75it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:33<00:33,  2.75it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:33<00:32,  2.84it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:33<00:31,  2.90it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:34<00:31,  2.87it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:34<00:33,  2.67it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:34<00:31,  2.77it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:35<00:32,  2.70it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:35<00:31,  2.75it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:35<00:30,  2.82it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:36<00:31,  2.68it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:36<00:30,  2.74it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:37<00:29,  2.74it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:37<00:29,  2.78it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:37<00:28,  2.82it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:38<00:28,  2.75it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:38<00:28,  2.77it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:38<00:27,  2.78it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:39<00:27,  2.76it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:39<00:26,  2.79it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:39<00:26,  2.83it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:40<00:26,  2.76it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:40<00:26,  2.75it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:40<00:25,  2.75it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:41<00:25,  2.77it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:41<00:24,  2.79it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:42<00:24,  2.77it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:42<00:23,  2.82it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:42<00:23,  2.76it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:43<00:23,  2.79it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:43<00:23,  2.73it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:43<00:23,  2.74it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:44<00:22,  2.76it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:44<00:22,  2.74it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:44<00:21,  2.81it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:45<00:21,  2.74it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:45<00:20,  2.78it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:46<00:20,  2.73it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:46<00:20,  2.75it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:46<00:19,  2.85it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:47<00:19,  2.73it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:47<00:19,  2.75it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:47<00:18,  2.78it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:48<00:18,  2.80it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:48<00:18,  2.67it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:48<00:17,  2.74it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:49<00:17,  2.72it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:49<00:17,  2.70it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:50<00:16,  2.74it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:50<00:16,  2.75it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:50<00:15,  2.86it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:51<00:15,  2.71it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:51<00:15,  2.75it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:51<00:14,  2.75it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:52<00:14,  2.78it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:52<00:14,  2.77it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:52<00:13,  2.75it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:53<00:13,  2.78it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:53<00:12,  2.86it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [00:53<00:12,  2.78it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [00:54<00:11,  2.85it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [00:54<00:12,  2.72it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [00:55<00:11,  2.72it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [00:55<00:10,  2.85it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [00:55<00:10,  2.74it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [00:56<00:10,  2.72it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [00:56<00:09,  2.80it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [00:56<00:09,  2.77it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [00:57<00:09,  2.72it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [00:57<00:09,  2.75it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [00:57<00:08,  2.77it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [00:58<00:08,  2.79it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [00:58<00:08,  2.74it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [00:59<00:07,  2.79it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [00:59<00:07,  2.75it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [00:59<00:06,  2.72it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:00<00:06,  2.73it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:00<00:06,  2.76it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:00<00:05,  2.76it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:01<00:05,  2.89it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:01<00:05,  2.76it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:01<00:04,  2.76it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:02<00:04,  2.74it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:02<00:03,  2.78it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:03<00:03,  2.85it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:03<00:03,  2.70it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:03<00:02,  2.78it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:04<00:02,  2.73it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:04<00:02,  2.75it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:04<00:01,  2.89it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:05<00:01,  2.80it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:05<00:01,  2.72it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:05<00:00,  2.78it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:06<00:00,  2.75it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:06<00:00,  2.19it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.942526817321777, 'eval_runtime': 71.8064, 'eval_samples_per_second': 165.124, 'eval_steps_per_second': 2.59, 'memory/max_active (GiB)': 2.71, 'memory/max_allocated (GiB)': 2.71, 'memory/device_reserved (GiB)': 2.79, 'epoch': 0}
  0%|                                                                                                                    | 0/2865 [01:11<?, ?it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:07<00:00,  2.19it/s][A
                                                                                                                                                  [A[rank1]: Traceback (most recent call last):
[rank1]:   File "<frozen runpy>", line 198, in _run_module_as_main
[rank1]:   File "<frozen runpy>", line 88, in _run_code
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 121, in <module>
[rank1]:     fire.Fire(do_cli)
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 135, in Fire
[rank1]:     component_trace = _Fire(component, args, parsed_flag_args, context, name)
[rank1]:                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 468, in _Fire
[rank1]:     component, remaining_args = _CallAndUpdateTrace(
[rank1]:                                 ^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
[rank1]:     component = fn(*varargs, **kwargs)
[rank1]:                 ^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 88, in do_cli
[rank1]:     return do_train(parsed_cfg, parsed_cli_args)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 45, in do_train
[rank1]:     model, tokenizer, trainer = train(cfg=cfg, dataset_meta=dataset_meta)
[rank1]:                                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 584, in train
[rank1]:     execute_training(cfg, trainer, resume_from_checkpoint)
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 197, in execute_training
[rank1]:     trainer.train(resume_from_checkpoint=resume_from_checkpoint)
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2224, in train
[rank1]:     return inner_training_loop(
[rank1]:            ^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2561, in _inner_training_loop
[rank1]:     tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
[rank1]:                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/mixins/activation_checkpointing.py", line 46, in training_step
[rank1]:     return super().training_step(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3854, in training_step
[rank1]:     loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/base.py", line 367, in compute_loss
[rank1]:     return super().compute_loss(
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3936, in compute_loss
[rank1]:     outputs = model(**inputs)
[rank1]:               ^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank1]:     return self._call_impl(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank1]:     return forward_call(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1648, in forward
[rank1]:     else self._run_ddp_forward(*inputs, **kwargs)
[rank1]:          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1474, in _run_ddp_forward
[rank1]:     return self.module(*inputs, **kwargs)  # type: ignore[index]
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank1]:     return self._call_impl(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank1]:     return forward_call(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 818, in forward
[rank1]:     return model_forward(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 806, in __call__
[rank1]:     return convert_to_fp32(self.model_forward(*args, **kwargs))
[rank1]:                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py", line 44, in decorate_autocast
[rank1]:     return func(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/cut_cross_entropy/transformers/llama.py", line 52, in cce_forward
[rank1]:     outputs: BaseModelOutputWithPast = self.model(
[rank1]:                                        ^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank1]:     return self._call_impl(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank1]:     return forward_call(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/generic.py", line 927, in wrapper
[rank1]:     outputs = func(self, *args, **kwargs)
[rank1]:               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 652, in forward
[rank1]:     hidden_states = decoder_layer(
[rank1]:                     ^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/modeling_layers.py", line 94, in __call__
[rank1]:     return super().__call__(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank1]:     return self._call_impl(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank1]:     return forward_call(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank1]:     return func(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 556, in forward
[rank1]:     hidden_states = self.conv(
[rank1]:                     ^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank1]:     return self._call_impl(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank1]:     return forward_call(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank1]:     return func(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 517, in forward
[rank1]:     return self.slow_forward(hidden_states, past_key_values, cache_position, attention_mask)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank1]:     return func(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 500, in slow_forward
[rank1]:     conv_out = self.conv(Bx)[..., :seqlen]
[rank1]:                ^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank1]:     return self._call_impl(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank1]:     return forward_call(*args, **kwargs)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 371, in forward
[rank1]:     return self._conv_forward(input, self.weight, self.bias)
[rank1]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank1]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 366, in _conv_forward
[rank1]:     return F.conv1d(
[rank1]:            ^^^^^^^^^
[rank1]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 272.00 MiB. GPU 1 has a total capacity of 79.25 GiB of which 160.94 MiB is free. Including non-PyTorch memory, this process has 79.09 GiB memory in use. Of the allocated memory 77.68 GiB is allocated by PyTorch, and 85.86 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
Traceback (most recent call last):
  File "<frozen runpy>", line 198, in _run_module_as_main
  File "<frozen runpy>", line 88, in _run_code
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 121, in <module>
    fire.Fire(do_cli)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 135, in Fire
    component_trace = _Fire(component, args, parsed_flag_args, context, name)
                      ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 468, in _Fire
    component, remaining_args = _CallAndUpdateTrace(
                                ^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
    component = fn(*varargs, **kwargs)
                ^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 88, in do_cli
    return do_train(parsed_cfg, parsed_cli_args)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 45, in do_train
    model, tokenizer, trainer = train(cfg=cfg, dataset_meta=dataset_meta)
                                ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 584, in train
    execute_training(cfg, trainer, resume_from_checkpoint)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 197, in execute_training
    trainer.train(resume_from_checkpoint=resume_from_checkpoint)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2224, in train
    return inner_training_loop(
           ^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2561, in _inner_training_loop
    tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/mixins/activation_checkpointing.py", line 46, in training_step
    return super().training_step(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3854, in training_step
    loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/base.py", line 367, in compute_loss
    return super().compute_loss(
           ^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3936, in compute_loss
    outputs = model(**inputs)
              ^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
    return forward_call(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1648, in forward
    else self._run_ddp_forward(*inputs, **kwargs)
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1474, in _run_ddp_forward
    return self.module(*inputs, **kwargs)  # type: ignore[index]
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
    return forward_call(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 818, in forward
    return model_forward(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 806, in __call__
    return convert_to_fp32(self.model_forward(*args, **kwargs))
                           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py", line 44, in decorate_autocast
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/cut_cross_entropy/transformers/llama.py", line 52, in cce_forward
    outputs: BaseModelOutputWithPast = self.model(
                                       ^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
    return forward_call(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/generic.py", line 927, in wrapper
    outputs = func(self, *args, **kwargs)
              ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 652, in forward
    hidden_states = decoder_layer(
                    ^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/modeling_layers.py", line 94, in __call__
    return super().__call__(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
    return forward_call(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
    return func(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 557, in forward
    hidden_states=self.operator_norm(hidden_states),
                  ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
    return self._call_impl(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
    return forward_call(*args, **kwargs)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 63, in forward
    return self.weight * hidden_states.to(input_dtype)
                         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 256.00 MiB. GPU 0 has a total capacity of 79.25 GiB of which 208.94 MiB is free. Including non-PyTorch memory, this process has 79.04 GiB memory in use. Of the allocated memory 76.43 GiB is allocated by PyTorch, and 165.36 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
[rank0]: Traceback (most recent call last):
[rank0]:   File "<frozen runpy>", line 198, in _run_module_as_main
[rank0]:   File "<frozen runpy>", line 88, in _run_code
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 121, in <module>
[rank0]:     fire.Fire(do_cli)
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 135, in Fire
[rank0]:     component_trace = _Fire(component, args, parsed_flag_args, context, name)
[rank0]:                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 468, in _Fire
[rank0]:     component, remaining_args = _CallAndUpdateTrace(
[rank0]:                                 ^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
[rank0]:     component = fn(*varargs, **kwargs)
[rank0]:                 ^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 88, in do_cli
[rank0]:     return do_train(parsed_cfg, parsed_cli_args)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 45, in do_train
[rank0]:     model, tokenizer, trainer = train(cfg=cfg, dataset_meta=dataset_meta)
[rank0]:                                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 584, in train
[rank0]:     execute_training(cfg, trainer, resume_from_checkpoint)
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 197, in execute_training
[rank0]:     trainer.train(resume_from_checkpoint=resume_from_checkpoint)
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2224, in train
[rank0]:     return inner_training_loop(
[rank0]:            ^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2561, in _inner_training_loop
[rank0]:     tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
[rank0]:                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/mixins/activation_checkpointing.py", line 46, in training_step
[rank0]:     return super().training_step(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3854, in training_step
[rank0]:     loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/base.py", line 367, in compute_loss
[rank0]:     return super().compute_loss(
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3936, in compute_loss
[rank0]:     outputs = model(**inputs)
[rank0]:               ^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank0]:     return self._call_impl(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank0]:     return forward_call(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1648, in forward
[rank0]:     else self._run_ddp_forward(*inputs, **kwargs)
[rank0]:          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1474, in _run_ddp_forward
[rank0]:     return self.module(*inputs, **kwargs)  # type: ignore[index]
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank0]:     return self._call_impl(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank0]:     return forward_call(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 818, in forward
[rank0]:     return model_forward(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 806, in __call__
[rank0]:     return convert_to_fp32(self.model_forward(*args, **kwargs))
[rank0]:                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py", line 44, in decorate_autocast
[rank0]:     return func(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/cut_cross_entropy/transformers/llama.py", line 52, in cce_forward
[rank0]:     outputs: BaseModelOutputWithPast = self.model(
[rank0]:                                        ^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank0]:     return self._call_impl(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank0]:     return forward_call(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/generic.py", line 927, in wrapper
[rank0]:     outputs = func(self, *args, **kwargs)
[rank0]:               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 652, in forward
[rank0]:     hidden_states = decoder_layer(
[rank0]:                     ^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/modeling_layers.py", line 94, in __call__
[rank0]:     return super().__call__(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank0]:     return self._call_impl(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank0]:     return forward_call(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank0]:     return func(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 557, in forward
[rank0]:     hidden_states=self.operator_norm(hidden_states),
[rank0]:                   ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank0]:     return self._call_impl(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank0]:     return forward_call(*args, **kwargs)
[rank0]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 63, in forward
[rank0]:     return self.weight * hidden_states.to(input_dtype)
[rank0]:                          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank0]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 256.00 MiB. GPU 0 has a total capacity of 79.25 GiB of which 208.94 MiB is free. Including non-PyTorch memory, this process has 79.04 GiB memory in use. Of the allocated memory 76.43 GiB is allocated by PyTorch, and 165.36 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
[rank2]: Traceback (most recent call last):
[rank2]:   File "<frozen runpy>", line 198, in _run_module_as_main
[rank2]:   File "<frozen runpy>", line 88, in _run_code
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 121, in <module>
[rank2]:     fire.Fire(do_cli)
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 135, in Fire
[rank2]:     component_trace = _Fire(component, args, parsed_flag_args, context, name)
[rank2]:                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 468, in _Fire
[rank2]:     component, remaining_args = _CallAndUpdateTrace(
[rank2]:                                 ^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
[rank2]:     component = fn(*varargs, **kwargs)
[rank2]:                 ^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 88, in do_cli
[rank2]:     return do_train(parsed_cfg, parsed_cli_args)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 45, in do_train
[rank2]:     model, tokenizer, trainer = train(cfg=cfg, dataset_meta=dataset_meta)
[rank2]:                                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 584, in train
[rank2]:     execute_training(cfg, trainer, resume_from_checkpoint)
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 197, in execute_training
[rank2]:     trainer.train(resume_from_checkpoint=resume_from_checkpoint)
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2224, in train
[rank2]:     return inner_training_loop(
[rank2]:            ^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2561, in _inner_training_loop
[rank2]:     tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
[rank2]:                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/mixins/activation_checkpointing.py", line 46, in training_step
[rank2]:     return super().training_step(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3854, in training_step
[rank2]:     loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/base.py", line 367, in compute_loss
[rank2]:     return super().compute_loss(
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3936, in compute_loss
[rank2]:     outputs = model(**inputs)
[rank2]:               ^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank2]:     return self._call_impl(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank2]:     return forward_call(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1648, in forward
[rank2]:     else self._run_ddp_forward(*inputs, **kwargs)
[rank2]:          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1474, in _run_ddp_forward
[rank2]:     return self.module(*inputs, **kwargs)  # type: ignore[index]
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank2]:     return self._call_impl(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank2]:     return forward_call(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 818, in forward
[rank2]:     return model_forward(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 806, in __call__
[rank2]:     return convert_to_fp32(self.model_forward(*args, **kwargs))
[rank2]:                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py", line 44, in decorate_autocast
[rank2]:     return func(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/cut_cross_entropy/transformers/llama.py", line 52, in cce_forward
[rank2]:     outputs: BaseModelOutputWithPast = self.model(
[rank2]:                                        ^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank2]:     return self._call_impl(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank2]:     return forward_call(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/generic.py", line 927, in wrapper
[rank2]:     outputs = func(self, *args, **kwargs)
[rank2]:               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 652, in forward
[rank2]:     hidden_states = decoder_layer(
[rank2]:                     ^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/modeling_layers.py", line 94, in __call__
[rank2]:     return super().__call__(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank2]:     return self._call_impl(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank2]:     return forward_call(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank2]:     return func(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 556, in forward
[rank2]:     hidden_states = self.conv(
[rank2]:                     ^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank2]:     return self._call_impl(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank2]:     return forward_call(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank2]:     return func(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 517, in forward
[rank2]:     return self.slow_forward(hidden_states, past_key_values, cache_position, attention_mask)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank2]:     return func(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 500, in slow_forward
[rank2]:     conv_out = self.conv(Bx)[..., :seqlen]
[rank2]:                ^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank2]:     return self._call_impl(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank2]:     return forward_call(*args, **kwargs)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 371, in forward
[rank2]:     return self._conv_forward(input, self.weight, self.bias)
[rank2]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank2]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 366, in _conv_forward
[rank2]:     return F.conv1d(
[rank2]:            ^^^^^^^^^
[rank2]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 272.00 MiB. GPU 2 has a total capacity of 79.25 GiB of which 160.94 MiB is free. Including non-PyTorch memory, this process has 79.09 GiB memory in use. Of the allocated memory 77.68 GiB is allocated by PyTorch, and 85.86 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
[rank5]: Traceback (most recent call last):
[rank5]:   File "<frozen runpy>", line 198, in _run_module_as_main
[rank5]:   File "<frozen runpy>", line 88, in _run_code
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 121, in <module>
[rank5]:     fire.Fire(do_cli)
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 135, in Fire
[rank5]:     component_trace = _Fire(component, args, parsed_flag_args, context, name)
[rank5]:                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 468, in _Fire
[rank5]:     component, remaining_args = _CallAndUpdateTrace(
[rank5]:                                 ^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
[rank5]:     component = fn(*varargs, **kwargs)
[rank5]:                 ^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 88, in do_cli
[rank5]:     return do_train(parsed_cfg, parsed_cli_args)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 45, in do_train
[rank5]:     model, tokenizer, trainer = train(cfg=cfg, dataset_meta=dataset_meta)
[rank5]:                                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 584, in train
[rank5]:     execute_training(cfg, trainer, resume_from_checkpoint)
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 197, in execute_training
[rank5]:     trainer.train(resume_from_checkpoint=resume_from_checkpoint)
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2224, in train
[rank5]:     return inner_training_loop(
[rank5]:            ^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2561, in _inner_training_loop
[rank5]:     tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
[rank5]:                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/mixins/activation_checkpointing.py", line 46, in training_step
[rank5]:     return super().training_step(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3854, in training_step
[rank5]:     loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/base.py", line 367, in compute_loss
[rank5]:     return super().compute_loss(
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3936, in compute_loss
[rank5]:     outputs = model(**inputs)
[rank5]:               ^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank5]:     return self._call_impl(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank5]:     return forward_call(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1648, in forward
[rank5]:     else self._run_ddp_forward(*inputs, **kwargs)
[rank5]:          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1474, in _run_ddp_forward
[rank5]:     return self.module(*inputs, **kwargs)  # type: ignore[index]
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank5]:     return self._call_impl(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank5]:     return forward_call(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 818, in forward
[rank5]:     return model_forward(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 806, in __call__
[rank5]:     return convert_to_fp32(self.model_forward(*args, **kwargs))
[rank5]:                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py", line 44, in decorate_autocast
[rank5]:     return func(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/cut_cross_entropy/transformers/llama.py", line 52, in cce_forward
[rank5]:     outputs: BaseModelOutputWithPast = self.model(
[rank5]:                                        ^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank5]:     return self._call_impl(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank5]:     return forward_call(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/generic.py", line 927, in wrapper
[rank5]:     outputs = func(self, *args, **kwargs)
[rank5]:               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 652, in forward
[rank5]:     hidden_states = decoder_layer(
[rank5]:                     ^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/modeling_layers.py", line 94, in __call__
[rank5]:     return super().__call__(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank5]:     return self._call_impl(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank5]:     return forward_call(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank5]:     return func(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 556, in forward
[rank5]:     hidden_states = self.conv(
[rank5]:                     ^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank5]:     return self._call_impl(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank5]:     return forward_call(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank5]:     return func(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 517, in forward
[rank5]:     return self.slow_forward(hidden_states, past_key_values, cache_position, attention_mask)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank5]:     return func(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 500, in slow_forward
[rank5]:     conv_out = self.conv(Bx)[..., :seqlen]
[rank5]:                ^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank5]:     return self._call_impl(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank5]:     return forward_call(*args, **kwargs)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 371, in forward
[rank5]:     return self._conv_forward(input, self.weight, self.bias)
[rank5]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank5]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 366, in _conv_forward
[rank5]:     return F.conv1d(
[rank5]:            ^^^^^^^^^
[rank5]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 272.00 MiB. GPU 5 has a total capacity of 79.25 GiB of which 160.94 MiB is free. Including non-PyTorch memory, this process has 79.09 GiB memory in use. Of the allocated memory 77.68 GiB is allocated by PyTorch, and 85.86 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
[rank4]: Traceback (most recent call last):
[rank4]:   File "<frozen runpy>", line 198, in _run_module_as_main
[rank4]:   File "<frozen runpy>", line 88, in _run_code
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 121, in <module>
[rank4]:     fire.Fire(do_cli)
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 135, in Fire
[rank4]:     component_trace = _Fire(component, args, parsed_flag_args, context, name)
[rank4]:                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 468, in _Fire
[rank4]:     component, remaining_args = _CallAndUpdateTrace(
[rank4]:                                 ^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
[rank4]:     component = fn(*varargs, **kwargs)
[rank4]:                 ^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 88, in do_cli
[rank4]:     return do_train(parsed_cfg, parsed_cli_args)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 45, in do_train
[rank4]:     model, tokenizer, trainer = train(cfg=cfg, dataset_meta=dataset_meta)
[rank4]:                                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 584, in train
[rank4]:     execute_training(cfg, trainer, resume_from_checkpoint)
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 197, in execute_training
[rank4]:     trainer.train(resume_from_checkpoint=resume_from_checkpoint)
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2224, in train
[rank4]:     return inner_training_loop(
[rank4]:            ^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2561, in _inner_training_loop
[rank4]:     tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
[rank4]:                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/mixins/activation_checkpointing.py", line 46, in training_step
[rank4]:     return super().training_step(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3854, in training_step
[rank4]:     loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/base.py", line 367, in compute_loss
[rank4]:     return super().compute_loss(
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3936, in compute_loss
[rank4]:     outputs = model(**inputs)
[rank4]:               ^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank4]:     return self._call_impl(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank4]:     return forward_call(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1648, in forward
[rank4]:     else self._run_ddp_forward(*inputs, **kwargs)
[rank4]:          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1474, in _run_ddp_forward
[rank4]:     return self.module(*inputs, **kwargs)  # type: ignore[index]
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank4]:     return self._call_impl(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank4]:     return forward_call(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 818, in forward
[rank4]:     return model_forward(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 806, in __call__
[rank4]:     return convert_to_fp32(self.model_forward(*args, **kwargs))
[rank4]:                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py", line 44, in decorate_autocast
[rank4]:     return func(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/cut_cross_entropy/transformers/llama.py", line 52, in cce_forward
[rank4]:     outputs: BaseModelOutputWithPast = self.model(
[rank4]:                                        ^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank4]:     return self._call_impl(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank4]:     return forward_call(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/generic.py", line 927, in wrapper
[rank4]:     outputs = func(self, *args, **kwargs)
[rank4]:               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 652, in forward
[rank4]:     hidden_states = decoder_layer(
[rank4]:                     ^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/modeling_layers.py", line 94, in __call__
[rank4]:     return super().__call__(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank4]:     return self._call_impl(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank4]:     return forward_call(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank4]:     return func(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 556, in forward
[rank4]:     hidden_states = self.conv(
[rank4]:                     ^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank4]:     return self._call_impl(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank4]:     return forward_call(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank4]:     return func(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 517, in forward
[rank4]:     return self.slow_forward(hidden_states, past_key_values, cache_position, attention_mask)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank4]:     return func(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 500, in slow_forward
[rank4]:     conv_out = self.conv(Bx)[..., :seqlen]
[rank4]:                ^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank4]:     return self._call_impl(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank4]:     return forward_call(*args, **kwargs)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 371, in forward
[rank4]:     return self._conv_forward(input, self.weight, self.bias)
[rank4]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank4]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 366, in _conv_forward
[rank4]:     return F.conv1d(
[rank4]:            ^^^^^^^^^
[rank4]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 272.00 MiB. GPU 4 has a total capacity of 79.25 GiB of which 160.94 MiB is free. Including non-PyTorch memory, this process has 79.09 GiB memory in use. Of the allocated memory 77.68 GiB is allocated by PyTorch, and 85.86 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
[rank3]: Traceback (most recent call last):
[rank3]:   File "<frozen runpy>", line 198, in _run_module_as_main
[rank3]:   File "<frozen runpy>", line 88, in _run_code
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 121, in <module>
[rank3]:     fire.Fire(do_cli)
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 135, in Fire
[rank3]:     component_trace = _Fire(component, args, parsed_flag_args, context, name)
[rank3]:                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 468, in _Fire
[rank3]:     component, remaining_args = _CallAndUpdateTrace(
[rank3]:                                 ^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
[rank3]:     component = fn(*varargs, **kwargs)
[rank3]:                 ^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 88, in do_cli
[rank3]:     return do_train(parsed_cfg, parsed_cli_args)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 45, in do_train
[rank3]:     model, tokenizer, trainer = train(cfg=cfg, dataset_meta=dataset_meta)
[rank3]:                                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 584, in train
[rank3]:     execute_training(cfg, trainer, resume_from_checkpoint)
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 197, in execute_training
[rank3]:     trainer.train(resume_from_checkpoint=resume_from_checkpoint)
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2224, in train
[rank3]:     return inner_training_loop(
[rank3]:            ^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2561, in _inner_training_loop
[rank3]:     tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
[rank3]:                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/mixins/activation_checkpointing.py", line 46, in training_step
[rank3]:     return super().training_step(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3854, in training_step
[rank3]:     loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/base.py", line 367, in compute_loss
[rank3]:     return super().compute_loss(
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3936, in compute_loss
[rank3]:     outputs = model(**inputs)
[rank3]:               ^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank3]:     return self._call_impl(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank3]:     return forward_call(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1648, in forward
[rank3]:     else self._run_ddp_forward(*inputs, **kwargs)
[rank3]:          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1474, in _run_ddp_forward
[rank3]:     return self.module(*inputs, **kwargs)  # type: ignore[index]
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank3]:     return self._call_impl(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank3]:     return forward_call(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 818, in forward
[rank3]:     return model_forward(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 806, in __call__
[rank3]:     return convert_to_fp32(self.model_forward(*args, **kwargs))
[rank3]:                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py", line 44, in decorate_autocast
[rank3]:     return func(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/cut_cross_entropy/transformers/llama.py", line 52, in cce_forward
[rank3]:     outputs: BaseModelOutputWithPast = self.model(
[rank3]:                                        ^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank3]:     return self._call_impl(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank3]:     return forward_call(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/generic.py", line 927, in wrapper
[rank3]:     outputs = func(self, *args, **kwargs)
[rank3]:               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 652, in forward
[rank3]:     hidden_states = decoder_layer(
[rank3]:                     ^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/modeling_layers.py", line 94, in __call__
[rank3]:     return super().__call__(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank3]:     return self._call_impl(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank3]:     return forward_call(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank3]:     return func(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 556, in forward
[rank3]:     hidden_states = self.conv(
[rank3]:                     ^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank3]:     return self._call_impl(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank3]:     return forward_call(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank3]:     return func(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 517, in forward
[rank3]:     return self.slow_forward(hidden_states, past_key_values, cache_position, attention_mask)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank3]:     return func(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 500, in slow_forward
[rank3]:     conv_out = self.conv(Bx)[..., :seqlen]
[rank3]:                ^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank3]:     return self._call_impl(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank3]:     return forward_call(*args, **kwargs)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 371, in forward
[rank3]:     return self._conv_forward(input, self.weight, self.bias)
[rank3]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank3]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 366, in _conv_forward
[rank3]:     return F.conv1d(
[rank3]:            ^^^^^^^^^
[rank3]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 272.00 MiB. GPU 3 has a total capacity of 79.25 GiB of which 160.94 MiB is free. Including non-PyTorch memory, this process has 79.09 GiB memory in use. Of the allocated memory 77.68 GiB is allocated by PyTorch, and 85.86 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
[rank6]: Traceback (most recent call last):
[rank6]:   File "<frozen runpy>", line 198, in _run_module_as_main
[rank6]:   File "<frozen runpy>", line 88, in _run_code
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 121, in <module>
[rank6]:     fire.Fire(do_cli)
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 135, in Fire
[rank6]:     component_trace = _Fire(component, args, parsed_flag_args, context, name)
[rank6]:                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 468, in _Fire
[rank6]:     component, remaining_args = _CallAndUpdateTrace(
[rank6]:                                 ^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
[rank6]:     component = fn(*varargs, **kwargs)
[rank6]:                 ^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 88, in do_cli
[rank6]:     return do_train(parsed_cfg, parsed_cli_args)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 45, in do_train
[rank6]:     model, tokenizer, trainer = train(cfg=cfg, dataset_meta=dataset_meta)
[rank6]:                                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 584, in train
[rank6]:     execute_training(cfg, trainer, resume_from_checkpoint)
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 197, in execute_training
[rank6]:     trainer.train(resume_from_checkpoint=resume_from_checkpoint)
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2224, in train
[rank6]:     return inner_training_loop(
[rank6]:            ^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2561, in _inner_training_loop
[rank6]:     tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
[rank6]:                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/mixins/activation_checkpointing.py", line 46, in training_step
[rank6]:     return super().training_step(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3854, in training_step
[rank6]:     loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/base.py", line 367, in compute_loss
[rank6]:     return super().compute_loss(
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3936, in compute_loss
[rank6]:     outputs = model(**inputs)
[rank6]:               ^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank6]:     return self._call_impl(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank6]:     return forward_call(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1648, in forward
[rank6]:     else self._run_ddp_forward(*inputs, **kwargs)
[rank6]:          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1474, in _run_ddp_forward
[rank6]:     return self.module(*inputs, **kwargs)  # type: ignore[index]
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank6]:     return self._call_impl(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank6]:     return forward_call(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 818, in forward
[rank6]:     return model_forward(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 806, in __call__
[rank6]:     return convert_to_fp32(self.model_forward(*args, **kwargs))
[rank6]:                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py", line 44, in decorate_autocast
[rank6]:     return func(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/cut_cross_entropy/transformers/llama.py", line 52, in cce_forward
[rank6]:     outputs: BaseModelOutputWithPast = self.model(
[rank6]:                                        ^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank6]:     return self._call_impl(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank6]:     return forward_call(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/generic.py", line 927, in wrapper
[rank6]:     outputs = func(self, *args, **kwargs)
[rank6]:               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 652, in forward
[rank6]:     hidden_states = decoder_layer(
[rank6]:                     ^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/modeling_layers.py", line 94, in __call__
[rank6]:     return super().__call__(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank6]:     return self._call_impl(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank6]:     return forward_call(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank6]:     return func(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 556, in forward
[rank6]:     hidden_states = self.conv(
[rank6]:                     ^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank6]:     return self._call_impl(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank6]:     return forward_call(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank6]:     return func(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 517, in forward
[rank6]:     return self.slow_forward(hidden_states, past_key_values, cache_position, attention_mask)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank6]:     return func(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 500, in slow_forward
[rank6]:     conv_out = self.conv(Bx)[..., :seqlen]
[rank6]:                ^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank6]:     return self._call_impl(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank6]:     return forward_call(*args, **kwargs)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 371, in forward
[rank6]:     return self._conv_forward(input, self.weight, self.bias)
[rank6]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank6]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 366, in _conv_forward
[rank6]:     return F.conv1d(
[rank6]:            ^^^^^^^^^
[rank6]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 272.00 MiB. GPU 6 has a total capacity of 79.25 GiB of which 160.94 MiB is free. Including non-PyTorch memory, this process has 79.09 GiB memory in use. Of the allocated memory 77.68 GiB is allocated by PyTorch, and 85.86 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
[rank7]: Traceback (most recent call last):
[rank7]:   File "<frozen runpy>", line 198, in _run_module_as_main
[rank7]:   File "<frozen runpy>", line 88, in _run_code
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 121, in <module>
[rank7]:     fire.Fire(do_cli)
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 135, in Fire
[rank7]:     component_trace = _Fire(component, args, parsed_flag_args, context, name)
[rank7]:                       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 468, in _Fire
[rank7]:     component, remaining_args = _CallAndUpdateTrace(
[rank7]:                                 ^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/fire/core.py", line 684, in _CallAndUpdateTrace
[rank7]:     component = fn(*varargs, **kwargs)
[rank7]:                 ^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 88, in do_cli
[rank7]:     return do_train(parsed_cfg, parsed_cli_args)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/cli/train.py", line 45, in do_train
[rank7]:     model, tokenizer, trainer = train(cfg=cfg, dataset_meta=dataset_meta)
[rank7]:                                 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 584, in train
[rank7]:     execute_training(cfg, trainer, resume_from_checkpoint)
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/train.py", line 197, in execute_training
[rank7]:     trainer.train(resume_from_checkpoint=resume_from_checkpoint)
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2224, in train
[rank7]:     return inner_training_loop(
[rank7]:            ^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 2561, in _inner_training_loop
[rank7]:     tr_loss_step = self.training_step(model, inputs, num_items_in_batch)
[rank7]:                    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/mixins/activation_checkpointing.py", line 46, in training_step
[rank7]:     return super().training_step(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3854, in training_step
[rank7]:     loss = self.compute_loss(model, inputs, num_items_in_batch=num_items_in_batch)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/axolotl/core/trainers/base.py", line 367, in compute_loss
[rank7]:     return super().compute_loss(
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/trainer.py", line 3936, in compute_loss
[rank7]:     outputs = model(**inputs)
[rank7]:               ^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank7]:     return self._call_impl(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank7]:     return forward_call(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1648, in forward
[rank7]:     else self._run_ddp_forward(*inputs, **kwargs)
[rank7]:          ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/parallel/distributed.py", line 1474, in _run_ddp_forward
[rank7]:     return self.module(*inputs, **kwargs)  # type: ignore[index]
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank7]:     return self._call_impl(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank7]:     return forward_call(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 818, in forward
[rank7]:     return model_forward(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/accelerate/utils/operations.py", line 806, in __call__
[rank7]:     return convert_to_fp32(self.model_forward(*args, **kwargs))
[rank7]:                            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/amp/autocast_mode.py", line 44, in decorate_autocast
[rank7]:     return func(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/cut_cross_entropy/transformers/llama.py", line 52, in cce_forward
[rank7]:     outputs: BaseModelOutputWithPast = self.model(
[rank7]:                                        ^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank7]:     return self._call_impl(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank7]:     return forward_call(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/generic.py", line 927, in wrapper
[rank7]:     outputs = func(self, *args, **kwargs)
[rank7]:               ^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 652, in forward
[rank7]:     hidden_states = decoder_layer(
[rank7]:                     ^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/modeling_layers.py", line 94, in __call__
[rank7]:     return super().__call__(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank7]:     return self._call_impl(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank7]:     return forward_call(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank7]:     return func(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 556, in forward
[rank7]:     hidden_states = self.conv(
[rank7]:                     ^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank7]:     return self._call_impl(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank7]:     return forward_call(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank7]:     return func(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 517, in forward
[rank7]:     return self.slow_forward(hidden_states, past_key_values, cache_position, attention_mask)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/utils/deprecation.py", line 172, in wrapped_func
[rank7]:     return func(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/transformers/models/lfm2/modeling_lfm2.py", line 500, in slow_forward
[rank7]:     conv_out = self.conv(Bx)[..., :seqlen]
[rank7]:                ^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1773, in _wrapped_call_impl
[rank7]:     return self._call_impl(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/module.py", line 1784, in _call_impl
[rank7]:     return forward_call(*args, **kwargs)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 371, in forward
[rank7]:     return self._conv_forward(input, self.weight, self.bias)
[rank7]:            ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
[rank7]:   File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/nn/modules/conv.py", line 366, in _conv_forward
[rank7]:     return F.conv1d(
[rank7]:            ^^^^^^^^^
[rank7]: torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 272.00 MiB. GPU 7 has a total capacity of 79.25 GiB of which 160.94 MiB is free. Including non-PyTorch memory, this process has 79.09 GiB memory in use. Of the allocated memory 77.68 GiB is allocated by PyTorch, and 85.86 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
Exception in thread Thread-8 (_pin_memory_loop):
Traceback (most recent call last):
  File "/usr/lib/python3.12/threading.py", line 1073, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.12/threading.py", line 1010, in run
    self._target(*self._args, **self._kwargs)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 61, in _pin_memory_loop
    do_one_step()
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 37, in do_one_step
    r = in_queue.get(timeout=MP_STATUS_CHECK_INTERVAL)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/queues.py", line 122, in get
    return _ForkingPickler.loads(res)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/multiprocessing/reductions.py", line 541, in rebuild_storage_fd
    fd = df.detach()
         ^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 57, in detach
    with _resource_sharer.get_connection(self._id) as conn:
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 86, in get_connection
    c = Client(address, authkey=process.current_process().authkey)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 526, in Client
    deliver_challenge(c, authkey)
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 939, in deliver_challenge
    response = connection.recv_bytes(256)        # reject large message
               ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 216, in recv_bytes
    buf = self._recv_bytes(maxlength)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 430, in _recv_bytes
    buf = self._recv(4)
          ^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 395, in _recv
    chunk = read(handle, remaining)
            ^^^^^^^^^^^^^^^^^^^^^^^
ConnectionResetError: [Errno 104] Connection reset by peer
Exception in thread Thread-20 (_pin_memory_loop):
Traceback (most recent call last):
  File "/usr/lib/python3.12/threading.py", line 1073, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.12/threading.py", line 1010, in run
    self._target(*self._args, **self._kwargs)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 61, in _pin_memory_loop
    do_one_step()
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 37, in do_one_step
    r = in_queue.get(timeout=MP_STATUS_CHECK_INTERVAL)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/queues.py", line 122, in get
    return _ForkingPickler.loads(res)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/multiprocessing/reductions.py", line 541, in rebuild_storage_fd
    fd = df.detach()
         ^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 57, in detach
    with _resource_sharer.get_connection(self._id) as conn:
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 86, in get_connection
    c = Client(address, authkey=process.current_process().authkey)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 525, in Client
    answer_challenge(c, authkey)
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 962, in answer_challenge
    response = connection.recv_bytes(256)        # reject large message
               ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 216, in recv_bytes
    buf = self._recv_bytes(maxlength)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 430, in _recv_bytes
    buf = self._recv(4)
          ^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 395, in _recv
    chunk = read(handle, remaining)
            ^^^^^^^^^^^^^^^^^^^^^^^
ConnectionResetError: [Errno 104] Connection reset by peer
Exception in thread Thread-8 (_pin_memory_loop):
Traceback (most recent call last):
  File "/usr/lib/python3.12/threading.py", line 1073, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.12/threading.py", line 1010, in run
    self._target(*self._args, **self._kwargs)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 61, in _pin_memory_loop
    do_one_step()
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 37, in do_one_step
    r = in_queue.get(timeout=MP_STATUS_CHECK_INTERVAL)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/queues.py", line 122, in get
    return _ForkingPickler.loads(res)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/multiprocessing/reductions.py", line 541, in rebuild_storage_fd
    fd = df.detach()
         ^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 57, in detach
    with _resource_sharer.get_connection(self._id) as conn:
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 86, in get_connection
    c = Client(address, authkey=process.current_process().authkey)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 525, in Client
    answer_challenge(c, authkey)
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 962, in answer_challenge
    response = connection.recv_bytes(256)        # reject large message
               ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 216, in recv_bytes
    buf = self._recv_bytes(maxlength)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 430, in _recv_bytes
    buf = self._recv(4)
          ^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 395, in _recv
    chunk = read(handle, remaining)
            ^^^^^^^^^^^^^^^^^^^^^^^
ConnectionResetError: [Errno 104] Connection reset by peer
Exception in thread Thread-8 (_pin_memory_loop):
Traceback (most recent call last):
  File "/usr/lib/python3.12/threading.py", line 1073, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.12/threading.py", line 1010, in run
    self._target(*self._args, **self._kwargs)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 61, in _pin_memory_loop
    do_one_step()
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 37, in do_one_step
    r = in_queue.get(timeout=MP_STATUS_CHECK_INTERVAL)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/queues.py", line 122, in get
    return _ForkingPickler.loads(res)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/multiprocessing/reductions.py", line 541, in rebuild_storage_fd
    fd = df.detach()
         ^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 57, in detach
    with _resource_sharer.get_connection(self._id) as conn:
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 86, in get_connection
    c = Client(address, authkey=process.current_process().authkey)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 525, in Client
    answer_challenge(c, authkey)
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 953, in answer_challenge
    message = connection.recv_bytes(256)         # reject large message
              ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 216, in recv_bytes
    buf = self._recv_bytes(maxlength)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 430, in _recv_bytes
    buf = self._recv(4)
          ^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 399, in _recv
    raise EOFError
EOFError
Exception in thread Thread-8 (_pin_memory_loop):
Traceback (most recent call last):
  File "/usr/lib/python3.12/threading.py", line 1073, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.12/threading.py", line 1010, in run
    self._target(*self._args, **self._kwargs)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 61, in _pin_memory_loop
    do_one_step()
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 37, in do_one_step
    r = in_queue.get(timeout=MP_STATUS_CHECK_INTERVAL)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/queues.py", line 122, in get
    return _ForkingPickler.loads(res)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/multiprocessing/reductions.py", line 541, in rebuild_storage_fd
    fd = df.detach()
         ^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 57, in detach
    with _resource_sharer.get_connection(self._id) as conn:
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 86, in get_connection
    c = Client(address, authkey=process.current_process().authkey)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 525, in Client
    answer_challenge(c, authkey)
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 953, in answer_challenge
    message = connection.recv_bytes(256)         # reject large message
              ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 216, in recv_bytes
    buf = self._recv_bytes(maxlength)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 430, in _recv_bytes
    buf = self._recv(4)
          ^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 399, in _recv
    raise EOFError
EOFError
Exception in thread Thread-8 (_pin_memory_loop):
Traceback (most recent call last):
  File "/usr/lib/python3.12/threading.py", line 1073, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.12/threading.py", line 1010, in run
    self._target(*self._args, **self._kwargs)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 61, in _pin_memory_loop
    do_one_step()
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 37, in do_one_step
    r = in_queue.get(timeout=MP_STATUS_CHECK_INTERVAL)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/queues.py", line 122, in get
    return _ForkingPickler.loads(res)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/multiprocessing/reductions.py", line 541, in rebuild_storage_fd
    fd = df.detach()
         ^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 57, in detach
    with _resource_sharer.get_connection(self._id) as conn:
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 86, in get_connection
    c = Client(address, authkey=process.current_process().authkey)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 525, in Client
    answer_challenge(c, authkey)
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 962, in answer_challenge
    response = connection.recv_bytes(256)        # reject large message
               ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 216, in recv_bytes
    buf = self._recv_bytes(maxlength)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 430, in _recv_bytes
    buf = self._recv(4)
          ^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 399, in _recv
    raise EOFError
EOFError
Exception in thread Thread-8 (_pin_memory_loop):
Traceback (most recent call last):
  File "/usr/lib/python3.12/threading.py", line 1073, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.12/threading.py", line 1010, in run
    self._target(*self._args, **self._kwargs)
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 61, in _pin_memory_loop
    do_one_step()
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/utils/data/_utils/pin_memory.py", line 37, in do_one_step
    r = in_queue.get(timeout=MP_STATUS_CHECK_INTERVAL)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/queues.py", line 122, in get
    return _ForkingPickler.loads(res)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/multiprocessing/reductions.py", line 541, in rebuild_storage_fd
    fd = df.detach()
         ^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 57, in detach
    with _resource_sharer.get_connection(self._id) as conn:
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/resource_sharer.py", line 86, in get_connection
    c = Client(address, authkey=process.current_process().authkey)
        ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 525, in Client
    answer_challenge(c, authkey)
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 962, in answer_challenge
    response = connection.recv_bytes(256)        # reject large message
               ^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 216, in recv_bytes
    buf = self._recv_bytes(maxlength)
          ^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 430, in _recv_bytes
    buf = self._recv(4)
          ^^^^^^^^^^^^^
  File "/usr/lib/python3.12/multiprocessing/connection.py", line 395, in _recv
    chunk = read(handle, remaining)
            ^^^^^^^^^^^^^^^^^^^^^^^
ConnectionResetError: [Errno 104] Connection reset by peer
[2025-10-12 02:54:14,858] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:1386789] baseline 0.000GB ()
[2025-10-12 02:54:14,858] [INFO] [axolotl.cli.config.load_cfg:248] [PID:1386789] config:
{
  "activation_offloading": false,
  "auto_resume_from_checkpoints": true,
  "axolotl_config_path": "train_350m_multitask.yaml",
  "base_model": "/home/ubuntu/axolotl/out-350m-audio-pt",
  "base_model_config": "/home/ubuntu/axolotl/out-350m-audio-pt",
  "batch_size": 256,
  "bf16": true,
  "bfloat16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_80",
    "fp8": false,
    "n_gpu": 8,
    "n_node": 1
  },
  "context_parallel_size": 1,
  "cut_cross_entropy": true,
  "dataloader_num_workers": 8,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_prepared_path": "/home/ubuntu/axolotl/preprocessed-data-350m-multitask-ft",
  "dataset_processes": 240,
  "datasets": [
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-s2s-jaen.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-s2s-enja.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-asr-ja.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-tts-ja.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-asr-en.jsonl",
      "trust_remote_code": false
    },
    {
      "ds_type": "json",
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "/home/ubuntu/axolotl/hackathon-train_data-tts-en.jsonl",
      "trust_remote_code": false
    }
  ],
  "ddp": true,
  "device": "cuda:0",
  "device_map": {
    "": 0
  },
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "env_capabilities": {
    "torch_version": "2.8.0"
  },
  "eval_batch_size": 8,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_sample_packing": false,
  "eval_steps": 100,
  "eval_strategy": "steps",
  "eval_table_size": 0,
  "experimental_skip_move_to_device": true,
  "flash_attention": true,
  "fp16": false,
  "gradient_accumulation_steps": 1,
  "gradient_checkpointing": true,
  "gradient_checkpointing_kwargs": {
    "use_reentrant": true
  },
  "group_by_length": false,
  "include_tkps": true,
  "is_falcon_derived_model": false,
  "is_llama_derived_model": false,
  "is_mistral_derived_model": false,
  "learning_rate": 5e-05,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": false,
  "load_in_8bit": false,
  "local_rank": 0,
  "logging_steps": 1,
  "loraplus_lr_embedding": 1e-06,
  "lr_scheduler": "cosine",
  "max_grad_norm": 1.0,
  "mean_resizing_embeddings": false,
  "micro_batch_size": 32,
  "model_config_type": "lfm2",
  "num_epochs": 3.0,
  "optimizer": "adamw_torch_fused",
  "output_dir": "/home/ubuntu/axolotl/out-350m-multitask-ft",
  "pad_to_sequence_len": true,
  "plugins": [
    "axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin"
  ],
  "pretrain_multipack_attn": true,
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "remove_unused_columns": false,
  "resources_per_worker": {
    "GPU": 1
  },
  "sample_packing": true,
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "save_steps": 100,
  "save_strategy": "steps",
  "sequence_len": 4096,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": false,
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tf32": true,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "/home/ubuntu/axolotl/out-350m-audio-pt",
  "tokenizer_save_jinja_files": true,
  "tokenizer_type": "AutoTokenizer",
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": false,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "type_of_model": "AutoModelForCausalLM",
  "use_ray": false,
  "use_wandb": true,
  "val_set_size": 0.01,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "wandb_entity": "aratako-lm",
  "wandb_name": "350m-multitask-ft-run1",
  "wandb_project": "liquidai-hackathon",
  "warmup_ratio": 0.1,
  "weight_decay": 0.01,
  "world_size": 8
}
Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 4054.65it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 3596.94it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 3185.78it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 3871.47it/s][2025-10-12 02:55:31,480] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:1386789] EOS: 7 / <|im_end|>
[2025-10-12 02:55:31,480] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:1386789] BOS: 1 / <|startoftext|>
[2025-10-12 02:55:31,480] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:1386789] PAD: 0 / <|pad|>
[2025-10-12 02:55:31,480] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:1386789] UNK: None / None
[2025-10-12 02:55:31,482] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:470] [PID:1386789] Loading prepared dataset from disk at /home/ubuntu/axolotl/preprocessed-data-350m-multitask-ft/28514821cb56568b4099ac280cc69eed...
Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 4825.62it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 5107.50it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 3366.29it/s]Loading dataset from disk:   0%|                                                                                          | 0/240 [00:00<?, ?it/s]Loading dataset from disk: 100%|██████████████████████████████████████████████████████████████████████████████| 240/240 [00:00<00:00, 3152.97it/s]
[2025-10-12 02:55:38,868] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:1386789] total_num_tokens: 1_001_051_686


[2025-10-12 02:55:53,242] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:1386789] `total_supervised_tokens: 482_472_250`


[2025-10-12 02:56:15,682] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1386789] generate_batches time: 2.8258676528930664

[2025-10-12 02:56:27,232] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386794] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:56:27,232] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386793] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:56:27,234] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386795] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:56:27,238] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386792] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:56:27,238] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386796] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:56:27,239] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386791] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:56:27,239] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386790] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:56:27,249] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1386789] gather_len_batches: [7648, 7647, 7645, 7647, 7647, 7649, 7648, 7647]
[2025-10-12 02:56:27,250] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386789] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 02:56:27,806] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:483] [PID:1386789] data_loader_len: 955
[2025-10-12 02:56:27,827] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:499] [PID:1386789] sample_packing_eff_est across ranks: [0.9988776445388794, 0.9984858632087708, 0.9986163973808289, 0.9988776445388794, 0.9987469911575317, 0.9987469911575317, 0.9986163973808289, 0.9984858632087708]
[2025-10-12 02:56:27,828] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:511] [PID:1386789] sample_packing_eff_est: 1.0
[2025-10-12 02:56:27,828] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:1386789] total_num_steps: 2865
[2025-10-12 02:56:27,848] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:1386789] Maximum number of steps set at 2865
[2025-10-12 02:56:27,886] [DEBUG] [axolotl.train.setup_model_and_tokenizer:65] [PID:1386789] Loading tokenizer... /home/ubuntu/axolotl/out-350m-audio-pt
[2025-10-12 02:57:13,462] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:278] [PID:1386789] EOS: 7 / <|im_end|>
[2025-10-12 02:57:13,462] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:279] [PID:1386789] BOS: 1 / <|startoftext|>
[2025-10-12 02:57:13,462] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:1386789] PAD: 0 / <|pad|>
[2025-10-12 02:57:13,463] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:1386789] UNK: None / None
[2025-10-12 02:57:13,463] [DEBUG] [axolotl.train.setup_model_and_tokenizer:74] [PID:1386789] Loading model
[2025-10-12 02:57:13,475] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:1386789] Patched Trainer.evaluation_loop with nanmean loss calculation
[2025-10-12 02:57:13,476] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:1386789] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
[2025-10-12 02:57:13,476] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:301] [PID:1386789] Applying multipack dataloader patch for sample packing...
[2025-10-12 02:57:13,888] [INFO] [axolotl.integrations.cut_cross_entropy.pre_model_load:94] [PID:1386789] Applying Cut Cross Entropy to model type: lfm2
[2025-10-12 02:57:14,225] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:345] [PID:1386789] Converting modules to torch.bfloat16
[2025-10-12 02:57:14,228] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:1386789] Memory usage after model load 1.285GB (+1.285GB allocated, +1.303GB reserved)
[2025-10-12 02:57:17,783] [INFO] [axolotl.train.save_initial_configs:402] [PID:1386789] Pre-saving tokenizer to /home/ubuntu/axolotl/out-350m-multitask-ft...
[2025-10-12 02:57:18,497] [INFO] [axolotl.train.save_initial_configs:407] [PID:1386789] Pre-saving model config to /home/ubuntu/axolotl/out-350m-multitask-ft...
[2025-10-12 02:57:18,500] [INFO] [axolotl.train.execute_training:196] [PID:1386789] Starting trainer...
[2025-10-12 03:04:21,879] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386790] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 03:04:22,505] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386795] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 03:04:23,556] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:1386789] generate_batches time: 3.02742075920105
[2025-10-12 03:04:28,898] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386794] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 03:04:50,921] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386796] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 03:05:22,805] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386793] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 03:08:17,541] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386791] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 03:08:50,888] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386792] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[2025-10-12 03:08:50,889] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:1386789] gather_len_batches: [7647, 7647, 7647, 7647, 7647, 7647, 7647, 7647]
[2025-10-12 03:08:50,891] [WARNING] [py.warnings._showwarnmsg:110] [PID:1386789] /home/ubuntu/axolotl/venv/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:4807: UserWarning: No device id is provided via `init_process_group` or `barrier `. Using the current device set by the user. 
  warnings.warn(  # warn only once

[34m[1mwandb[0m: Currently logged in as: [33maratako1998[0m ([33maratako-lm[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: [38;5;178m⢿[0m Waiting for wandb.init()...
[Am[2K[34m[1mwandb[0m: Tracking run with wandb version 0.22.2
[34m[1mwandb[0m: Run data is saved locally in [35m[1m/home/ubuntu/axolotl/wandb/run-20251012_030851-agrcquxp[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
[34m[1mwandb[0m: Syncing run [33m350m-multitask-ft-run1[0m
[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/aratako-lm/liquidai-hackathon[0m
[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/aratako-lm/liquidai-hackathon/runs/agrcquxp[0m
[34m[1mwandb[0m: Detected [huggingface_hub.inference] in use.
[34m[1mwandb[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
[34m[1mwandb[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/
[34m[1mwandb[0m: [33mWARNING[0m Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
[2025-10-12 03:08:52,307] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:1386789] The Axolotl config has been saved to the WandB run under files.
  0%|                                                                                                                    | 0/2865 [00:00<?, ?it/s][2025-10-12 03:08:52,317] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:00<01:05,  2.78it/s][A
  2%|█▊                                                                                                           | 3/185 [00:01<01:06,  2.74it/s][A
  2%|██▎                                                                                                          | 4/185 [00:01<01:05,  2.77it/s][A
  3%|██▉                                                                                                          | 5/185 [00:01<01:05,  2.76it/s][A
  3%|███▌                                                                                                         | 6/185 [00:02<01:04,  2.76it/s][A
  4%|████                                                                                                         | 7/185 [00:02<01:04,  2.77it/s][A
  4%|████▋                                                                                                        | 8/185 [00:02<01:03,  2.81it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:03<01:02,  2.80it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:03<01:01,  2.84it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:03<01:03,  2.76it/s][A
  6%|███████                                                                                                     | 12/185 [00:04<01:00,  2.85it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:04<01:02,  2.77it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:05<01:00,  2.85it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:05<01:01,  2.75it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:05<00:59,  2.82it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:06<01:00,  2.77it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:06<01:01,  2.73it/s][A
 10%|███████████                                                                                                 | 19/185 [00:06<01:00,  2.76it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:07<00:59,  2.76it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:07<01:00,  2.73it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:07<00:59,  2.75it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:08<00:58,  2.78it/s][A
 13%|██████████████                                                                                              | 24/185 [00:08<00:58,  2.74it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:09<00:57,  2.79it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:09<00:58,  2.73it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:09<00:57,  2.76it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:10<00:55,  2.85it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:10<00:56,  2.75it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:10<00:56,  2.73it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:11<00:55,  2.78it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:11<00:56,  2.71it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:11<00:54,  2.80it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:12<00:55,  2.73it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:12<00:55,  2.72it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:12<00:51,  2.89it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:13<00:52,  2.83it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:13<00:54,  2.69it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:14<00:53,  2.74it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:14<00:52,  2.74it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:14<00:52,  2.76it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:15<00:52,  2.74it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:15<00:52,  2.73it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:15<00:51,  2.76it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:16<00:51,  2.70it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:16<00:50,  2.74it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:16<00:49,  2.76it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:17<00:49,  2.77it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:17<00:48,  2.82it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:18<00:48,  2.79it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:18<00:47,  2.82it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:18<00:47,  2.81it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:19<00:47,  2.78it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:19<00:47,  2.77it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:19<00:47,  2.75it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:20<00:47,  2.74it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:20<00:46,  2.75it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:20<00:45,  2.76it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:21<00:44,  2.80it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:21<00:45,  2.75it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:22<00:43,  2.85it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:22<00:42,  2.90it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:22<00:44,  2.72it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:23<00:44,  2.73it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:23<00:43,  2.75it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:23<00:42,  2.77it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:24<00:42,  2.76it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:24<00:42,  2.77it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:24<00:41,  2.77it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:25<00:41,  2.77it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:25<00:40,  2.80it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:25<00:39,  2.86it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:26<00:40,  2.76it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:26<00:40,  2.74it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:27<00:39,  2.77it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:27<00:39,  2.78it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:27<00:39,  2.76it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:28<00:38,  2.77it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:28<00:36,  2.92it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:28<00:38,  2.75it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:29<00:37,  2.81it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:29<00:36,  2.80it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:29<00:35,  2.86it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:30<00:36,  2.75it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:30<00:36,  2.72it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:31<00:35,  2.75it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:31<00:34,  2.84it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:31<00:35,  2.73it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:32<00:33,  2.85it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:32<00:35,  2.71it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:32<00:33,  2.78it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:33<00:33,  2.76it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:33<00:33,  2.77it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:33<00:33,  2.72it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:34<00:32,  2.78it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:34<00:32,  2.72it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:34<00:30,  2.88it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:35<00:31,  2.73it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:35<00:31,  2.71it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:36<00:30,  2.79it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:36<00:30,  2.79it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:36<00:29,  2.80it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:37<00:30,  2.73it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:37<00:29,  2.79it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:37<00:29,  2.76it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:38<00:28,  2.77it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:38<00:28,  2.77it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:38<00:26,  2.94it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:39<00:27,  2.75it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:39<00:26,  2.85it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:40<00:26,  2.77it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:40<00:25,  2.83it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:40<00:25,  2.81it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:41<00:25,  2.80it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:41<00:26,  2.68it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:41<00:25,  2.71it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:42<00:24,  2.75it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:42<00:24,  2.78it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:42<00:24,  2.70it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:43<00:22,  2.84it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:43<00:23,  2.69it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:44<00:23,  2.70it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:44<00:22,  2.73it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:44<00:21,  2.84it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:45<00:21,  2.76it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:45<00:20,  2.82it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:45<00:20,  2.78it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:46<00:20,  2.81it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:46<00:20,  2.71it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:46<00:19,  2.78it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:47<00:19,  2.80it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:47<00:19,  2.73it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:47<00:18,  2.75it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:48<00:18,  2.78it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:48<00:17,  2.84it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:49<00:17,  2.84it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:49<00:17,  2.73it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:49<00:16,  2.81it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:50<00:16,  2.76it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:50<00:16,  2.76it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:50<00:15,  2.85it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:51<00:15,  2.76it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:51<00:15,  2.79it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:51<00:15,  2.71it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:52<00:14,  2.74it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:52<00:14,  2.76it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:53<00:13,  2.78it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:53<00:13,  2.75it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:53<00:13,  2.77it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [00:54<00:12,  2.75it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [00:54<00:12,  2.77it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [00:54<00:11,  2.79it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [00:55<00:11,  2.74it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [00:55<00:11,  2.74it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [00:55<00:11,  2.72it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [00:56<00:10,  2.76it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [00:56<00:09,  2.87it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [00:56<00:09,  2.83it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [00:57<00:09,  2.85it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [00:57<00:09,  2.74it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [00:58<00:08,  2.71it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [00:58<00:08,  2.75it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [00:58<00:07,  2.79it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [00:59<00:07,  2.78it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [00:59<00:07,  2.77it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [00:59<00:07,  2.70it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:00<00:06,  2.73it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:00<00:06,  2.75it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:00<00:05,  2.73it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:01<00:05,  2.77it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:01<00:05,  2.73it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:02<00:04,  2.73it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:02<00:04,  2.76it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:02<00:03,  2.82it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:03<00:03,  2.76it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:03<00:03,  2.79it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:03<00:02,  2.87it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:04<00:02,  2.76it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:04<00:02,  2.75it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:04<00:01,  2.78it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:05<00:01,  2.73it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:05<00:01,  2.75it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:06<00:00,  2.75it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:06<00:00,  2.79it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:07<00:00,  2.09it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.942526817321777, 'eval_runtime': 71.3294, 'eval_samples_per_second': 166.229, 'eval_steps_per_second': 2.608, 'memory/max_active (GiB)': 2.71, 'memory/max_allocated (GiB)': 2.71, 'memory/device_reserved (GiB)': 2.79, 'epoch': 0}
  0%|                                                                                                                    | 0/2865 [01:11<?, ?it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:07<00:00,  2.09it/s][A
                                                                                                                                                  [A  0%|                                                                                                         | 1/2865 [01:20<63:52:55, 80.30s/it]                                                                                                                                                  {'loss': 11.8838, 'grad_norm': 21.5, 'learning_rate': 0.0, 'memory/max_active (GiB)': 16.84, 'memory/max_allocated (GiB)': 16.84, 'memory/device_reserved (GiB)': 17.75, 'tokens_per_second_per_gpu': 126161.55, 'epoch': 0.0}
  0%|                                                                                                         | 1/2865 [01:20<63:52:55, 80.30s/it]  0%|                                                                                                         | 2/2865 [01:23<27:40:38, 34.80s/it]                                                                                                                                                  {'loss': 11.8454, 'grad_norm': 20.625, 'learning_rate': 1.7482517482517484e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22587.57, 'epoch': 0.0}
  0%|                                                                                                         | 2/2865 [01:23<27:40:38, 34.80s/it]  0%|                                                                                                         | 3/2865 [01:26<16:06:15, 20.26s/it]                                                                                                                                                  {'loss': 11.8853, 'grad_norm': 21.75, 'learning_rate': 3.496503496503497e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20477.46, 'epoch': 0.0}
  0%|                                                                                                         | 3/2865 [01:26<16:06:15, 20.26s/it]  0%|▏                                                                                                        | 4/2865 [01:29<10:40:01, 13.42s/it]                                                                                                                                                  {'loss': 11.8421, 'grad_norm': 20.0, 'learning_rate': 5.244755244755246e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20855.72, 'epoch': 0.0}
  0%|▏                                                                                                        | 4/2865 [01:29<10:40:01, 13.42s/it]  0%|▏                                                                                                         | 5/2865 [01:32<7:39:47,  9.65s/it]                                                                                                                                                  {'loss': 11.8469, 'grad_norm': 19.875, 'learning_rate': 6.993006993006994e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21425.75, 'epoch': 0.01}
  0%|▏                                                                                                         | 5/2865 [01:32<7:39:47,  9.65s/it]  0%|▏                                                                                                         | 6/2865 [01:35<5:51:12,  7.37s/it]                                                                                                                                                  {'loss': 11.8126, 'grad_norm': 20.125, 'learning_rate': 8.741258741258743e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20995.09, 'epoch': 0.01}
  0%|▏                                                                                                         | 6/2865 [01:35<5:51:12,  7.37s/it]  0%|▎                                                                                                         | 7/2865 [01:38<4:42:19,  5.93s/it]                                                                                                                                                  {'loss': 11.8133, 'grad_norm': 20.0, 'learning_rate': 1.0489510489510491e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21586.96, 'epoch': 0.01}
  0%|▎                                                                                                         | 7/2865 [01:38<4:42:19,  5.93s/it]  0%|▎                                                                                                         | 8/2865 [01:40<3:57:19,  4.98s/it]                                                                                                                                                  {'loss': 11.8007, 'grad_norm': 20.5, 'learning_rate': 1.2237762237762238e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22583.89, 'epoch': 0.01}
  0%|▎                                                                                                         | 8/2865 [01:40<3:57:19,  4.98s/it]  0%|▎                                                                                                         | 9/2865 [01:43<3:26:56,  4.35s/it]                                                                                                                                                  {'loss': 11.8073, 'grad_norm': 19.875, 'learning_rate': 1.3986013986013987e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21766.61, 'epoch': 0.01}
  0%|▎                                                                                                         | 9/2865 [01:43<3:26:56,  4.35s/it]  0%|▎                                                                                                        | 10/2865 [01:46<3:06:21,  3.92s/it]                                                                                                                                                  {'loss': 11.9315, 'grad_norm': 23.625, 'learning_rate': 1.5734265734265736e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21280.89, 'epoch': 0.01}
  0%|▎                                                                                                        | 10/2865 [01:46<3:06:21,  3.92s/it]  0%|▍                                                                                                        | 11/2865 [01:49<2:52:20,  3.62s/it]                                                                                                                                                  {'loss': 11.8338, 'grad_norm': 21.875, 'learning_rate': 1.7482517482517485e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21361.13, 'epoch': 0.01}
  0%|▍                                                                                                        | 11/2865 [01:49<2:52:20,  3.62s/it]  0%|▍                                                                                                        | 12/2865 [01:52<2:42:45,  3.42s/it]                                                                                                                                                  {'loss': 11.8072, 'grad_norm': 21.375, 'learning_rate': 1.9230769230769234e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21597.14, 'epoch': 0.01}
  0%|▍                                                                                                        | 12/2865 [01:52<2:42:45,  3.42s/it]  0%|▍                                                                                                        | 13/2865 [01:55<2:36:05,  3.28s/it]                                                                                                                                                  {'loss': 11.796, 'grad_norm': 21.5, 'learning_rate': 2.0979020979020983e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20575.85, 'epoch': 0.01}
  0%|▍                                                                                                        | 13/2865 [01:55<2:36:05,  3.28s/it]  0%|▌                                                                                                        | 14/2865 [01:58<2:31:43,  3.19s/it]                                                                                                                                                  {'loss': 11.8067, 'grad_norm': 21.625, 'learning_rate': 2.2727272727272728e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21362.62, 'epoch': 0.01}
  0%|▌                                                                                                        | 14/2865 [01:58<2:31:43,  3.19s/it]  1%|▌                                                                                                        | 15/2865 [02:01<2:28:39,  3.13s/it]                                                                                                                                                  {'loss': 11.7388, 'grad_norm': 19.875, 'learning_rate': 2.4475524475524477e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 23364.59, 'epoch': 0.02}
  1%|▌                                                                                                        | 15/2865 [02:01<2:28:39,  3.13s/it]  1%|▌                                                                                                        | 16/2865 [02:04<2:26:30,  3.09s/it]                                                                                                                                                  {'loss': 11.7286, 'grad_norm': 19.625, 'learning_rate': 2.6223776223776225e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22217.02, 'epoch': 0.02}
  1%|▌                                                                                                        | 16/2865 [02:04<2:26:30,  3.09s/it]  1%|▌                                                                                                        | 17/2865 [02:07<2:24:43,  3.05s/it]                                                                                                                                                  {'loss': 11.6247, 'grad_norm': 16.375, 'learning_rate': 2.7972027972027974e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22372.5, 'epoch': 0.02}
  1%|▌                                                                                                        | 17/2865 [02:07<2:24:43,  3.05s/it]  1%|▋                                                                                                        | 18/2865 [02:10<2:23:37,  3.03s/it]                                                                                                                                                  {'loss': 11.6666, 'grad_norm': 15.8125, 'learning_rate': 2.9720279720279723e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21009.71, 'epoch': 0.02}
  1%|▋                                                                                                        | 18/2865 [02:10<2:23:37,  3.03s/it]  1%|▋                                                                                                        | 19/2865 [02:13<2:22:56,  3.01s/it]                                                                                                                                                  {'loss': 11.6637, 'grad_norm': 16.0, 'learning_rate': 3.1468531468531472e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20551.2, 'epoch': 0.02}
  1%|▋                                                                                                        | 19/2865 [02:13<2:22:56,  3.01s/it]  1%|▋                                                                                                        | 20/2865 [02:16<2:22:32,  3.01s/it]                                                                                                                                                  {'loss': 11.6323, 'grad_norm': 14.875, 'learning_rate': 3.3216783216783217e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20421.63, 'epoch': 0.02}
  1%|▋                                                                                                        | 20/2865 [02:16<2:22:32,  3.01s/it]  1%|▊                                                                                                        | 21/2865 [02:19<2:21:47,  2.99s/it]                                                                                                                                                  {'loss': 11.5876, 'grad_norm': 12.75, 'learning_rate': 3.496503496503497e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21781.34, 'epoch': 0.02}
  1%|▊                                                                                                        | 21/2865 [02:19<2:21:47,  2.99s/it]  1%|▊                                                                                                        | 22/2865 [02:22<2:21:12,  2.98s/it]                                                                                                                                                  {'loss': 11.5432, 'grad_norm': 11.25, 'learning_rate': 3.6713286713286715e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21873.38, 'epoch': 0.02}
  1%|▊                                                                                                        | 22/2865 [02:22<2:21:12,  2.98s/it]  1%|▊                                                                                                        | 23/2865 [02:25<2:20:51,  2.97s/it]                                                                                                                                                  {'loss': 11.551, 'grad_norm': 11.5625, 'learning_rate': 3.846153846153847e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22120.83, 'epoch': 0.02}
  1%|▊                                                                                                        | 23/2865 [02:25<2:20:51,  2.97s/it]  1%|▉                                                                                                        | 24/2865 [02:28<2:20:40,  2.97s/it]                                                                                                                                                  {'loss': 11.4842, 'grad_norm': 9.9375, 'learning_rate': 4.020979020979021e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22142.01, 'epoch': 0.03}
  1%|▉                                                                                                        | 24/2865 [02:28<2:20:40,  2.97s/it]  1%|▉                                                                                                        | 25/2865 [02:31<2:20:32,  2.97s/it]                                                                                                                                                  {'loss': 11.4344, 'grad_norm': 8.875, 'learning_rate': 4.195804195804197e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21623.1, 'epoch': 0.03}
  1%|▉                                                                                                        | 25/2865 [02:31<2:20:32,  2.97s/it]  1%|▉                                                                                                        | 26/2865 [02:34<2:20:16,  2.96s/it]                                                                                                                                                  {'loss': 11.4329, 'grad_norm': 8.5625, 'learning_rate': 4.370629370629371e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22344.32, 'epoch': 0.03}
  1%|▉                                                                                                        | 26/2865 [02:34<2:20:16,  2.96s/it]  1%|▉                                                                                                        | 27/2865 [02:37<2:20:08,  2.96s/it]                                                                                                                                                  {'loss': 11.3724, 'grad_norm': 6.59375, 'learning_rate': 4.5454545454545455e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22042.19, 'epoch': 0.03}
  1%|▉                                                                                                        | 27/2865 [02:37<2:20:08,  2.96s/it]  1%|█                                                                                                        | 28/2865 [02:40<2:19:57,  2.96s/it]                                                                                                                                                  {'loss': 11.3454, 'grad_norm': 6.03125, 'learning_rate': 4.72027972027972e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21419.28, 'epoch': 0.03}
  1%|█                                                                                                        | 28/2865 [02:40<2:19:57,  2.96s/it]  1%|█                                                                                                        | 29/2865 [02:43<2:19:53,  2.96s/it]                                                                                                                                                  {'loss': 11.3187, 'grad_norm': 4.9375, 'learning_rate': 4.895104895104895e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 19140.25, 'epoch': 0.03}
  1%|█                                                                                                        | 29/2865 [02:43<2:19:53,  2.96s/it]  1%|█                                                                                                        | 30/2865 [02:46<2:19:40,  2.96s/it]                                                                                                                                                  {'loss': 11.3124, 'grad_norm': 4.34375, 'learning_rate': 5.06993006993007e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21232.21, 'epoch': 0.03}
  1%|█                                                                                                        | 30/2865 [02:46<2:19:40,  2.96s/it]  1%|█▏                                                                                                       | 31/2865 [02:49<2:19:35,  2.96s/it]                                                                                                                                                  {'loss': 11.2931, 'grad_norm': 3.328125, 'learning_rate': 5.244755244755245e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21114.16, 'epoch': 0.03}
  1%|█▏                                                                                                       | 31/2865 [02:49<2:19:35,  2.96s/it]  1%|█▏                                                                                                       | 32/2865 [02:52<2:19:21,  2.95s/it]                                                                                                                                                  {'loss': 11.2643, 'grad_norm': 3.140625, 'learning_rate': 5.419580419580419e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20670.22, 'epoch': 0.03}
  1%|█▏                                                                                                       | 32/2865 [02:52<2:19:21,  2.95s/it]  1%|█▏                                                                                                       | 33/2865 [02:55<2:19:14,  2.95s/it]                                                                                                                                                  {'loss': 11.2492, 'grad_norm': 2.546875, 'learning_rate': 5.594405594405595e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20676.02, 'epoch': 0.03}
  1%|█▏                                                                                                       | 33/2865 [02:55<2:19:14,  2.95s/it]  1%|█▏                                                                                                       | 34/2865 [02:57<2:19:17,  2.95s/it]                                                                                                                                                  {'loss': 11.2511, 'grad_norm': 2.46875, 'learning_rate': 5.76923076923077e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21250.39, 'epoch': 0.04}
  1%|█▏                                                                                                       | 34/2865 [02:57<2:19:17,  2.95s/it]  1%|█▎                                                                                                       | 35/2865 [03:00<2:19:21,  2.95s/it]                                                                                                                                                  {'loss': 11.2425, 'grad_norm': 2.109375, 'learning_rate': 5.944055944055945e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21489.41, 'epoch': 0.04}
  1%|█▎                                                                                                       | 35/2865 [03:00<2:19:21,  2.95s/it]  1%|█▎                                                                                                       | 36/2865 [03:03<2:19:21,  2.96s/it]                                                                                                                                                  {'loss': 11.2442, 'grad_norm': 2.265625, 'learning_rate': 6.1188811188811196e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21707.05, 'epoch': 0.04}
  1%|█▎                                                                                                       | 36/2865 [03:03<2:19:21,  2.96s/it]  1%|█▎                                                                                                       | 37/2865 [03:06<2:19:23,  2.96s/it]                                                                                                                                                  {'loss': 11.2371, 'grad_norm': 2.625, 'learning_rate': 6.2937062937062944e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21174.68, 'epoch': 0.04}
  1%|█▎                                                                                                       | 37/2865 [03:06<2:19:23,  2.96s/it]  1%|█▍                                                                                                       | 38/2865 [03:09<2:19:13,  2.96s/it]                                                                                                                                                  {'loss': 11.2189, 'grad_norm': 2.109375, 'learning_rate': 6.468531468531469e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20974.2, 'epoch': 0.04}
  1%|█▍                                                                                                       | 38/2865 [03:09<2:19:13,  2.96s/it]  1%|█▍                                                                                                       | 39/2865 [03:12<2:19:04,  2.95s/it]                                                                                                                                                  {'loss': 11.234, 'grad_norm': 1.640625, 'learning_rate': 6.643356643356643e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21847.38, 'epoch': 0.04}
  1%|█▍                                                                                                       | 39/2865 [03:12<2:19:04,  2.95s/it]  1%|█▍                                                                                                       | 40/2865 [03:15<2:19:01,  2.95s/it]                                                                                                                                                  {'loss': 11.2284, 'grad_norm': 1.53125, 'learning_rate': 6.818181818181818e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21850.05, 'epoch': 0.04}
  1%|█▍                                                                                                       | 40/2865 [03:15<2:19:01,  2.95s/it]  1%|█▌                                                                                                       | 41/2865 [03:18<2:19:04,  2.95s/it]                                                                                                                                                  {'loss': 11.2415, 'grad_norm': 1.84375, 'learning_rate': 6.993006993006994e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20096.03, 'epoch': 0.04}
  1%|█▌                                                                                                       | 41/2865 [03:18<2:19:04,  2.95s/it]  1%|█▌                                                                                                       | 42/2865 [03:21<2:18:55,  2.95s/it]                                                                                                                                                  {'loss': 11.2077, 'grad_norm': 1.5, 'learning_rate': 7.167832167832168e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21027.97, 'epoch': 0.04}
  1%|█▌                                                                                                       | 42/2865 [03:21<2:18:55,  2.95s/it]  2%|█▌                                                                                                       | 43/2865 [03:24<2:18:56,  2.95s/it]                                                                                                                                                  {'loss': 11.2131, 'grad_norm': 1.5625, 'learning_rate': 7.342657342657343e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21839.03, 'epoch': 0.05}
  2%|█▌                                                                                                       | 43/2865 [03:24<2:18:56,  2.95s/it]  2%|█▌                                                                                                       | 44/2865 [03:27<2:18:54,  2.95s/it]                                                                                                                                                  {'loss': 11.201, 'grad_norm': 1.828125, 'learning_rate': 7.517482517482517e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21460.46, 'epoch': 0.05}
  2%|█▌                                                                                                       | 44/2865 [03:27<2:18:54,  2.95s/it]  2%|█▋                                                                                                       | 45/2865 [03:30<2:18:49,  2.95s/it]                                                                                                                                                  {'loss': 11.2034, 'grad_norm': 1.3828125, 'learning_rate': 7.692307692307694e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21671.99, 'epoch': 0.05}
  2%|█▋                                                                                                       | 45/2865 [03:30<2:18:49,  2.95s/it]  2%|█▋                                                                                                       | 46/2865 [03:33<2:18:48,  2.95s/it]                                                                                                                                                  {'loss': 11.2123, 'grad_norm': 1.1796875, 'learning_rate': 7.867132867132867e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21945.21, 'epoch': 0.05}
  2%|█▋                                                                                                       | 46/2865 [03:33<2:18:48,  2.95s/it]  2%|█▋                                                                                                       | 47/2865 [03:36<2:18:35,  2.95s/it]                                                                                                                                                  {'loss': 11.2043, 'grad_norm': 1.1484375, 'learning_rate': 8.041958041958042e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20890.7, 'epoch': 0.05}
  2%|█▋                                                                                                       | 47/2865 [03:36<2:18:35,  2.95s/it]  2%|█▊                                                                                                       | 48/2865 [03:39<2:18:52,  2.96s/it]                                                                                                                                                  {'loss': 11.1974, 'grad_norm': 1.328125, 'learning_rate': 8.216783216783217e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21469.4, 'epoch': 0.05}
  2%|█▊                                                                                                       | 48/2865 [03:39<2:18:52,  2.96s/it]  2%|█▊                                                                                                       | 49/2865 [03:42<2:18:45,  2.96s/it]                                                                                                                                                  {'loss': 11.1933, 'grad_norm': 1.1796875, 'learning_rate': 8.391608391608393e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20627.16, 'epoch': 0.05}
  2%|█▊                                                                                                       | 49/2865 [03:42<2:18:45,  2.96s/it]  2%|█▊                                                                                                       | 50/2865 [03:45<2:18:44,  2.96s/it]                                                                                                                                                  {'loss': 11.2074, 'grad_norm': 1.34375, 'learning_rate': 8.566433566433566e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21233.44, 'epoch': 0.05}
  2%|█▊                                                                                                       | 50/2865 [03:45<2:18:44,  2.96s/it]  2%|█▊                                                                                                       | 51/2865 [03:48<2:18:40,  2.96s/it]                                                                                                                                                  {'loss': 11.1992, 'grad_norm': 1.234375, 'learning_rate': 8.741258741258741e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20671.25, 'epoch': 0.05}
  2%|█▊                                                                                                       | 51/2865 [03:48<2:18:40,  2.96s/it]  2%|█▉                                                                                                       | 52/2865 [03:51<2:18:38,  2.96s/it]                                                                                                                                                  {'loss': 11.1984, 'grad_norm': 1.109375, 'learning_rate': 8.916083916083918e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21408.41, 'epoch': 0.05}
  2%|█▉                                                                                                       | 52/2865 [03:51<2:18:38,  2.96s/it]  2%|█▉                                                                                                       | 53/2865 [03:54<2:18:33,  2.96s/it]                                                                                                                                                  {'loss': 11.197, 'grad_norm': 1.125, 'learning_rate': 9.090909090909091e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21876.59, 'epoch': 0.06}
  2%|█▉                                                                                                       | 53/2865 [03:54<2:18:33,  2.96s/it]  2%|█▉                                                                                                       | 54/2865 [03:57<2:18:26,  2.95s/it]                                                                                                                                                  {'loss': 11.1859, 'grad_norm': 1.2421875, 'learning_rate': 9.265734265734266e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20585.94, 'epoch': 0.06}
  2%|█▉                                                                                                       | 54/2865 [03:57<2:18:26,  2.95s/it]  2%|██                                                                                                       | 55/2865 [04:00<2:18:19,  2.95s/it]                                                                                                                                                  {'loss': 11.2065, 'grad_norm': 1.109375, 'learning_rate': 9.44055944055944e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20581.52, 'epoch': 0.06}
  2%|██                                                                                                       | 55/2865 [04:00<2:18:19,  2.95s/it]  2%|██                                                                                                       | 56/2865 [04:03<2:18:18,  2.95s/it]                                                                                                                                                  {'loss': 11.1969, 'grad_norm': 1.09375, 'learning_rate': 9.615384615384616e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21780.07, 'epoch': 0.06}
  2%|██                                                                                                       | 56/2865 [04:03<2:18:18,  2.95s/it]  2%|██                                                                                                       | 57/2865 [04:05<2:18:20,  2.96s/it]                                                                                                                                                  {'loss': 11.1745, 'grad_norm': 1.0703125, 'learning_rate': 9.79020979020979e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21859.69, 'epoch': 0.06}
  2%|██                                                                                                       | 57/2865 [04:05<2:18:20,  2.96s/it]  2%|██▏                                                                                                      | 58/2865 [04:08<2:18:18,  2.96s/it]                                                                                                                                                  {'loss': 11.1982, 'grad_norm': 1.125, 'learning_rate': 9.965034965034966e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21702.92, 'epoch': 0.06}
  2%|██▏                                                                                                      | 58/2865 [04:08<2:18:18,  2.96s/it]  2%|██▏                                                                                                      | 59/2865 [04:11<2:18:15,  2.96s/it]                                                                                                                                                  {'loss': 11.1869, 'grad_norm': 1.1015625, 'learning_rate': 1.013986013986014e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21292.93, 'epoch': 0.06}
  2%|██▏                                                                                                      | 59/2865 [04:11<2:18:15,  2.96s/it]  2%|██▏                                                                                                      | 60/2865 [04:14<2:18:03,  2.95s/it]                                                                                                                                                  {'loss': 11.1828, 'grad_norm': 1.4375, 'learning_rate': 1.0314685314685315e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20319.69, 'epoch': 0.06}
  2%|██▏                                                                                                      | 60/2865 [04:14<2:18:03,  2.95s/it]  2%|██▏                                                                                                      | 61/2865 [04:17<2:18:03,  2.95s/it]                                                                                                                                                  {'loss': 11.2019, 'grad_norm': 1.0859375, 'learning_rate': 1.048951048951049e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21155.97, 'epoch': 0.06}
  2%|██▏                                                                                                      | 61/2865 [04:17<2:18:03,  2.95s/it]  2%|██▎                                                                                                      | 62/2865 [04:20<2:17:57,  2.95s/it]                                                                                                                                                  {'loss': 11.2372, 'grad_norm': 1.078125, 'learning_rate': 1.0664335664335665e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21070.71, 'epoch': 0.06}
  2%|██▎                                                                                                      | 62/2865 [04:20<2:17:57,  2.95s/it]  2%|██▎                                                                                                      | 63/2865 [04:23<2:17:54,  2.95s/it]                                                                                                                                                  {'loss': 11.211, 'grad_norm': 1.078125, 'learning_rate': 1.0839160839160838e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21343.21, 'epoch': 0.07}
  2%|██▎                                                                                                      | 63/2865 [04:23<2:17:54,  2.95s/it]  2%|██▎                                                                                                      | 64/2865 [04:26<2:17:46,  2.95s/it]                                                                                                                                                  {'loss': 11.188, 'grad_norm': 1.1328125, 'learning_rate': 1.1013986013986015e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21503.91, 'epoch': 0.07}
  2%|██▎                                                                                                      | 64/2865 [04:26<2:17:46,  2.95s/it]  2%|██▍                                                                                                      | 65/2865 [04:29<2:17:48,  2.95s/it]                                                                                                                                                  {'loss': 11.1964, 'grad_norm': 1.1640625, 'learning_rate': 1.118881118881119e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21456.15, 'epoch': 0.07}
  2%|██▍                                                                                                      | 65/2865 [04:29<2:17:48,  2.95s/it]  2%|██▍                                                                                                      | 66/2865 [04:32<2:17:42,  2.95s/it]                                                                                                                                                  {'loss': 11.1786, 'grad_norm': 1.1328125, 'learning_rate': 1.1363636363636365e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21373.91, 'epoch': 0.07}
  2%|██▍                                                                                                      | 66/2865 [04:32<2:17:42,  2.95s/it]  2%|██▍                                                                                                      | 67/2865 [04:35<2:17:44,  2.95s/it]                                                                                                                                                  {'loss': 11.1925, 'grad_norm': 1.1015625, 'learning_rate': 1.153846153846154e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20492.78, 'epoch': 0.07}
  2%|██▍                                                                                                      | 67/2865 [04:35<2:17:44,  2.95s/it]  2%|██▍                                                                                                      | 68/2865 [04:38<2:17:39,  2.95s/it]                                                                                                                                                  {'loss': 11.1827, 'grad_norm': 1.1953125, 'learning_rate': 1.1713286713286714e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21253.7, 'epoch': 0.07}
  2%|██▍                                                                                                      | 68/2865 [04:38<2:17:39,  2.95s/it]  2%|██▌                                                                                                      | 69/2865 [04:41<2:17:39,  2.95s/it]                                                                                                                                                  {'loss': 11.1798, 'grad_norm': 1.09375, 'learning_rate': 1.188811188811189e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21559.31, 'epoch': 0.07}
  2%|██▌                                                                                                      | 69/2865 [04:41<2:17:39,  2.95s/it]  2%|██▌                                                                                                      | 70/2865 [04:44<2:17:33,  2.95s/it]                                                                                                                                                  {'loss': 11.168, 'grad_norm': 1.21875, 'learning_rate': 1.2062937062937063e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21157.75, 'epoch': 0.07}
  2%|██▌                                                                                                      | 70/2865 [04:44<2:17:33,  2.95s/it]  2%|██▌                                                                                                      | 71/2865 [04:47<2:17:27,  2.95s/it]                                                                                                                                                  {'loss': 11.1789, 'grad_norm': 1.09375, 'learning_rate': 1.2237762237762239e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20972.67, 'epoch': 0.07}
  2%|██▌                                                                                                      | 71/2865 [04:47<2:17:27,  2.95s/it]  3%|██▋                                                                                                      | 72/2865 [04:50<2:17:24,  2.95s/it]                                                                                                                                                  {'loss': 11.1983, 'grad_norm': 1.1484375, 'learning_rate': 1.2412587412587414e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21510.99, 'epoch': 0.08}
  3%|██▋                                                                                                      | 72/2865 [04:50<2:17:24,  2.95s/it]  3%|██▋                                                                                                      | 73/2865 [04:53<2:17:19,  2.95s/it]                                                                                                                                                  {'loss': 11.1739, 'grad_norm': 1.1796875, 'learning_rate': 1.2587412587412589e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20260.13, 'epoch': 0.08}
  3%|██▋                                                                                                      | 73/2865 [04:53<2:17:19,  2.95s/it]  3%|██▋                                                                                                      | 74/2865 [04:56<2:17:22,  2.95s/it]                                                                                                                                                  {'loss': 11.167, 'grad_norm': 1.1796875, 'learning_rate': 1.2762237762237764e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21009.48, 'epoch': 0.08}
  3%|██▋                                                                                                      | 74/2865 [04:56<2:17:22,  2.95s/it]  3%|██▋                                                                                                      | 75/2865 [04:59<2:17:13,  2.95s/it]                                                                                                                                                  {'loss': 11.1812, 'grad_norm': 1.0859375, 'learning_rate': 1.2937062937062939e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21006.96, 'epoch': 0.08}
  3%|██▋                                                                                                      | 75/2865 [04:59<2:17:13,  2.95s/it]  3%|██▊                                                                                                      | 76/2865 [05:02<2:17:11,  2.95s/it]                                                                                                                                                  {'loss': 11.1608, 'grad_norm': 1.109375, 'learning_rate': 1.3111888111888112e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21107.33, 'epoch': 0.08}
  3%|██▊                                                                                                      | 76/2865 [05:02<2:17:11,  2.95s/it]  3%|██▊                                                                                                      | 77/2865 [05:05<2:17:21,  2.96s/it]                                                                                                                                                  {'loss': 11.1719, 'grad_norm': 1.1875, 'learning_rate': 1.3286713286713287e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21489.0, 'epoch': 0.08}
  3%|██▊                                                                                                      | 77/2865 [05:05<2:17:21,  2.96s/it]  3%|██▊                                                                                                      | 78/2865 [05:07<2:17:17,  2.96s/it]                                                                                                                                                  {'loss': 11.165, 'grad_norm': 1.15625, 'learning_rate': 1.3461538461538462e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20910.58, 'epoch': 0.08}
  3%|██▊                                                                                                      | 78/2865 [05:07<2:17:17,  2.96s/it]  3%|██▉                                                                                                      | 79/2865 [05:10<2:17:04,  2.95s/it]                                                                                                                                                  {'loss': 11.1664, 'grad_norm': 1.125, 'learning_rate': 1.3636363636363637e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20457.41, 'epoch': 0.08}
  3%|██▉                                                                                                      | 79/2865 [05:10<2:17:04,  2.95s/it]  3%|██▉                                                                                                      | 80/2865 [05:13<2:16:57,  2.95s/it]                                                                                                                                                  {'loss': 11.1796, 'grad_norm': 1.4921875, 'learning_rate': 1.381118881118881e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21235.16, 'epoch': 0.08}
  3%|██▉                                                                                                      | 80/2865 [05:13<2:16:57,  2.95s/it]  3%|██▉                                                                                                      | 81/2865 [05:16<2:16:59,  2.95s/it]                                                                                                                                                  {'loss': 11.1801, 'grad_norm': 1.1875, 'learning_rate': 1.3986013986013988e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20185.2, 'epoch': 0.08}
  3%|██▉                                                                                                      | 81/2865 [05:16<2:16:59,  2.95s/it]  3%|███                                                                                                      | 82/2865 [05:19<2:16:56,  2.95s/it]                                                                                                                                                  {'loss': 11.1736, 'grad_norm': 1.28125, 'learning_rate': 1.4160839160839163e-05, 'memory/max_active (GiB)': 15.76, 'memory/max_allocated (GiB)': 15.76, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 18207.71, 'epoch': 0.09}
  3%|███                                                                                                      | 82/2865 [05:19<2:16:56,  2.95s/it]  3%|███                                                                                                      | 83/2865 [05:22<2:16:57,  2.95s/it]                                                                                                                                                  {'loss': 11.1637, 'grad_norm': 1.078125, 'learning_rate': 1.4335664335664336e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20492.54, 'epoch': 0.09}
  3%|███                                                                                                      | 83/2865 [05:22<2:16:57,  2.95s/it]  3%|███                                                                                                      | 84/2865 [05:25<2:16:55,  2.95s/it]                                                                                                                                                  {'loss': 11.1548, 'grad_norm': 1.109375, 'learning_rate': 1.4510489510489511e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20860.91, 'epoch': 0.09}
  3%|███                                                                                                      | 84/2865 [05:25<2:16:55,  2.95s/it]  3%|███                                                                                                      | 85/2865 [05:28<2:16:56,  2.96s/it]                                                                                                                                                  {'loss': 11.1751, 'grad_norm': 1.21875, 'learning_rate': 1.4685314685314686e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21784.79, 'epoch': 0.09}
  3%|███                                                                                                      | 85/2865 [05:28<2:16:56,  2.96s/it]  3%|███▏                                                                                                     | 86/2865 [05:31<2:16:48,  2.95s/it]                                                                                                                                                  {'loss': 11.1638, 'grad_norm': 1.328125, 'learning_rate': 1.486013986013986e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21193.78, 'epoch': 0.09}
  3%|███▏                                                                                                     | 86/2865 [05:31<2:16:48,  2.95s/it]  3%|███▏                                                                                                     | 87/2865 [05:34<2:16:47,  2.95s/it]                                                                                                                                                  {'loss': 11.1484, 'grad_norm': 1.0859375, 'learning_rate': 1.5034965034965034e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22070.02, 'epoch': 0.09}
  3%|███▏                                                                                                     | 87/2865 [05:34<2:16:47,  2.95s/it]  3%|███▏                                                                                                     | 88/2865 [05:37<2:16:41,  2.95s/it]                                                                                                                                                  {'loss': 11.1552, 'grad_norm': 1.1953125, 'learning_rate': 1.5209790209790212e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21595.65, 'epoch': 0.09}
  3%|███▏                                                                                                     | 88/2865 [05:37<2:16:41,  2.95s/it]  3%|███▎                                                                                                     | 89/2865 [05:40<2:16:37,  2.95s/it]                                                                                                                                                  {'loss': 11.1712, 'grad_norm': 1.2421875, 'learning_rate': 1.5384615384615387e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21688.96, 'epoch': 0.09}
  3%|███▎                                                                                                     | 89/2865 [05:40<2:16:37,  2.95s/it]  3%|███▎                                                                                                     | 90/2865 [05:43<2:16:48,  2.96s/it]                                                                                                                                                  {'loss': 11.1659, 'grad_norm': 1.1171875, 'learning_rate': 1.555944055944056e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21020.25, 'epoch': 0.09}
  3%|███▎                                                                                                     | 90/2865 [05:43<2:16:48,  2.96s/it]  3%|███▎                                                                                                     | 91/2865 [05:46<2:16:37,  2.96s/it]                                                                                                                                                  {'loss': 11.1518, 'grad_norm': 1.5078125, 'learning_rate': 1.5734265734265734e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20580.07, 'epoch': 0.1}
  3%|███▎                                                                                                     | 91/2865 [05:46<2:16:37,  2.96s/it]  3%|███▎                                                                                                     | 92/2865 [05:49<2:16:32,  2.95s/it]                                                                                                                                                  {'loss': 11.1672, 'grad_norm': 1.078125, 'learning_rate': 1.590909090909091e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21336.87, 'epoch': 0.1}
  3%|███▎                                                                                                     | 92/2865 [05:49<2:16:32,  2.95s/it]  3%|███▍                                                                                                     | 93/2865 [05:52<2:16:35,  2.96s/it]                                                                                                                                                  {'loss': 11.1618, 'grad_norm': 1.1171875, 'learning_rate': 1.6083916083916083e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22355.1, 'epoch': 0.1}
  3%|███▍                                                                                                     | 93/2865 [05:52<2:16:35,  2.96s/it]  3%|███▍                                                                                                     | 94/2865 [05:55<2:16:34,  2.96s/it]                                                                                                                                                  {'loss': 11.1538, 'grad_norm': 1.3125, 'learning_rate': 1.625874125874126e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 21981.9, 'epoch': 0.1}
  3%|███▍                                                                                                     | 94/2865 [05:55<2:16:34,  2.96s/it]  3%|███▍                                                                                                     | 95/2865 [05:58<2:16:32,  2.96s/it]                                                                                                                                                  {'loss': 11.1625, 'grad_norm': 1.1171875, 'learning_rate': 1.6433566433566433e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20074.78, 'epoch': 0.1}
  3%|███▍                                                                                                     | 95/2865 [05:58<2:16:32,  2.96s/it]  3%|███▌                                                                                                     | 96/2865 [06:01<2:16:31,  2.96s/it]                                                                                                                                                  {'loss': 11.1675, 'grad_norm': 1.1796875, 'learning_rate': 1.660839160839161e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22059.32, 'epoch': 0.1}
  3%|███▌                                                                                                     | 96/2865 [06:01<2:16:31,  2.96s/it]  3%|███▌                                                                                                     | 97/2865 [06:04<2:16:27,  2.96s/it]                                                                                                                                                  {'loss': 11.1587, 'grad_norm': 1.078125, 'learning_rate': 1.6783216783216786e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20520.53, 'epoch': 0.1}
  3%|███▌                                                                                                     | 97/2865 [06:04<2:16:27,  2.96s/it]  3%|███▌                                                                                                     | 98/2865 [06:07<2:16:20,  2.96s/it]                                                                                                                                                  {'loss': 11.1818, 'grad_norm': 1.0703125, 'learning_rate': 1.695804195804196e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22108.1, 'epoch': 0.1}
  3%|███▌                                                                                                     | 98/2865 [06:07<2:16:20,  2.96s/it]  3%|███▋                                                                                                     | 99/2865 [06:10<2:16:15,  2.96s/it]                                                                                                                                                  {'loss': 11.1491, 'grad_norm': 1.2109375, 'learning_rate': 1.7132867132867133e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 20647.6, 'epoch': 0.1}
  3%|███▋                                                                                                     | 99/2865 [06:10<2:16:15,  2.96s/it]  3%|███▋                                                                                                    | 100/2865 [06:12<2:16:14,  2.96s/it]                                                                                                                                                  {'loss': 11.1679, 'grad_norm': 1.0703125, 'learning_rate': 1.730769230769231e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.51, 'tokens_per_second_per_gpu': 22259.55, 'epoch': 0.1}
  3%|███▋                                                                                                    | 100/2865 [06:12<2:16:14,  2.96s/it][2025-10-12 03:15:05,316] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<04:13,  1.39s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<02:56,  1.03it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:15,  1.34it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:52,  1.59it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:38,  1.81it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:28,  2.00it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:21,  2.18it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:18,  2.25it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:14,  2.36it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:12,  2.41it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:09,  2.48it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:08,  2.50it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:08,  2.49it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.53it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:07,  2.52it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.53it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:05,  2.54it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:05,  2.55it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:03,  2.59it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:04,  2.54it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.54it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:03,  2.55it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:02,  2.56it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.54it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:02,  2.56it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:01,  2.58it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:01,  2.55it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:00,  2.58it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:01,  2.53it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:01,  2.52it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.51it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<01:00,  2.50it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<01:00,  2.48it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:59,  2.52it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:59,  2.50it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.53it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:58,  2.53it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:57,  2.52it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:56,  2.55it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:55,  2.62it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.53it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:56,  2.52it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:55,  2.56it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:54,  2.56it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.57it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:55,  2.51it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:54,  2.51it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:52,  2.59it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:51,  2.61it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:53,  2.52it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.52it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:52,  2.54it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.57it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:50,  2.58it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:48,  2.64it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.53it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:49,  2.58it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:50,  2.49it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.52it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:49,  2.49it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.54it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:48,  2.49it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.56it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.52it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.55it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.52it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:44,  2.61it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.54it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.54it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:45,  2.50it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.52it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.54it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.57it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.53it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.54it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.54it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:42,  2.52it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.54it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.54it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:39,  2.66it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:41,  2.51it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:38,  2.62it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:40,  2.50it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:39,  2.52it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.60it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.56it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.52it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:38,  2.52it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.51it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.57it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:36,  2.52it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:35,  2.56it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.57it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.54it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.56it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.54it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.55it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.56it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:33,  2.51it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:32,  2.53it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:32,  2.55it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.57it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.56it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:30,  2.55it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.54it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.58it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.59it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.54it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.54it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.55it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.57it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.54it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.58it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:26,  2.62it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:27,  2.51it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:26,  2.53it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.58it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.55it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.57it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.55it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:24,  2.52it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:22,  2.58it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.56it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.54it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.59it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.53it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.53it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.53it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.55it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.57it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.57it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.56it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.59it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.60it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.55it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.54it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:16,  2.66it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:17,  2.51it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.52it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.54it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.60it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.53it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.55it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.53it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.54it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.59it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:11,  2.60it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.65it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.59it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:11,  2.54it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.53it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.56it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.61it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.51it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.51it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.52it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.60it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.54it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.53it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.53it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.55it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.59it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.57it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.55it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.49it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.58it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.59it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.52it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.61it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.52it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.56it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.52it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.50it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.52it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.61it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.57it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.01it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.151957511901855, 'eval_runtime': 78.1659, 'eval_samples_per_second': 151.69, 'eval_steps_per_second': 2.38, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.51, 'epoch': 0.1}
  3%|███▋                                                                                                    | 100/2865 [07:31<2:16:14,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.01it/s][A
                                                                                                                                                  [A[2025-10-12 03:16:23,529] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-100
  4%|███▋                                                                                                   | 101/2865 [07:40<21:50:15, 28.44s/it]                                                                                                                                                  {'loss': 11.1615, 'grad_norm': 1.0390625, 'learning_rate': 1.7482517482517483e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19192.73, 'epoch': 0.11}
  4%|███▋                                                                                                   | 101/2865 [07:40<21:50:15, 28.44s/it]  4%|███▋                                                                                                   | 102/2865 [07:43<15:57:42, 20.80s/it]                                                                                                                                                  {'loss': 11.1466, 'grad_norm': 1.0390625, 'learning_rate': 1.7657342657342656e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22318.63, 'epoch': 0.11}
  4%|███▋                                                                                                   | 102/2865 [07:43<15:57:42, 20.80s/it]  4%|███▋                                                                                                   | 103/2865 [07:46<11:50:55, 15.44s/it]                                                                                                                                                  {'loss': 11.1907, 'grad_norm': 1.234375, 'learning_rate': 1.7832167832167836e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21562.64, 'epoch': 0.11}
  4%|███▋                                                                                                   | 103/2865 [07:46<11:50:55, 15.44s/it]  4%|███▊                                                                                                    | 104/2865 [07:49<8:58:12, 11.70s/it]                                                                                                                                                  {'loss': 11.1618, 'grad_norm': 1.0625, 'learning_rate': 1.800699300699301e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22309.1, 'epoch': 0.11}
  4%|███▊                                                                                                    | 104/2865 [07:49<8:58:12, 11.70s/it]  4%|███▊                                                                                                    | 105/2865 [07:52<6:57:32,  9.08s/it]                                                                                                                                                  {'loss': 11.1897, 'grad_norm': 1.109375, 'learning_rate': 1.8181818181818182e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22006.97, 'epoch': 0.11}
  4%|███▊                                                                                                    | 105/2865 [07:52<6:57:32,  9.08s/it]  4%|███▊                                                                                                    | 106/2865 [07:55<5:32:53,  7.24s/it]                                                                                                                                                  {'loss': 11.1688, 'grad_norm': 1.09375, 'learning_rate': 1.835664335664336e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20959.43, 'epoch': 0.11}
  4%|███▊                                                                                                    | 106/2865 [07:55<5:32:53,  7.24s/it]  4%|███▉                                                                                                    | 107/2865 [07:58<4:33:48,  5.96s/it]                                                                                                                                                  {'loss': 11.1817, 'grad_norm': 1.25, 'learning_rate': 1.8531468531468532e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22470.68, 'epoch': 0.11}
  4%|███▉                                                                                                    | 107/2865 [07:58<4:33:48,  5.96s/it]  4%|███▉                                                                                                    | 108/2865 [08:01<3:52:16,  5.05s/it]                                                                                                                                                  {'loss': 11.138, 'grad_norm': 1.2109375, 'learning_rate': 1.8706293706293705e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20914.95, 'epoch': 0.11}
  4%|███▉                                                                                                    | 108/2865 [08:01<3:52:16,  5.05s/it]  4%|███▉                                                                                                    | 109/2865 [08:04<3:23:10,  4.42s/it]                                                                                                                                                  {'loss': 11.1691, 'grad_norm': 1.1328125, 'learning_rate': 1.888111888111888e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21448.61, 'epoch': 0.11}
  4%|███▉                                                                                                    | 109/2865 [08:04<3:23:10,  4.42s/it]  4%|███▉                                                                                                    | 110/2865 [08:07<3:02:51,  3.98s/it]                                                                                                                                                  {'loss': 11.1565, 'grad_norm': 1.0703125, 'learning_rate': 1.9055944055944055e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21414.73, 'epoch': 0.12}
  4%|███▉                                                                                                    | 110/2865 [08:07<3:02:51,  3.98s/it]  4%|████                                                                                                    | 111/2865 [08:10<2:48:38,  3.67s/it]                                                                                                                                                  {'loss': 11.1529, 'grad_norm': 1.1015625, 'learning_rate': 1.923076923076923e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22031.85, 'epoch': 0.12}
  4%|████                                                                                                    | 111/2865 [08:10<2:48:38,  3.67s/it]  4%|████                                                                                                    | 112/2865 [08:13<2:38:46,  3.46s/it]                                                                                                                                                  {'loss': 11.1678, 'grad_norm': 1.34375, 'learning_rate': 1.9405594405594408e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21397.37, 'epoch': 0.12}
  4%|████                                                                                                    | 112/2865 [08:13<2:38:46,  3.46s/it]  4%|████                                                                                                    | 113/2865 [08:16<2:31:47,  3.31s/it]                                                                                                                                                  {'loss': 11.168, 'grad_norm': 1.125, 'learning_rate': 1.958041958041958e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22228.65, 'epoch': 0.12}
  4%|████                                                                                                    | 113/2865 [08:16<2:31:47,  3.31s/it]  4%|████▏                                                                                                   | 114/2865 [08:19<2:26:52,  3.20s/it]                                                                                                                                                  {'loss': 11.1722, 'grad_norm': 1.09375, 'learning_rate': 1.9755244755244758e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21701.21, 'epoch': 0.12}
  4%|████▏                                                                                                   | 114/2865 [08:19<2:26:52,  3.20s/it]  4%|████▏                                                                                                   | 115/2865 [08:22<2:23:27,  3.13s/it]                                                                                                                                                  {'loss': 11.1695, 'grad_norm': 1.078125, 'learning_rate': 1.993006993006993e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21678.49, 'epoch': 0.12}
  4%|████▏                                                                                                   | 115/2865 [08:22<2:23:27,  3.13s/it]  4%|████▏                                                                                                   | 116/2865 [08:25<2:21:02,  3.08s/it]                                                                                                                                                  {'loss': 11.1552, 'grad_norm': 1.0703125, 'learning_rate': 2.0104895104895104e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20086.8, 'epoch': 0.12}
  4%|████▏                                                                                                   | 116/2865 [08:25<2:21:02,  3.08s/it]  4%|████▏                                                                                                   | 117/2865 [08:28<2:19:19,  3.04s/it]                                                                                                                                                  {'loss': 11.162, 'grad_norm': 1.078125, 'learning_rate': 2.027972027972028e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22089.88, 'epoch': 0.12}
  4%|████▏                                                                                                   | 117/2865 [08:28<2:19:19,  3.04s/it]  4%|████▎                                                                                                   | 118/2865 [08:31<2:17:59,  3.01s/it]                                                                                                                                                  {'loss': 11.1491, 'grad_norm': 1.2421875, 'learning_rate': 2.0454545454545457e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21369.49, 'epoch': 0.12}
  4%|████▎                                                                                                   | 118/2865 [08:31<2:17:59,  3.01s/it]  4%|████▎                                                                                                   | 119/2865 [08:34<2:17:10,  3.00s/it]                                                                                                                                                  {'loss': 11.1777, 'grad_norm': 1.140625, 'learning_rate': 2.062937062937063e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20444.04, 'epoch': 0.12}
  4%|████▎                                                                                                   | 119/2865 [08:34<2:17:10,  3.00s/it]  4%|████▎                                                                                                   | 120/2865 [08:37<2:16:38,  2.99s/it]                                                                                                                                                  {'loss': 11.1449, 'grad_norm': 1.21875, 'learning_rate': 2.0804195804195807e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20202.21, 'epoch': 0.13}
  4%|████▎                                                                                                   | 120/2865 [08:37<2:16:38,  2.99s/it]  4%|████▍                                                                                                   | 121/2865 [08:40<2:16:10,  2.98s/it]                                                                                                                                                  {'loss': 11.1522, 'grad_norm': 1.078125, 'learning_rate': 2.097902097902098e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20377.04, 'epoch': 0.13}
  4%|████▍                                                                                                   | 121/2865 [08:40<2:16:10,  2.98s/it]  4%|████▍                                                                                                   | 122/2865 [08:42<2:15:55,  2.97s/it]                                                                                                                                                  {'loss': 11.1578, 'grad_norm': 1.1953125, 'learning_rate': 2.1153846153846154e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22490.36, 'epoch': 0.13}
  4%|████▍                                                                                                   | 122/2865 [08:42<2:15:55,  2.97s/it]  4%|████▍                                                                                                   | 123/2865 [08:45<2:15:48,  2.97s/it]                                                                                                                                                  {'loss': 11.137, 'grad_norm': 1.140625, 'learning_rate': 2.132867132867133e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21180.05, 'epoch': 0.13}
  4%|████▍                                                                                                   | 123/2865 [08:45<2:15:48,  2.97s/it]  4%|████▌                                                                                                   | 124/2865 [08:48<2:15:26,  2.96s/it]                                                                                                                                                  {'loss': 11.1565, 'grad_norm': 1.125, 'learning_rate': 2.1503496503496503e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21525.71, 'epoch': 0.13}
  4%|████▌                                                                                                   | 124/2865 [08:48<2:15:26,  2.96s/it]  4%|████▌                                                                                                   | 125/2865 [08:51<2:15:25,  2.97s/it]                                                                                                                                                  {'loss': 11.1722, 'grad_norm': 1.203125, 'learning_rate': 2.1678321678321677e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21146.81, 'epoch': 0.13}
  4%|████▌                                                                                                   | 125/2865 [08:51<2:15:25,  2.97s/it]  4%|████▌                                                                                                   | 126/2865 [08:54<2:15:15,  2.96s/it]                                                                                                                                                  {'loss': 11.1578, 'grad_norm': 1.0859375, 'learning_rate': 2.1853146853146857e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21101.55, 'epoch': 0.13}
  4%|████▌                                                                                                   | 126/2865 [08:54<2:15:15,  2.96s/it]  4%|████▌                                                                                                   | 127/2865 [08:57<2:15:08,  2.96s/it]                                                                                                                                                  {'loss': 11.1525, 'grad_norm': 1.046875, 'learning_rate': 2.202797202797203e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22167.72, 'epoch': 0.13}
  4%|████▌                                                                                                   | 127/2865 [08:57<2:15:08,  2.96s/it]  4%|████▋                                                                                                   | 128/2865 [09:00<2:14:58,  2.96s/it]                                                                                                                                                  {'loss': 11.1544, 'grad_norm': 1.0859375, 'learning_rate': 2.2202797202797203e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20652.95, 'epoch': 0.13}
  4%|████▋                                                                                                   | 128/2865 [09:00<2:14:58,  2.96s/it]  5%|████▋                                                                                                   | 129/2865 [09:03<2:14:58,  2.96s/it]                                                                                                                                                  {'loss': 11.1554, 'grad_norm': 1.046875, 'learning_rate': 2.237762237762238e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21918.35, 'epoch': 0.14}
  5%|████▋                                                                                                   | 129/2865 [09:03<2:14:58,  2.96s/it]  5%|████▋                                                                                                   | 130/2865 [09:06<2:14:57,  2.96s/it]                                                                                                                                                  {'loss': 11.1575, 'grad_norm': 1.0390625, 'learning_rate': 2.2552447552447553e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21573.69, 'epoch': 0.14}
  5%|████▋                                                                                                   | 130/2865 [09:06<2:14:57,  2.96s/it]  5%|████▊                                                                                                   | 131/2865 [09:09<2:15:00,  2.96s/it]                                                                                                                                                  {'loss': 11.1412, 'grad_norm': 1.0390625, 'learning_rate': 2.272727272727273e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22857.29, 'epoch': 0.14}
  5%|████▊                                                                                                   | 131/2865 [09:09<2:15:00,  2.96s/it]  5%|████▊                                                                                                   | 132/2865 [09:12<2:14:57,  2.96s/it]                                                                                                                                                  {'loss': 11.1575, 'grad_norm': 1.1328125, 'learning_rate': 2.2902097902097902e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21756.55, 'epoch': 0.14}
  5%|████▊                                                                                                   | 132/2865 [09:12<2:14:57,  2.96s/it]  5%|████▊                                                                                                   | 133/2865 [09:15<2:14:53,  2.96s/it]                                                                                                                                                  {'loss': 11.1503, 'grad_norm': 1.1640625, 'learning_rate': 2.307692307692308e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22042.46, 'epoch': 0.14}
  5%|████▊                                                                                                   | 133/2865 [09:15<2:14:53,  2.96s/it]  5%|████▊                                                                                                   | 134/2865 [09:18<2:14:39,  2.96s/it]                                                                                                                                                  {'loss': 11.1386, 'grad_norm': 1.46875, 'learning_rate': 2.3251748251748252e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20931.65, 'epoch': 0.14}
  5%|████▊                                                                                                   | 134/2865 [09:18<2:14:39,  2.96s/it]  5%|████▉                                                                                                   | 135/2865 [09:21<2:14:25,  2.95s/it]                                                                                                                                                  {'loss': 11.1616, 'grad_norm': 1.453125, 'learning_rate': 2.342657342657343e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21475.32, 'epoch': 0.14}
  5%|████▉                                                                                                   | 135/2865 [09:21<2:14:25,  2.95s/it]  5%|████▉                                                                                                   | 136/2865 [09:24<2:14:21,  2.95s/it]                                                                                                                                                  {'loss': 11.1566, 'grad_norm': 1.2265625, 'learning_rate': 2.3601398601398602e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21600.11, 'epoch': 0.14}
  5%|████▉                                                                                                   | 136/2865 [09:24<2:14:21,  2.95s/it]  5%|████▉                                                                                                   | 137/2865 [09:27<2:14:10,  2.95s/it]                                                                                                                                                  {'loss': 11.1741, 'grad_norm': 1.1875, 'learning_rate': 2.377622377622378e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21118.79, 'epoch': 0.14}
  5%|████▉                                                                                                   | 137/2865 [09:27<2:14:10,  2.95s/it]  5%|█████                                                                                                   | 138/2865 [09:30<2:14:14,  2.95s/it]                                                                                                                                                  {'loss': 11.1654, 'grad_norm': 1.109375, 'learning_rate': 2.3951048951048952e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22274.86, 'epoch': 0.14}
  5%|█████                                                                                                   | 138/2865 [09:30<2:14:14,  2.95s/it]  5%|█████                                                                                                   | 139/2865 [09:33<2:14:13,  2.95s/it]                                                                                                                                                  {'loss': 11.1522, 'grad_norm': 1.1796875, 'learning_rate': 2.4125874125874125e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21698.86, 'epoch': 0.15}
  5%|█████                                                                                                   | 139/2865 [09:33<2:14:13,  2.95s/it]  5%|█████                                                                                                   | 140/2865 [09:36<2:14:15,  2.96s/it]                                                                                                                                                  {'loss': 11.1411, 'grad_norm': 1.1171875, 'learning_rate': 2.43006993006993e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20180.96, 'epoch': 0.15}
  5%|█████                                                                                                   | 140/2865 [09:36<2:14:15,  2.96s/it]  5%|█████                                                                                                   | 141/2865 [09:39<2:14:11,  2.96s/it]                                                                                                                                                  {'loss': 11.1386, 'grad_norm': 1.109375, 'learning_rate': 2.4475524475524478e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21016.12, 'epoch': 0.15}
  5%|█████                                                                                                   | 141/2865 [09:39<2:14:11,  2.96s/it]  5%|█████▏                                                                                                  | 142/2865 [09:42<2:13:58,  2.95s/it]                                                                                                                                                  {'loss': 11.1305, 'grad_norm': 1.421875, 'learning_rate': 2.465034965034965e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20336.99, 'epoch': 0.15}
  5%|█████▏                                                                                                  | 142/2865 [09:42<2:13:58,  2.95s/it]  5%|█████▏                                                                                                  | 143/2865 [09:45<2:14:10,  2.96s/it]                                                                                                                                                  {'loss': 11.1503, 'grad_norm': 1.578125, 'learning_rate': 2.4825174825174828e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22939.95, 'epoch': 0.15}
  5%|█████▏                                                                                                  | 143/2865 [09:45<2:14:10,  2.96s/it]  5%|█████▏                                                                                                  | 144/2865 [09:48<2:14:13,  2.96s/it]                                                                                                                                                  {'loss': 11.1789, 'grad_norm': 1.171875, 'learning_rate': 2.5e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21026.8, 'epoch': 0.15}
  5%|█████▏                                                                                                  | 144/2865 [09:48<2:14:13,  2.96s/it]  5%|█████▎                                                                                                  | 145/2865 [09:51<2:14:07,  2.96s/it]                                                                                                                                                  {'loss': 11.1493, 'grad_norm': 1.1171875, 'learning_rate': 2.5174825174825178e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20750.06, 'epoch': 0.15}
  5%|█████▎                                                                                                  | 145/2865 [09:51<2:14:07,  2.96s/it]  5%|█████▎                                                                                                  | 146/2865 [09:53<2:14:02,  2.96s/it]                                                                                                                                                  {'loss': 11.1493, 'grad_norm': 1.2890625, 'learning_rate': 2.534965034965035e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21567.42, 'epoch': 0.15}
  5%|█████▎                                                                                                  | 146/2865 [09:53<2:14:02,  2.96s/it]  5%|█████▎                                                                                                  | 147/2865 [09:56<2:13:55,  2.96s/it]                                                                                                                                                  {'loss': 11.1743, 'grad_norm': 1.359375, 'learning_rate': 2.5524475524475528e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21301.0, 'epoch': 0.15}
  5%|█████▎                                                                                                  | 147/2865 [09:56<2:13:55,  2.96s/it]  5%|█████▎                                                                                                  | 148/2865 [09:59<2:14:05,  2.96s/it]                                                                                                                                                  {'loss': 11.1549, 'grad_norm': 1.125, 'learning_rate': 2.5699300699300697e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23675.32, 'epoch': 0.15}
  5%|█████▎                                                                                                  | 148/2865 [09:59<2:14:05,  2.96s/it]  5%|█████▍                                                                                                  | 149/2865 [10:02<2:14:01,  2.96s/it]                                                                                                                                                  {'loss': 11.1501, 'grad_norm': 1.1328125, 'learning_rate': 2.5874125874125877e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22172.8, 'epoch': 0.16}
  5%|█████▍                                                                                                  | 149/2865 [10:02<2:14:01,  2.96s/it]  5%|█████▍                                                                                                  | 150/2865 [10:05<2:13:59,  2.96s/it]                                                                                                                                                  {'loss': 11.1496, 'grad_norm': 1.2109375, 'learning_rate': 2.6048951048951047e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22688.53, 'epoch': 0.16}
  5%|█████▍                                                                                                  | 150/2865 [10:05<2:13:59,  2.96s/it]  5%|█████▍                                                                                                  | 151/2865 [10:08<2:13:45,  2.96s/it]                                                                                                                                                  {'loss': 11.136, 'grad_norm': 1.609375, 'learning_rate': 2.6223776223776224e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21141.1, 'epoch': 0.16}
  5%|█████▍                                                                                                  | 151/2865 [10:08<2:13:45,  2.96s/it]  5%|█████▌                                                                                                  | 152/2865 [10:11<2:13:39,  2.96s/it]                                                                                                                                                  {'loss': 11.1572, 'grad_norm': 1.109375, 'learning_rate': 2.6398601398601404e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21215.84, 'epoch': 0.16}
  5%|█████▌                                                                                                  | 152/2865 [10:11<2:13:39,  2.96s/it]  5%|█████▌                                                                                                  | 153/2865 [10:14<2:13:42,  2.96s/it]                                                                                                                                                  {'loss': 11.1439, 'grad_norm': 1.2109375, 'learning_rate': 2.6573426573426574e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20257.26, 'epoch': 0.16}
  5%|█████▌                                                                                                  | 153/2865 [10:14<2:13:42,  2.96s/it]  5%|█████▌                                                                                                  | 154/2865 [10:17<2:13:43,  2.96s/it]                                                                                                                                                  {'loss': 11.1474, 'grad_norm': 1.234375, 'learning_rate': 2.674825174825175e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20747.34, 'epoch': 0.16}
  5%|█████▌                                                                                                  | 154/2865 [10:17<2:13:43,  2.96s/it]  5%|█████▋                                                                                                  | 155/2865 [10:20<2:13:36,  2.96s/it]                                                                                                                                                  {'loss': 11.1503, 'grad_norm': 1.578125, 'learning_rate': 2.6923076923076923e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21308.42, 'epoch': 0.16}
  5%|█████▋                                                                                                  | 155/2865 [10:20<2:13:36,  2.96s/it]  5%|█████▋                                                                                                  | 156/2865 [10:23<2:13:31,  2.96s/it]                                                                                                                                                  {'loss': 11.1424, 'grad_norm': 1.3046875, 'learning_rate': 2.70979020979021e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20825.77, 'epoch': 0.16}
  5%|█████▋                                                                                                  | 156/2865 [10:23<2:13:31,  2.96s/it]  5%|█████▋                                                                                                  | 157/2865 [10:26<2:13:28,  2.96s/it]                                                                                                                                                  {'loss': 11.1308, 'grad_norm': 1.25, 'learning_rate': 2.7272727272727273e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20460.98, 'epoch': 0.16}
  5%|█████▋                                                                                                  | 157/2865 [10:26<2:13:28,  2.96s/it]  6%|█████▋                                                                                                  | 158/2865 [10:29<2:13:31,  2.96s/it]                                                                                                                                                  {'loss': 11.1468, 'grad_norm': 1.6640625, 'learning_rate': 2.744755244755245e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22914.94, 'epoch': 0.17}
  6%|█████▋                                                                                                  | 158/2865 [10:29<2:13:31,  2.96s/it]  6%|█████▊                                                                                                  | 159/2865 [10:32<2:13:24,  2.96s/it]                                                                                                                                                  {'loss': 11.1428, 'grad_norm': 1.3515625, 'learning_rate': 2.762237762237762e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21510.04, 'epoch': 0.17}
  6%|█████▊                                                                                                  | 159/2865 [10:32<2:13:24,  2.96s/it]  6%|█████▊                                                                                                  | 160/2865 [10:35<2:13:22,  2.96s/it]                                                                                                                                                  {'loss': 11.1611, 'grad_norm': 1.2890625, 'learning_rate': 2.77972027972028e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22395.66, 'epoch': 0.17}
  6%|█████▊                                                                                                  | 160/2865 [10:35<2:13:22,  2.96s/it]  6%|█████▊                                                                                                  | 161/2865 [10:38<2:13:18,  2.96s/it]                                                                                                                                                  {'loss': 11.1488, 'grad_norm': 1.203125, 'learning_rate': 2.7972027972027976e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21323.71, 'epoch': 0.17}
  6%|█████▊                                                                                                  | 161/2865 [10:38<2:13:18,  2.96s/it]  6%|█████▉                                                                                                  | 162/2865 [10:41<2:13:10,  2.96s/it]                                                                                                                                                  {'loss': 11.1509, 'grad_norm': 1.3125, 'learning_rate': 2.8146853146853146e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21583.25, 'epoch': 0.17}
  6%|█████▉                                                                                                  | 162/2865 [10:41<2:13:10,  2.96s/it]  6%|█████▉                                                                                                  | 163/2865 [10:44<2:13:09,  2.96s/it]                                                                                                                                                  {'loss': 11.1461, 'grad_norm': 1.3359375, 'learning_rate': 2.8321678321678326e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22255.81, 'epoch': 0.17}
  6%|█████▉                                                                                                  | 163/2865 [10:44<2:13:09,  2.96s/it]  6%|█████▉                                                                                                  | 164/2865 [10:47<2:13:05,  2.96s/it]                                                                                                                                                  {'loss': 11.1689, 'grad_norm': 1.1875, 'learning_rate': 2.8496503496503496e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21603.94, 'epoch': 0.17}
  6%|█████▉                                                                                                  | 164/2865 [10:47<2:13:05,  2.96s/it]  6%|█████▉                                                                                                  | 165/2865 [10:50<2:12:56,  2.95s/it]                                                                                                                                                  {'loss': 11.1257, 'grad_norm': 1.484375, 'learning_rate': 2.8671328671328672e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21293.48, 'epoch': 0.17}
  6%|█████▉                                                                                                  | 165/2865 [10:50<2:12:56,  2.95s/it]  6%|██████                                                                                                  | 166/2865 [10:53<2:12:52,  2.95s/it]                                                                                                                                                  {'loss': 11.1505, 'grad_norm': 1.125, 'learning_rate': 2.8846153846153845e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21496.44, 'epoch': 0.17}
  6%|██████                                                                                                  | 166/2865 [10:53<2:12:52,  2.95s/it]  6%|██████                                                                                                  | 167/2865 [10:56<2:12:43,  2.95s/it]                                                                                                                                                  {'loss': 11.1419, 'grad_norm': 1.203125, 'learning_rate': 2.9020979020979022e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21449.16, 'epoch': 0.17}
  6%|██████                                                                                                  | 167/2865 [10:56<2:12:43,  2.95s/it]  6%|██████                                                                                                  | 168/2865 [10:59<2:12:55,  2.96s/it]                                                                                                                                                  {'loss': 11.1738, 'grad_norm': 1.1875, 'learning_rate': 2.91958041958042e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22586.02, 'epoch': 0.18}
  6%|██████                                                                                                  | 168/2865 [10:59<2:12:55,  2.96s/it]  6%|██████▏                                                                                                 | 169/2865 [11:01<2:12:49,  2.96s/it]                                                                                                                                                  {'loss': 11.1427, 'grad_norm': 1.1953125, 'learning_rate': 2.9370629370629372e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22460.14, 'epoch': 0.18}
  6%|██████▏                                                                                                 | 169/2865 [11:01<2:12:49,  2.96s/it]  6%|██████▏                                                                                                 | 170/2865 [11:04<2:12:54,  2.96s/it]                                                                                                                                                  {'loss': 11.1554, 'grad_norm': 1.3828125, 'learning_rate': 2.954545454545455e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22092.13, 'epoch': 0.18}
  6%|██████▏                                                                                                 | 170/2865 [11:04<2:12:54,  2.96s/it]  6%|██████▏                                                                                                 | 171/2865 [11:07<2:12:54,  2.96s/it]                                                                                                                                                  {'loss': 11.1384, 'grad_norm': 1.15625, 'learning_rate': 2.972027972027972e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21035.5, 'epoch': 0.18}
  6%|██████▏                                                                                                 | 171/2865 [11:07<2:12:54,  2.96s/it]  6%|██████▏                                                                                                 | 172/2865 [11:10<2:12:44,  2.96s/it]                                                                                                                                                  {'loss': 11.1405, 'grad_norm': 1.2109375, 'learning_rate': 2.9895104895104898e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21646.03, 'epoch': 0.18}
  6%|██████▏                                                                                                 | 172/2865 [11:10<2:12:44,  2.96s/it]  6%|██████▎                                                                                                 | 173/2865 [11:13<2:12:42,  2.96s/it]                                                                                                                                                  {'loss': 11.1431, 'grad_norm': 1.140625, 'learning_rate': 3.0069930069930068e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21631.52, 'epoch': 0.18}
  6%|██████▎                                                                                                 | 173/2865 [11:13<2:12:42,  2.96s/it]  6%|██████▎                                                                                                 | 174/2865 [11:16<2:12:32,  2.96s/it]                                                                                                                                                  {'loss': 11.1388, 'grad_norm': 1.265625, 'learning_rate': 3.0244755244755245e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19977.54, 'epoch': 0.18}
  6%|██████▎                                                                                                 | 174/2865 [11:16<2:12:32,  2.96s/it]  6%|██████▎                                                                                                 | 175/2865 [11:19<2:12:31,  2.96s/it]                                                                                                                                                  {'loss': 11.1598, 'grad_norm': 1.125, 'learning_rate': 3.0419580419580425e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21171.27, 'epoch': 0.18}
  6%|██████▎                                                                                                 | 175/2865 [11:19<2:12:31,  2.96s/it]  6%|██████▍                                                                                                 | 176/2865 [11:22<2:12:20,  2.95s/it]                                                                                                                                                  {'loss': 11.1704, 'grad_norm': 1.3203125, 'learning_rate': 3.0594405594405594e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21687.08, 'epoch': 0.18}
  6%|██████▍                                                                                                 | 176/2865 [11:22<2:12:20,  2.95s/it]  6%|██████▍                                                                                                 | 177/2865 [11:25<2:12:23,  2.96s/it]                                                                                                                                                  {'loss': 11.162, 'grad_norm': 1.0859375, 'learning_rate': 3.0769230769230774e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21003.83, 'epoch': 0.19}
  6%|██████▍                                                                                                 | 177/2865 [11:25<2:12:23,  2.96s/it]  6%|██████▍                                                                                                 | 178/2865 [11:28<2:12:21,  2.96s/it]                                                                                                                                                  {'loss': 11.1769, 'grad_norm': 1.1796875, 'learning_rate': 3.094405594405594e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20817.94, 'epoch': 0.19}
  6%|██████▍                                                                                                 | 178/2865 [11:28<2:12:21,  2.96s/it]  6%|██████▍                                                                                                 | 179/2865 [11:31<2:12:21,  2.96s/it]                                                                                                                                                  {'loss': 11.1444, 'grad_norm': 1.1484375, 'learning_rate': 3.111888111888112e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21876.52, 'epoch': 0.19}
  6%|██████▍                                                                                                 | 179/2865 [11:31<2:12:21,  2.96s/it]  6%|██████▌                                                                                                 | 180/2865 [11:34<2:12:14,  2.96s/it]                                                                                                                                                  {'loss': 11.1365, 'grad_norm': 1.0625, 'learning_rate': 3.1293706293706294e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21960.26, 'epoch': 0.19}
  6%|██████▌                                                                                                 | 180/2865 [11:34<2:12:14,  2.96s/it]  6%|██████▌                                                                                                 | 181/2865 [11:37<2:12:06,  2.95s/it]                                                                                                                                                  {'loss': 11.1296, 'grad_norm': 1.0703125, 'learning_rate': 3.146853146853147e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21328.71, 'epoch': 0.19}
  6%|██████▌                                                                                                 | 181/2865 [11:37<2:12:06,  2.95s/it]  6%|██████▌                                                                                                 | 182/2865 [11:40<2:12:05,  2.95s/it]                                                                                                                                                  {'loss': 11.1435, 'grad_norm': 1.0625, 'learning_rate': 3.164335664335665e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21072.03, 'epoch': 0.19}
  6%|██████▌                                                                                                 | 182/2865 [11:40<2:12:05,  2.95s/it]  6%|██████▋                                                                                                 | 183/2865 [11:43<2:12:04,  2.95s/it]                                                                                                                                                  {'loss': 11.1686, 'grad_norm': 1.1328125, 'learning_rate': 3.181818181818182e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20813.87, 'epoch': 0.19}
  6%|██████▋                                                                                                 | 183/2865 [11:43<2:12:04,  2.95s/it]  6%|██████▋                                                                                                 | 184/2865 [11:46<2:12:04,  2.96s/it]                                                                                                                                                  {'loss': 11.1573, 'grad_norm': 1.1328125, 'learning_rate': 3.1993006993006994e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21324.89, 'epoch': 0.19}
  6%|██████▋                                                                                                 | 184/2865 [11:46<2:12:04,  2.96s/it]  6%|██████▋                                                                                                 | 185/2865 [11:49<2:11:53,  2.95s/it]                                                                                                                                                  {'loss': 11.1315, 'grad_norm': 1.484375, 'learning_rate': 3.216783216783217e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20659.82, 'epoch': 0.19}
  6%|██████▋                                                                                                 | 185/2865 [11:49<2:11:53,  2.95s/it]  6%|██████▊                                                                                                 | 186/2865 [11:52<2:11:55,  2.95s/it]                                                                                                                                                  {'loss': 11.1689, 'grad_norm': 1.1171875, 'learning_rate': 3.234265734265735e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21079.86, 'epoch': 0.19}
  6%|██████▊                                                                                                 | 186/2865 [11:52<2:11:55,  2.95s/it]  7%|██████▊                                                                                                 | 187/2865 [11:55<2:11:52,  2.95s/it]                                                                                                                                                  {'loss': 11.1604, 'grad_norm': 1.125, 'learning_rate': 3.251748251748252e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22087.71, 'epoch': 0.2}
  7%|██████▊                                                                                                 | 187/2865 [11:55<2:11:52,  2.95s/it]  7%|██████▊                                                                                                 | 188/2865 [11:58<2:11:49,  2.95s/it]                                                                                                                                                  {'loss': 11.171, 'grad_norm': 1.109375, 'learning_rate': 3.269230769230769e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20729.63, 'epoch': 0.2}
  7%|██████▊                                                                                                 | 188/2865 [11:58<2:11:49,  2.95s/it]  7%|██████▊                                                                                                 | 189/2865 [12:01<2:11:44,  2.95s/it]                                                                                                                                                  {'loss': 11.1372, 'grad_norm': 1.2578125, 'learning_rate': 3.2867132867132866e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21266.98, 'epoch': 0.2}
  7%|██████▊                                                                                                 | 189/2865 [12:01<2:11:44,  2.95s/it]  7%|██████▉                                                                                                 | 190/2865 [12:04<2:11:42,  2.95s/it]                                                                                                                                                  {'loss': 11.1622, 'grad_norm': 1.203125, 'learning_rate': 3.3041958041958046e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21972.69, 'epoch': 0.2}
  7%|██████▉                                                                                                 | 190/2865 [12:04<2:11:42,  2.95s/it]  7%|██████▉                                                                                                 | 191/2865 [12:06<2:11:35,  2.95s/it]                                                                                                                                                  {'loss': 11.1512, 'grad_norm': 1.1015625, 'learning_rate': 3.321678321678322e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20913.46, 'epoch': 0.2}
  7%|██████▉                                                                                                 | 191/2865 [12:07<2:11:35,  2.95s/it]  7%|██████▉                                                                                                 | 192/2865 [12:09<2:11:36,  2.95s/it]                                                                                                                                                  {'loss': 11.141, 'grad_norm': 1.0859375, 'learning_rate': 3.339160839160839e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21659.72, 'epoch': 0.2}
  7%|██████▉                                                                                                 | 192/2865 [12:09<2:11:36,  2.95s/it]  7%|███████                                                                                                 | 193/2865 [12:12<2:11:37,  2.96s/it]                                                                                                                                                  {'loss': 11.1332, 'grad_norm': 1.28125, 'learning_rate': 3.356643356643357e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22574.25, 'epoch': 0.2}
  7%|███████                                                                                                 | 193/2865 [12:12<2:11:37,  2.96s/it]  7%|███████                                                                                                 | 194/2865 [12:15<2:11:38,  2.96s/it]                                                                                                                                                  {'loss': 11.1496, 'grad_norm': 1.1640625, 'learning_rate': 3.374125874125874e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22543.71, 'epoch': 0.2}
  7%|███████                                                                                                 | 194/2865 [12:15<2:11:38,  2.96s/it]  7%|███████                                                                                                 | 195/2865 [12:18<2:11:38,  2.96s/it]                                                                                                                                                  {'loss': 11.1369, 'grad_norm': 1.171875, 'learning_rate': 3.391608391608392e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21717.93, 'epoch': 0.2}
  7%|███████                                                                                                 | 195/2865 [12:18<2:11:38,  2.96s/it]  7%|███████                                                                                                 | 196/2865 [12:21<2:11:37,  2.96s/it]                                                                                                                                                  {'loss': 11.1632, 'grad_norm': 1.1171875, 'learning_rate': 3.409090909090909e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21419.59, 'epoch': 0.21}
  7%|███████                                                                                                 | 196/2865 [12:21<2:11:37,  2.96s/it]  7%|███████▏                                                                                                | 197/2865 [12:24<2:11:32,  2.96s/it]                                                                                                                                                  {'loss': 11.1525, 'grad_norm': 1.1796875, 'learning_rate': 3.4265734265734265e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21390.3, 'epoch': 0.21}
  7%|███████▏                                                                                                | 197/2865 [12:24<2:11:32,  2.96s/it]  7%|███████▏                                                                                                | 198/2865 [12:27<2:11:34,  2.96s/it]                                                                                                                                                  {'loss': 11.1316, 'grad_norm': 1.1875, 'learning_rate': 3.4440559440559445e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20447.81, 'epoch': 0.21}
  7%|███████▏                                                                                                | 198/2865 [12:27<2:11:34,  2.96s/it]  7%|███████▏                                                                                                | 199/2865 [12:30<2:11:38,  2.96s/it]                                                                                                                                                  {'loss': 11.1436, 'grad_norm': 1.203125, 'learning_rate': 3.461538461538462e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22921.93, 'epoch': 0.21}
  7%|███████▏                                                                                                | 199/2865 [12:30<2:11:38,  2.96s/it]  7%|███████▎                                                                                                | 200/2865 [12:33<2:11:33,  2.96s/it]                                                                                                                                                  {'loss': 11.1501, 'grad_norm': 1.171875, 'learning_rate': 3.479020979020979e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22388.1, 'epoch': 0.21}
  7%|███████▎                                                                                                | 200/2865 [12:33<2:11:33,  2.96s/it][2025-10-12 03:21:25,970] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:09,  1.03s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:19,  1.30it/s][A
  2%|██▎                                                                                                          | 4/185 [00:02<01:53,  1.60it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:36,  1.87it/s][A
  3%|███▌                                                                                                         | 6/185 [00:03<01:27,  2.06it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:22,  2.16it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:17,  2.28it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:04<01:15,  2.33it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:12,  2.42it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:05<01:10,  2.46it/s][A
  6%|███████                                                                                                     | 12/185 [00:05<01:08,  2.52it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:08,  2.51it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:06<01:07,  2.52it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.53it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:07<01:06,  2.55it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:07<01:06,  2.54it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:05,  2.56it/s][A
 10%|███████████                                                                                                 | 19/185 [00:08<01:04,  2.56it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:03,  2.60it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:09<01:04,  2.53it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:09<01:04,  2.54it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:02,  2.58it/s][A
 13%|██████████████                                                                                              | 24/185 [00:10<01:02,  2.58it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.54it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:02,  2.54it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:11<01:01,  2.56it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:00,  2.59it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:12<01:00,  2.56it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:12<00:59,  2.59it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<00:58,  2.62it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:13<00:57,  2.64it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:59,  2.54it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:14<00:58,  2.57it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:14<00:58,  2.58it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:58,  2.55it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:15<00:57,  2.58it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.56it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:16<00:57,  2.55it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:16<00:57,  2.54it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:54,  2.63it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:17<00:55,  2.57it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:55,  2.57it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:18<00:55,  2.55it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:18<00:54,  2.57it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:54,  2.54it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:19<00:54,  2.55it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:19<00:53,  2.56it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:53,  2.55it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:20<00:50,  2.68it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:51,  2.63it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:21<00:53,  2.50it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:21<00:52,  2.51it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:51,  2.52it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:22<00:50,  2.56it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:49,  2.60it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:23<00:50,  2.53it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:23<00:50,  2.52it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:49,  2.55it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:24<00:49,  2.53it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:47,  2.59it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:25<00:48,  2.54it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:25<00:47,  2.59it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:45,  2.64it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:26<00:47,  2.55it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.55it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:46,  2.53it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:27<00:46,  2.54it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.56it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:28<00:44,  2.60it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:28<00:44,  2.57it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:29<00:43,  2.57it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:29<00:44,  2.54it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:43,  2.56it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:30<00:43,  2.53it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:30<00:42,  2.58it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:41,  2.57it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:31<00:42,  2.50it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.57it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:32<00:41,  2.54it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:32<00:40,  2.55it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:38,  2.67it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:33<00:39,  2.56it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:39,  2.56it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:34<00:38,  2.57it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:34<00:38,  2.58it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:38,  2.54it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:35<00:38,  2.55it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.54it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:36<00:37,  2.55it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:36<00:36,  2.55it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:36,  2.52it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:37<00:35,  2.56it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:37<00:35,  2.55it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:38<00:35,  2.52it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:38<00:35,  2.54it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:34,  2.55it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:39<00:33,  2.58it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:39<00:34,  2.53it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:32,  2.60it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:40<00:33,  2.54it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.55it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:41<00:31,  2.60it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:41<00:31,  2.56it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.57it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:42<00:30,  2.57it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:29,  2.61it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:43<00:29,  2.58it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:43<00:29,  2.60it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:28,  2.61it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:44<00:28,  2.58it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:44<00:28,  2.56it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:27,  2.58it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:45<00:27,  2.62it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.54it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:46<00:26,  2.57it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:46<00:25,  2.62it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:25,  2.65it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:47<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:24,  2.65it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:48<00:24,  2.56it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:48<00:24,  2.54it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.55it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:49<00:24,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.53it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:50<00:23,  2.55it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:50<00:21,  2.64it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:22,  2.58it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:51<00:22,  2.49it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:51<00:21,  2.54it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:52<00:21,  2.55it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:52<00:20,  2.58it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:20,  2.55it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:53<00:19,  2.64it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:53<00:19,  2.56it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:18,  2.58it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:54<00:18,  2.53it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.55it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:55<00:17,  2.57it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:55<00:17,  2.57it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:17,  2.57it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:56<00:16,  2.60it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:56<00:15,  2.64it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:57<00:16,  2.52it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:57<00:15,  2.55it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.53it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:58<00:15,  2.53it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:58<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:59<00:14,  2.56it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [00:59<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.58it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:00<00:12,  2.56it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:00<00:12,  2.55it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:01<00:12,  2.58it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:01<00:11,  2.58it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.57it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:02<00:11,  2.55it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:02<00:10,  2.60it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:03<00:10,  2.57it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:03<00:09,  2.56it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.54it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:04<00:08,  2.57it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:04<00:08,  2.55it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.58it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:05<00:07,  2.57it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.55it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:06<00:07,  2.53it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:06<00:06,  2.58it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.55it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:07<00:05,  2.54it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:07<00:05,  2.52it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:08<00:05,  2.54it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:08<00:04,  2.55it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.58it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:09<00:03,  2.56it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:09<00:03,  2.63it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:10<00:03,  2.55it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:10<00:02,  2.59it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.57it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:11<00:01,  2.55it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:11<00:01,  2.55it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:12<00:01,  2.55it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:12<00:00,  2.53it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.56it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:13<00:00,  2.01it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.128308296203613, 'eval_runtime': 77.7465, 'eval_samples_per_second': 152.508, 'eval_steps_per_second': 2.392, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 0.21}
  7%|███████▎                                                                                                | 200/2865 [13:51<2:11:33,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.01it/s][A
                                                                                                                                                  [A[2025-10-12 03:22:43,751] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-200
  7%|███████▏                                                                                               | 201/2865 [13:59<20:35:33, 27.83s/it]                                                                                                                                                  {'loss': 11.1464, 'grad_norm': 1.2109375, 'learning_rate': 3.4965034965034965e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19156.21, 'epoch': 0.21}
  7%|███████▏                                                                                               | 201/2865 [13:59<20:35:33, 27.83s/it]  7%|███████▎                                                                                               | 202/2865 [14:02<15:04:01, 20.37s/it]                                                                                                                                                  {'loss': 11.1419, 'grad_norm': 1.140625, 'learning_rate': 3.5139860139860145e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22822.62, 'epoch': 0.21}
  7%|███████▎                                                                                               | 202/2865 [14:02<15:04:01, 20.37s/it]  7%|███████▎                                                                                               | 203/2865 [14:05<11:11:51, 15.14s/it]                                                                                                                                                  {'loss': 11.1351, 'grad_norm': 1.1796875, 'learning_rate': 3.531468531468531e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20095.45, 'epoch': 0.21}
  7%|███████▎                                                                                               | 203/2865 [14:05<11:11:51, 15.14s/it]  7%|███████▍                                                                                                | 204/2865 [14:08<8:29:21, 11.49s/it]                                                                                                                                                  {'loss': 11.1415, 'grad_norm': 1.2421875, 'learning_rate': 3.548951048951049e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21778.94, 'epoch': 0.21}
  7%|███████▍                                                                                                | 204/2865 [14:08<8:29:21, 11.49s/it]  7%|███████▍                                                                                                | 205/2865 [14:11<6:35:43,  8.93s/it]                                                                                                                                                  {'loss': 11.1478, 'grad_norm': 1.1328125, 'learning_rate': 3.566433566433567e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22278.06, 'epoch': 0.21}
  7%|███████▍                                                                                                | 205/2865 [14:11<6:35:43,  8.93s/it]  7%|███████▍                                                                                                | 206/2865 [14:14<5:16:13,  7.14s/it]                                                                                                                                                  {'loss': 11.1216, 'grad_norm': 1.609375, 'learning_rate': 3.583916083916084e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20599.21, 'epoch': 0.22}
  7%|███████▍                                                                                                | 206/2865 [14:14<5:16:13,  7.14s/it]  7%|███████▌                                                                                                | 207/2865 [14:17<4:20:33,  5.88s/it]                                                                                                                                                  {'loss': 11.1491, 'grad_norm': 1.1328125, 'learning_rate': 3.601398601398602e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20689.33, 'epoch': 0.22}
  7%|███████▌                                                                                                | 207/2865 [14:17<4:20:33,  5.88s/it]  7%|███████▌                                                                                                | 208/2865 [14:20<3:41:37,  5.00s/it]                                                                                                                                                  {'loss': 11.1303, 'grad_norm': 1.0703125, 'learning_rate': 3.618881118881119e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22197.86, 'epoch': 0.22}
  7%|███████▌                                                                                                | 208/2865 [14:20<3:41:37,  5.00s/it]  7%|███████▌                                                                                                | 209/2865 [14:23<3:14:21,  4.39s/it]                                                                                                                                                  {'loss': 11.1459, 'grad_norm': 1.1484375, 'learning_rate': 3.6363636363636364e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21598.49, 'epoch': 0.22}
  7%|███████▌                                                                                                | 209/2865 [14:23<3:14:21,  4.39s/it]  7%|███████▌                                                                                                | 210/2865 [14:26<2:55:18,  3.96s/it]                                                                                                                                                  {'loss': 11.1584, 'grad_norm': 1.0625, 'learning_rate': 3.653846153846154e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21615.11, 'epoch': 0.22}
  7%|███████▌                                                                                                | 210/2865 [14:26<2:55:18,  3.96s/it]  7%|███████▋                                                                                                | 211/2865 [14:29<2:41:56,  3.66s/it]                                                                                                                                                  {'loss': 11.1401, 'grad_norm': 1.078125, 'learning_rate': 3.671328671328672e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21292.37, 'epoch': 0.22}
  7%|███████▋                                                                                                | 211/2865 [14:29<2:41:56,  3.66s/it]  7%|███████▋                                                                                                | 212/2865 [14:32<2:32:43,  3.45s/it]                                                                                                                                                  {'loss': 11.1283, 'grad_norm': 1.140625, 'learning_rate': 3.688811188811189e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20687.74, 'epoch': 0.22}
  7%|███████▋                                                                                                | 212/2865 [14:32<2:32:43,  3.45s/it]  7%|███████▋                                                                                                | 213/2865 [14:34<2:26:00,  3.30s/it]                                                                                                                                                  {'loss': 11.1219, 'grad_norm': 1.6328125, 'learning_rate': 3.7062937062937064e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20848.42, 'epoch': 0.22}
  7%|███████▋                                                                                                | 213/2865 [14:34<2:26:00,  3.30s/it]  7%|███████▊                                                                                                | 214/2865 [14:37<2:21:20,  3.20s/it]                                                                                                                                                  {'loss': 11.1431, 'grad_norm': 1.21875, 'learning_rate': 3.7237762237762244e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21048.57, 'epoch': 0.22}
  7%|███████▊                                                                                                | 214/2865 [14:37<2:21:20,  3.20s/it]  8%|███████▊                                                                                                | 215/2865 [14:40<2:18:10,  3.13s/it]                                                                                                                                                  {'loss': 11.1685, 'grad_norm': 1.96875, 'learning_rate': 3.741258741258741e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22595.57, 'epoch': 0.23}
  8%|███████▊                                                                                                | 215/2865 [14:40<2:18:10,  3.13s/it]  8%|███████▊                                                                                                | 216/2865 [14:43<2:15:51,  3.08s/it]                                                                                                                                                  {'loss': 11.1561, 'grad_norm': 1.234375, 'learning_rate': 3.758741258741259e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19868.01, 'epoch': 0.23}
  8%|███████▊                                                                                                | 216/2865 [14:43<2:15:51,  3.08s/it]  8%|███████▉                                                                                                | 217/2865 [14:46<2:14:17,  3.04s/it]                                                                                                                                                  {'loss': 11.1457, 'grad_norm': 1.4609375, 'learning_rate': 3.776223776223776e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21970.57, 'epoch': 0.23}
  8%|███████▉                                                                                                | 217/2865 [14:46<2:14:17,  3.04s/it]  8%|███████▉                                                                                                | 218/2865 [14:49<2:13:09,  3.02s/it]                                                                                                                                                  {'loss': 11.1536, 'grad_norm': 1.328125, 'learning_rate': 3.7937062937062936e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21874.11, 'epoch': 0.23}
  8%|███████▉                                                                                                | 218/2865 [14:49<2:13:09,  3.02s/it]  8%|███████▉                                                                                                | 219/2865 [14:52<2:12:17,  3.00s/it]                                                                                                                                                  {'loss': 11.1405, 'grad_norm': 1.3828125, 'learning_rate': 3.811188811188811e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20809.79, 'epoch': 0.23}
  8%|███████▉                                                                                                | 219/2865 [14:52<2:12:17,  3.00s/it]  8%|███████▉                                                                                                | 220/2865 [14:55<2:11:37,  2.99s/it]                                                                                                                                                  {'loss': 11.132, 'grad_norm': 1.2734375, 'learning_rate': 3.828671328671329e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21497.9, 'epoch': 0.23}
  8%|███████▉                                                                                                | 220/2865 [14:55<2:11:37,  2.99s/it]  8%|████████                                                                                                | 221/2865 [14:58<2:11:04,  2.97s/it]                                                                                                                                                  {'loss': 11.1378, 'grad_norm': 1.3203125, 'learning_rate': 3.846153846153846e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21182.74, 'epoch': 0.23}
  8%|████████                                                                                                | 221/2865 [14:58<2:11:04,  2.97s/it]  8%|████████                                                                                                | 222/2865 [15:01<2:10:49,  2.97s/it]                                                                                                                                                  {'loss': 11.1543, 'grad_norm': 1.2265625, 'learning_rate': 3.8636363636363636e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21796.62, 'epoch': 0.23}
  8%|████████                                                                                                | 222/2865 [15:01<2:10:49,  2.97s/it]  8%|████████                                                                                                | 223/2865 [15:04<2:10:29,  2.96s/it]                                                                                                                                                  {'loss': 11.1311, 'grad_norm': 1.265625, 'learning_rate': 3.8811188811188816e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21722.54, 'epoch': 0.23}
  8%|████████                                                                                                | 223/2865 [15:04<2:10:29,  2.96s/it]  8%|████████▏                                                                                               | 224/2865 [15:07<2:10:19,  2.96s/it]                                                                                                                                                  {'loss': 11.1408, 'grad_norm': 1.234375, 'learning_rate': 3.898601398601399e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21656.24, 'epoch': 0.23}
  8%|████████▏                                                                                               | 224/2865 [15:07<2:10:19,  2.96s/it]  8%|████████▏                                                                                               | 225/2865 [15:10<2:10:34,  2.97s/it]                                                                                                                                                  {'loss': 11.153, 'grad_norm': 1.1640625, 'learning_rate': 3.916083916083916e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20870.31, 'epoch': 0.24}
  8%|████████▏                                                                                               | 225/2865 [15:10<2:10:34,  2.97s/it]  8%|████████▏                                                                                               | 226/2865 [15:13<2:10:28,  2.97s/it]                                                                                                                                                  {'loss': 11.1515, 'grad_norm': 1.21875, 'learning_rate': 3.9335664335664336e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22198.67, 'epoch': 0.24}
  8%|████████▏                                                                                               | 226/2865 [15:13<2:10:28,  2.97s/it]  8%|████████▏                                                                                               | 227/2865 [15:16<2:10:18,  2.96s/it]                                                                                                                                                  {'loss': 11.1399, 'grad_norm': 1.265625, 'learning_rate': 3.9510489510489516e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20024.48, 'epoch': 0.24}
  8%|████████▏                                                                                               | 227/2865 [15:16<2:10:18,  2.96s/it]  8%|████████▎                                                                                               | 228/2865 [15:19<2:10:21,  2.97s/it]                                                                                                                                                  {'loss': 11.1341, 'grad_norm': 1.2265625, 'learning_rate': 3.968531468531469e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20627.23, 'epoch': 0.24}
  8%|████████▎                                                                                               | 228/2865 [15:19<2:10:21,  2.97s/it]  8%|████████▎                                                                                               | 229/2865 [15:22<2:10:10,  2.96s/it]                                                                                                                                                  {'loss': 11.1542, 'grad_norm': 1.140625, 'learning_rate': 3.986013986013986e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20693.22, 'epoch': 0.24}
  8%|████████▎                                                                                               | 229/2865 [15:22<2:10:10,  2.96s/it]  8%|████████▎                                                                                               | 230/2865 [15:25<2:10:09,  2.96s/it]                                                                                                                                                  {'loss': 11.1267, 'grad_norm': 1.3359375, 'learning_rate': 4.0034965034965035e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21974.14, 'epoch': 0.24}
  8%|████████▎                                                                                               | 230/2865 [15:25<2:10:09,  2.96s/it]  8%|████████▍                                                                                               | 231/2865 [15:28<2:10:07,  2.96s/it]                                                                                                                                                  {'loss': 11.1493, 'grad_norm': 1.5625, 'learning_rate': 4.020979020979021e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20556.26, 'epoch': 0.24}
  8%|████████▍                                                                                               | 231/2865 [15:28<2:10:07,  2.96s/it]  8%|████████▍                                                                                               | 232/2865 [15:31<2:09:54,  2.96s/it]                                                                                                                                                  {'loss': 11.13, 'grad_norm': 1.5078125, 'learning_rate': 4.038461538461539e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21112.35, 'epoch': 0.24}
  8%|████████▍                                                                                               | 232/2865 [15:31<2:09:54,  2.96s/it]  8%|████████▍                                                                                               | 233/2865 [15:34<2:09:49,  2.96s/it]                                                                                                                                                  {'loss': 11.1251, 'grad_norm': 1.4296875, 'learning_rate': 4.055944055944056e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21595.02, 'epoch': 0.24}
  8%|████████▍                                                                                               | 233/2865 [15:34<2:09:49,  2.96s/it]  8%|████████▍                                                                                               | 234/2865 [15:37<2:09:39,  2.96s/it]                                                                                                                                                  {'loss': 11.1432, 'grad_norm': 1.4296875, 'learning_rate': 4.0734265734265735e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21145.96, 'epoch': 0.25}
  8%|████████▍                                                                                               | 234/2865 [15:37<2:09:39,  2.96s/it]  8%|████████▌                                                                                               | 235/2865 [15:40<2:09:41,  2.96s/it]                                                                                                                                                  {'loss': 11.1388, 'grad_norm': 1.46875, 'learning_rate': 4.0909090909090915e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22775.55, 'epoch': 0.25}
  8%|████████▌                                                                                               | 235/2865 [15:40<2:09:41,  2.96s/it]  8%|████████▌                                                                                               | 236/2865 [15:43<2:09:40,  2.96s/it]                                                                                                                                                  {'loss': 11.1416, 'grad_norm': 1.578125, 'learning_rate': 4.108391608391609e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20081.85, 'epoch': 0.25}
  8%|████████▌                                                                                               | 236/2865 [15:43<2:09:40,  2.96s/it]  8%|████████▌                                                                                               | 237/2865 [15:46<2:09:34,  2.96s/it]                                                                                                                                                  {'loss': 11.1484, 'grad_norm': 1.2734375, 'learning_rate': 4.125874125874126e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21423.93, 'epoch': 0.25}
  8%|████████▌                                                                                               | 237/2865 [15:46<2:09:34,  2.96s/it]  8%|████████▋                                                                                               | 238/2865 [15:48<2:09:39,  2.96s/it]                                                                                                                                                  {'loss': 11.1317, 'grad_norm': 1.46875, 'learning_rate': 4.1433566433566434e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20168.37, 'epoch': 0.25}
  8%|████████▋                                                                                               | 238/2865 [15:48<2:09:39,  2.96s/it]  8%|████████▋                                                                                               | 239/2865 [15:51<2:09:39,  2.96s/it]                                                                                                                                                  {'loss': 11.1521, 'grad_norm': 1.4921875, 'learning_rate': 4.1608391608391614e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20097.99, 'epoch': 0.25}
  8%|████████▋                                                                                               | 239/2865 [15:51<2:09:39,  2.96s/it]  8%|████████▋                                                                                               | 240/2865 [15:54<2:09:37,  2.96s/it]                                                                                                                                                  {'loss': 11.1143, 'grad_norm': 1.234375, 'learning_rate': 4.178321678321678e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22335.82, 'epoch': 0.25}
  8%|████████▋                                                                                               | 240/2865 [15:54<2:09:37,  2.96s/it]  8%|████████▋                                                                                               | 241/2865 [15:57<2:09:31,  2.96s/it]                                                                                                                                                  {'loss': 11.1554, 'grad_norm': 1.5, 'learning_rate': 4.195804195804196e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20918.45, 'epoch': 0.25}
  8%|████████▋                                                                                               | 241/2865 [15:57<2:09:31,  2.96s/it]  8%|████████▊                                                                                               | 242/2865 [16:00<2:09:24,  2.96s/it]                                                                                                                                                  {'loss': 11.1046, 'grad_norm': 1.1953125, 'learning_rate': 4.213286713286714e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21470.91, 'epoch': 0.25}
  8%|████████▊                                                                                               | 242/2865 [16:00<2:09:24,  2.96s/it]  8%|████████▊                                                                                               | 243/2865 [16:03<2:09:21,  2.96s/it]                                                                                                                                                  {'loss': 11.1415, 'grad_norm': 1.6015625, 'learning_rate': 4.230769230769231e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21522.63, 'epoch': 0.25}
  8%|████████▊                                                                                               | 243/2865 [16:03<2:09:21,  2.96s/it]  9%|████████▊                                                                                               | 244/2865 [16:06<2:09:14,  2.96s/it]                                                                                                                                                  {'loss': 11.1051, 'grad_norm': 1.2265625, 'learning_rate': 4.248251748251749e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21701.71, 'epoch': 0.26}
  9%|████████▊                                                                                               | 244/2865 [16:06<2:09:14,  2.96s/it]  9%|████████▉                                                                                               | 245/2865 [16:09<2:09:11,  2.96s/it]                                                                                                                                                  {'loss': 11.1396, 'grad_norm': 1.640625, 'learning_rate': 4.265734265734266e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22066.17, 'epoch': 0.26}
  9%|████████▉                                                                                               | 245/2865 [16:09<2:09:11,  2.96s/it]  9%|████████▉                                                                                               | 246/2865 [16:12<2:09:14,  2.96s/it]                                                                                                                                                  {'loss': 11.1232, 'grad_norm': 1.1953125, 'learning_rate': 4.2832167832167833e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21957.6, 'epoch': 0.26}
  9%|████████▉                                                                                               | 246/2865 [16:12<2:09:14,  2.96s/it]  9%|████████▉                                                                                               | 247/2865 [16:15<2:09:12,  2.96s/it]                                                                                                                                                  {'loss': 11.1417, 'grad_norm': 1.609375, 'learning_rate': 4.300699300699301e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21305.99, 'epoch': 0.26}
  9%|████████▉                                                                                               | 247/2865 [16:15<2:09:12,  2.96s/it]  9%|█████████                                                                                               | 248/2865 [16:18<2:09:08,  2.96s/it]                                                                                                                                                  {'loss': 11.1346, 'grad_norm': 1.2578125, 'learning_rate': 4.318181818181819e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21945.58, 'epoch': 0.26}
  9%|█████████                                                                                               | 248/2865 [16:18<2:09:08,  2.96s/it]  9%|█████████                                                                                               | 249/2865 [16:21<2:09:01,  2.96s/it]                                                                                                                                                  {'loss': 11.1312, 'grad_norm': 1.296875, 'learning_rate': 4.335664335664335e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20975.07, 'epoch': 0.26}
  9%|█████████                                                                                               | 249/2865 [16:21<2:09:01,  2.96s/it]  9%|█████████                                                                                               | 250/2865 [16:24<2:09:05,  2.96s/it]                                                                                                                                                  {'loss': 11.1672, 'grad_norm': 1.4765625, 'learning_rate': 4.353146853146853e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20678.84, 'epoch': 0.26}
  9%|█████████                                                                                               | 250/2865 [16:24<2:09:05,  2.96s/it]  9%|█████████                                                                                               | 251/2865 [16:27<2:08:59,  2.96s/it]                                                                                                                                                  {'loss': 11.1348, 'grad_norm': 1.5078125, 'learning_rate': 4.370629370629371e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21500.04, 'epoch': 0.26}
  9%|█████████                                                                                               | 251/2865 [16:27<2:08:59,  2.96s/it]  9%|█████████▏                                                                                              | 252/2865 [16:30<2:09:07,  2.96s/it]                                                                                                                                                  {'loss': 11.1288, 'grad_norm': 1.7265625, 'learning_rate': 4.388111888111888e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21516.17, 'epoch': 0.26}
  9%|█████████▏                                                                                              | 252/2865 [16:30<2:09:07,  2.96s/it]  9%|█████████▏                                                                                              | 253/2865 [16:33<2:09:11,  2.97s/it]                                                                                                                                                  {'loss': 11.1292, 'grad_norm': 1.3359375, 'learning_rate': 4.405594405594406e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21610.55, 'epoch': 0.26}
  9%|█████████▏                                                                                              | 253/2865 [16:33<2:09:11,  2.97s/it]  9%|█████████▏                                                                                              | 254/2865 [16:36<2:08:57,  2.96s/it]                                                                                                                                                  {'loss': 11.1163, 'grad_norm': 1.3671875, 'learning_rate': 4.423076923076923e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20912.67, 'epoch': 0.27}
  9%|█████████▏                                                                                              | 254/2865 [16:36<2:08:57,  2.96s/it]  9%|█████████▎                                                                                              | 255/2865 [16:39<2:08:54,  2.96s/it]                                                                                                                                                  {'loss': 11.1428, 'grad_norm': 1.4296875, 'learning_rate': 4.4405594405594406e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21384.48, 'epoch': 0.27}
  9%|█████████▎                                                                                              | 255/2865 [16:39<2:08:54,  2.96s/it]  9%|█████████▎                                                                                              | 256/2865 [16:42<2:08:44,  2.96s/it]                                                                                                                                                  {'loss': 11.1256, 'grad_norm': 1.3359375, 'learning_rate': 4.458041958041958e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20904.4, 'epoch': 0.27}
  9%|█████████▎                                                                                              | 256/2865 [16:42<2:08:44,  2.96s/it]  9%|█████████▎                                                                                              | 257/2865 [16:45<2:08:39,  2.96s/it]                                                                                                                                                  {'loss': 11.149, 'grad_norm': 1.2578125, 'learning_rate': 4.475524475524476e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22018.78, 'epoch': 0.27}
  9%|█████████▎                                                                                              | 257/2865 [16:45<2:08:39,  2.96s/it]  9%|█████████▎                                                                                              | 258/2865 [16:48<2:08:46,  2.96s/it]                                                                                                                                                  {'loss': 11.1524, 'grad_norm': 1.4921875, 'learning_rate': 4.493006993006993e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21561.48, 'epoch': 0.27}
  9%|█████████▎                                                                                              | 258/2865 [16:48<2:08:46,  2.96s/it]  9%|█████████▍                                                                                              | 259/2865 [16:51<2:08:39,  2.96s/it]                                                                                                                                                  {'loss': 11.1228, 'grad_norm': 1.953125, 'learning_rate': 4.5104895104895105e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21936.02, 'epoch': 0.27}
  9%|█████████▍                                                                                              | 259/2865 [16:51<2:08:39,  2.96s/it]  9%|█████████▍                                                                                              | 260/2865 [16:54<2:08:34,  2.96s/it]                                                                                                                                                  {'loss': 11.1418, 'grad_norm': 1.4140625, 'learning_rate': 4.5279720279720285e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21738.44, 'epoch': 0.27}
  9%|█████████▍                                                                                              | 260/2865 [16:54<2:08:34,  2.96s/it]  9%|█████████▍                                                                                              | 261/2865 [16:57<2:08:37,  2.96s/it]                                                                                                                                                  {'loss': 11.1332, 'grad_norm': 1.828125, 'learning_rate': 4.545454545454546e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21400.15, 'epoch': 0.27}
  9%|█████████▍                                                                                              | 261/2865 [16:57<2:08:37,  2.96s/it]  9%|█████████▌                                                                                              | 262/2865 [17:00<2:08:32,  2.96s/it]                                                                                                                                                  {'loss': 11.1249, 'grad_norm': 1.6015625, 'learning_rate': 4.562937062937063e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21123.69, 'epoch': 0.27}
  9%|█████████▌                                                                                              | 262/2865 [17:00<2:08:32,  2.96s/it]  9%|█████████▌                                                                                              | 263/2865 [17:03<2:08:20,  2.96s/it]                                                                                                                                                  {'loss': 11.1105, 'grad_norm': 1.90625, 'learning_rate': 4.5804195804195805e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21463.34, 'epoch': 0.28}
  9%|█████████▌                                                                                              | 263/2865 [17:03<2:08:20,  2.96s/it]  9%|█████████▌                                                                                              | 264/2865 [17:05<2:08:16,  2.96s/it]                                                                                                                                                  {'loss': 11.1386, 'grad_norm': 1.421875, 'learning_rate': 4.597902097902098e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21628.91, 'epoch': 0.28}
  9%|█████████▌                                                                                              | 264/2865 [17:05<2:08:16,  2.96s/it]  9%|█████████▌                                                                                              | 265/2865 [17:08<2:08:13,  2.96s/it]                                                                                                                                                  {'loss': 11.1445, 'grad_norm': 1.9375, 'learning_rate': 4.615384615384616e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22407.26, 'epoch': 0.28}
  9%|█████████▌                                                                                              | 265/2865 [17:08<2:08:13,  2.96s/it]  9%|█████████▋                                                                                              | 266/2865 [17:11<2:08:04,  2.96s/it]                                                                                                                                                  {'loss': 11.1144, 'grad_norm': 1.421875, 'learning_rate': 4.632867132867133e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20329.6, 'epoch': 0.28}
  9%|█████████▋                                                                                              | 266/2865 [17:11<2:08:04,  2.96s/it]  9%|█████████▋                                                                                              | 267/2865 [17:14<2:08:02,  2.96s/it]                                                                                                                                                  {'loss': 11.168, 'grad_norm': 2.09375, 'learning_rate': 4.6503496503496505e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22038.47, 'epoch': 0.28}
  9%|█████████▋                                                                                              | 267/2865 [17:14<2:08:02,  2.96s/it]  9%|█████████▋                                                                                              | 268/2865 [17:17<2:07:49,  2.95s/it]                                                                                                                                                  {'loss': 11.1128, 'grad_norm': 2.078125, 'learning_rate': 4.667832167832168e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20762.13, 'epoch': 0.28}
  9%|█████████▋                                                                                              | 268/2865 [17:17<2:07:49,  2.95s/it]  9%|█████████▊                                                                                              | 269/2865 [17:20<2:07:48,  2.95s/it]                                                                                                                                                  {'loss': 11.1255, 'grad_norm': 2.4375, 'learning_rate': 4.685314685314686e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20964.33, 'epoch': 0.28}
  9%|█████████▊                                                                                              | 269/2865 [17:20<2:07:48,  2.95s/it]  9%|█████████▊                                                                                              | 270/2865 [17:23<2:07:43,  2.95s/it]                                                                                                                                                  {'loss': 11.1403, 'grad_norm': 2.0, 'learning_rate': 4.702797202797203e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21510.59, 'epoch': 0.28}
  9%|█████████▊                                                                                              | 270/2865 [17:23<2:07:43,  2.95s/it]  9%|█████████▊                                                                                              | 271/2865 [17:26<2:07:46,  2.96s/it]                                                                                                                                                  {'loss': 11.1314, 'grad_norm': 2.859375, 'learning_rate': 4.7202797202797204e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22110.13, 'epoch': 0.28}
  9%|█████████▊                                                                                              | 271/2865 [17:26<2:07:46,  2.96s/it]  9%|█████████▊                                                                                              | 272/2865 [17:29<2:07:41,  2.95s/it]                                                                                                                                                  {'loss': 11.1352, 'grad_norm': 2.4375, 'learning_rate': 4.7377622377622384e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20794.72, 'epoch': 0.28}
  9%|█████████▊                                                                                              | 272/2865 [17:29<2:07:41,  2.95s/it] 10%|█████████▉                                                                                              | 273/2865 [17:32<2:07:46,  2.96s/it]                                                                                                                                                  {'loss': 11.1333, 'grad_norm': 2.796875, 'learning_rate': 4.755244755244756e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21656.19, 'epoch': 0.29}
 10%|█████████▉                                                                                              | 273/2865 [17:32<2:07:46,  2.96s/it] 10%|█████████▉                                                                                              | 274/2865 [17:35<2:07:46,  2.96s/it]                                                                                                                                                  {'loss': 11.1771, 'grad_norm': 2.890625, 'learning_rate': 4.772727272727273e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20779.55, 'epoch': 0.29}
 10%|█████████▉                                                                                              | 274/2865 [17:35<2:07:46,  2.96s/it] 10%|█████████▉                                                                                              | 275/2865 [17:38<2:07:37,  2.96s/it]                                                                                                                                                  {'loss': 11.1523, 'grad_norm': 1.640625, 'learning_rate': 4.7902097902097904e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21368.32, 'epoch': 0.29}
 10%|█████████▉                                                                                              | 275/2865 [17:38<2:07:37,  2.96s/it] 10%|██████████                                                                                              | 276/2865 [17:41<2:07:44,  2.96s/it]                                                                                                                                                  {'loss': 11.1149, 'grad_norm': 1.8046875, 'learning_rate': 4.8076923076923084e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21845.59, 'epoch': 0.29}
 10%|██████████                                                                                              | 276/2865 [17:41<2:07:44,  2.96s/it] 10%|██████████                                                                                              | 277/2865 [17:44<2:07:40,  2.96s/it]                                                                                                                                                  {'loss': 11.1318, 'grad_norm': 1.53125, 'learning_rate': 4.825174825174825e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21854.26, 'epoch': 0.29}
 10%|██████████                                                                                              | 277/2865 [17:44<2:07:40,  2.96s/it] 10%|██████████                                                                                              | 278/2865 [17:47<2:07:37,  2.96s/it]                                                                                                                                                  {'loss': 11.1156, 'grad_norm': 1.6484375, 'learning_rate': 4.842657342657343e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21534.41, 'epoch': 0.29}
 10%|██████████                                                                                              | 278/2865 [17:47<2:07:37,  2.96s/it] 10%|██████████▏                                                                                             | 279/2865 [17:50<2:07:42,  2.96s/it]                                                                                                                                                  {'loss': 11.133, 'grad_norm': 1.453125, 'learning_rate': 4.86013986013986e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21343.75, 'epoch': 0.29}
 10%|██████████▏                                                                                             | 279/2865 [17:50<2:07:42,  2.96s/it] 10%|██████████▏                                                                                             | 280/2865 [17:53<2:07:37,  2.96s/it]                                                                                                                                                  {'loss': 11.1329, 'grad_norm': 1.640625, 'learning_rate': 4.8776223776223776e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21717.73, 'epoch': 0.29}
 10%|██████████▏                                                                                             | 280/2865 [17:53<2:07:37,  2.96s/it] 10%|██████████▏                                                                                             | 281/2865 [17:56<2:07:30,  2.96s/it]                                                                                                                                                  {'loss': 11.1762, 'grad_norm': 1.4453125, 'learning_rate': 4.8951048951048956e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22078.72, 'epoch': 0.29}
 10%|██████████▏                                                                                             | 281/2865 [17:56<2:07:30,  2.96s/it] 10%|██████████▏                                                                                             | 282/2865 [17:59<2:07:26,  2.96s/it]                                                                                                                                                  {'loss': 11.1399, 'grad_norm': 1.4140625, 'learning_rate': 4.912587412587413e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21273.35, 'epoch': 0.3}
 10%|██████████▏                                                                                             | 282/2865 [17:59<2:07:26,  2.96s/it] 10%|██████████▎                                                                                             | 283/2865 [18:02<2:07:23,  2.96s/it]                                                                                                                                                  {'loss': 11.1334, 'grad_norm': 1.578125, 'learning_rate': 4.93006993006993e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22034.73, 'epoch': 0.3}
 10%|██████████▎                                                                                             | 283/2865 [18:02<2:07:23,  2.96s/it] 10%|██████████▎                                                                                             | 284/2865 [18:05<2:07:18,  2.96s/it]                                                                                                                                                  {'loss': 11.106, 'grad_norm': 1.9453125, 'learning_rate': 4.9475524475524476e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22391.27, 'epoch': 0.3}
 10%|██████████▎                                                                                             | 284/2865 [18:05<2:07:18,  2.96s/it] 10%|██████████▎                                                                                             | 285/2865 [18:08<2:07:11,  2.96s/it]                                                                                                                                                  {'loss': 11.1225, 'grad_norm': 1.1953125, 'learning_rate': 4.9650349650349656e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21587.0, 'epoch': 0.3}
 10%|██████████▎                                                                                             | 285/2865 [18:08<2:07:11,  2.96s/it] 10%|██████████▍                                                                                             | 286/2865 [18:11<2:07:17,  2.96s/it]                                                                                                                                                  {'loss': 11.141, 'grad_norm': 1.40625, 'learning_rate': 4.982517482517482e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20124.88, 'epoch': 0.3}
 10%|██████████▍                                                                                             | 286/2865 [18:11<2:07:17,  2.96s/it] 10%|██████████▍                                                                                             | 287/2865 [18:14<2:07:24,  2.97s/it]                                                                                                                                                  {'loss': 11.1194, 'grad_norm': 1.2578125, 'learning_rate': 5e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20874.26, 'epoch': 0.3}
 10%|██████████▍                                                                                             | 287/2865 [18:14<2:07:24,  2.97s/it] 10%|██████████▍                                                                                             | 288/2865 [18:16<2:07:17,  2.96s/it]                                                                                                                                                  {'loss': 11.1415, 'grad_norm': 1.5234375, 'learning_rate': 4.9999981451575765e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21425.06, 'epoch': 0.3}
 10%|██████████▍                                                                                             | 288/2865 [18:17<2:07:17,  2.96s/it] 10%|██████████▍                                                                                             | 289/2865 [18:19<2:07:12,  2.96s/it]                                                                                                                                                  {'loss': 11.112, 'grad_norm': 1.2890625, 'learning_rate': 4.9999925806330585e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21356.63, 'epoch': 0.3}
 10%|██████████▍                                                                                             | 289/2865 [18:19<2:07:12,  2.96s/it] 10%|██████████▌                                                                                             | 290/2865 [18:22<2:06:57,  2.96s/it]                                                                                                                                                  {'loss': 11.1249, 'grad_norm': 1.5859375, 'learning_rate': 4.9999833064347025e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21577.56, 'epoch': 0.3}
 10%|██████████▌                                                                                             | 290/2865 [18:22<2:06:57,  2.96s/it] 10%|██████████▌                                                                                             | 291/2865 [18:25<2:06:52,  2.96s/it]                                                                                                                                                  {'loss': 11.1215, 'grad_norm': 1.25, 'learning_rate': 4.9999703225762703e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21952.61, 'epoch': 0.3}
 10%|██████████▌                                                                                             | 291/2865 [18:25<2:06:52,  2.96s/it] 10%|██████████▌                                                                                             | 292/2865 [18:28<2:06:47,  2.96s/it]                                                                                                                                                  {'loss': 11.1451, 'grad_norm': 1.4140625, 'learning_rate': 4.9999536290770297e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21635.24, 'epoch': 0.31}
 10%|██████████▌                                                                                             | 292/2865 [18:28<2:06:47,  2.96s/it] 10%|██████████▋                                                                                             | 293/2865 [18:31<2:06:46,  2.96s/it]                                                                                                                                                  {'loss': 11.1421, 'grad_norm': 1.3515625, 'learning_rate': 4.9999332259617504e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21928.31, 'epoch': 0.31}
 10%|██████████▋                                                                                             | 293/2865 [18:31<2:06:46,  2.96s/it] 10%|██████████▋                                                                                             | 294/2865 [18:34<2:06:43,  2.96s/it]                                                                                                                                                  {'loss': 11.1273, 'grad_norm': 1.6015625, 'learning_rate': 4.9999091132607076e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21473.96, 'epoch': 0.31}
 10%|██████████▋                                                                                             | 294/2865 [18:34<2:06:43,  2.96s/it] 10%|██████████▋                                                                                             | 295/2865 [18:37<2:06:45,  2.96s/it]                                                                                                                                                  {'loss': 11.1196, 'grad_norm': 1.4453125, 'learning_rate': 4.9998812910096826e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20514.51, 'epoch': 0.31}
 10%|██████████▋                                                                                             | 295/2865 [18:37<2:06:45,  2.96s/it] 10%|██████████▋                                                                                             | 296/2865 [18:40<2:06:39,  2.96s/it]                                                                                                                                                  {'loss': 11.1063, 'grad_norm': 1.6640625, 'learning_rate': 4.9998497592499605e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21146.05, 'epoch': 0.31}
 10%|██████████▋                                                                                             | 296/2865 [18:40<2:06:39,  2.96s/it] 10%|██████████▊                                                                                             | 297/2865 [18:43<2:06:35,  2.96s/it]                                                                                                                                                  {'loss': 11.1432, 'grad_norm': 1.7421875, 'learning_rate': 4.999814518028329e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21921.94, 'epoch': 0.31}
 10%|██████████▊                                                                                             | 297/2865 [18:43<2:06:35,  2.96s/it] 10%|██████████▊                                                                                             | 298/2865 [18:46<2:06:34,  2.96s/it]                                                                                                                                                  {'loss': 11.121, 'grad_norm': 1.1875, 'learning_rate': 4.999775567397082e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21270.78, 'epoch': 0.31}
 10%|██████████▊                                                                                             | 298/2865 [18:46<2:06:34,  2.96s/it] 10%|██████████▊                                                                                             | 299/2865 [18:49<2:06:32,  2.96s/it]                                                                                                                                                  {'loss': 11.1172, 'grad_norm': 1.359375, 'learning_rate': 4.999732907414018e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21852.41, 'epoch': 0.31}
 10%|██████████▊                                                                                             | 299/2865 [18:49<2:06:32,  2.96s/it] 10%|██████████▉                                                                                             | 300/2865 [18:52<2:06:23,  2.96s/it]                                                                                                                                                  {'loss': 11.1371, 'grad_norm': 1.171875, 'learning_rate': 4.9996865381424384e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21418.12, 'epoch': 0.31}
 10%|██████████▉                                                                                             | 300/2865 [18:52<2:06:23,  2.96s/it][2025-10-12 03:27:44,803] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<04:20,  1.42s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:00,  1.01it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:18,  1.31it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<01:54,  1.58it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:38,  1.82it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:30,  1.97it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:23,  2.13it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:18,  2.24it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:16,  2.30it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.36it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:12,  2.38it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:11,  2.41it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:09,  2.48it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.51it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:06,  2.54it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.51it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:06,  2.52it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:05,  2.53it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:04,  2.55it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:03,  2.57it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.52it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:04,  2.53it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.54it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.55it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:00,  2.63it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<00:59,  2.66it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:01,  2.54it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:01,  2.52it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.55it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.55it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.55it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.56it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:58,  2.60it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:59,  2.53it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:58,  2.54it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:56,  2.62it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.57it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:57,  2.52it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:57,  2.53it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.53it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:54,  2.61it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:55,  2.54it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:53,  2.61it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:53,  2.60it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.53it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.54it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.54it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:52,  2.62it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.51it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:53,  2.51it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.55it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:51,  2.54it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:50,  2.57it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.52it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:51,  2.53it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.55it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:50,  2.53it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:48,  2.58it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.53it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:48,  2.54it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.55it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.56it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.56it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:46,  2.56it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.54it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.54it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:45,  2.56it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:44,  2.60it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:44,  2.58it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.56it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:43,  2.60it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:42,  2.59it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.54it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.59it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:41,  2.61it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:41,  2.56it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.58it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:40,  2.57it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:39,  2.61it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.55it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:38,  2.68it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:40,  2.52it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:38,  2.60it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.54it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.55it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.53it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:38,  2.53it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.56it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.59it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:36,  2.58it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:36,  2.55it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.58it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.55it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.55it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:33,  2.59it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:33,  2.60it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:32,  2.63it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.56it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.57it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.58it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:32,  2.56it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.56it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.54it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:30,  2.58it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.55it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.59it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.57it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.57it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.56it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.58it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:27,  2.59it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:28,  2.52it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.58it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:26,  2.57it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:27,  2.50it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.53it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.59it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:24,  2.62it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.55it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.56it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.58it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:23,  2.56it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.55it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.56it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.57it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:21,  2.60it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.56it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.55it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:20,  2.58it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.57it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.54it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.58it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:18,  2.64it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:18,  2.60it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.56it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.54it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.54it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.57it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.55it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.57it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.56it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:15,  2.61it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.56it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.53it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.54it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.60it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.54it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.52it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.56it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:13,  2.53it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.61it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:11,  2.65it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.51it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.52it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:11,  2.54it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.56it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.54it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.53it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.63it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.52it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.60it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.51it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:08,  2.49it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.65it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.48it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.57it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.50it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.52it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.54it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:04,  2.62it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.50it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.51it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.57it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.50it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.62it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.50it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.56it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.54it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.58it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.57it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.58it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.52it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.99it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.111602783203125, 'eval_runtime': 78.4786, 'eval_samples_per_second': 151.086, 'eval_steps_per_second': 2.37, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 0.31}
 10%|██████████▉                                                                                             | 300/2865 [20:10<2:06:23,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.99it/s][A
                                                                                                                                                  [A[2025-10-12 03:29:03,301] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-300
 11%|██████████▊                                                                                            | 301/2865 [20:19<20:06:01, 28.22s/it]                                                                                                                                                  {'loss': 11.1138, 'grad_norm': 1.3359375, 'learning_rate': 4.9996364596511504e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19031.72, 'epoch': 0.32}
 11%|██████████▊                                                                                            | 301/2865 [20:19<20:06:01, 28.22s/it] 11%|██████████▊                                                                                            | 302/2865 [20:22<14:41:32, 20.64s/it]                                                                                                                                                  {'loss': 11.1108, 'grad_norm': 1.203125, 'learning_rate': 4.999582672014463e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21286.82, 'epoch': 0.32}
 11%|██████████▊                                                                                            | 302/2865 [20:22<14:41:32, 20.64s/it] 11%|██████████▉                                                                                            | 303/2865 [20:25<10:54:40, 15.33s/it]                                                                                                                                                  {'loss': 11.1146, 'grad_norm': 1.2734375, 'learning_rate': 4.999525175312191e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21664.47, 'epoch': 0.32}
 11%|██████████▉                                                                                            | 303/2865 [20:25<10:54:40, 15.33s/it] 11%|███████████                                                                                             | 304/2865 [20:28<8:15:45, 11.61s/it]                                                                                                                                                  {'loss': 11.1416, 'grad_norm': 1.9375, 'learning_rate': 4.999463969629651e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20897.08, 'epoch': 0.32}
 11%|███████████                                                                                             | 304/2865 [20:28<8:15:45, 11.61s/it] 11%|███████████                                                                                             | 305/2865 [20:31<6:24:37,  9.01s/it]                                                                                                                                                  {'loss': 11.1295, 'grad_norm': 1.15625, 'learning_rate': 4.999399055057666e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21519.2, 'epoch': 0.32}
 11%|███████████                                                                                             | 305/2865 [20:31<6:24:37,  9.01s/it] 11%|███████████                                                                                             | 306/2865 [20:34<5:06:53,  7.20s/it]                                                                                                                                                  {'loss': 11.1195, 'grad_norm': 1.4296875, 'learning_rate': 4.9993304316925616e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20992.16, 'epoch': 0.32}
 11%|███████████                                                                                             | 306/2865 [20:34<5:06:53,  7.20s/it] 11%|███████████▏                                                                                            | 307/2865 [20:37<4:12:35,  5.92s/it]                                                                                                                                                  {'loss': 11.1288, 'grad_norm': 1.28125, 'learning_rate': 4.9992580996361635e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21976.92, 'epoch': 0.32}
 11%|███████████▏                                                                                            | 307/2865 [20:37<4:12:35,  5.92s/it] 11%|███████████▏                                                                                            | 308/2865 [20:40<3:34:26,  5.03s/it]                                                                                                                                                  {'loss': 11.1079, 'grad_norm': 1.4296875, 'learning_rate': 4.999182058995806e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20443.83, 'epoch': 0.32}
 11%|███████████▏                                                                                            | 308/2865 [20:40<3:34:26,  5.03s/it] 11%|███████████▏                                                                                            | 309/2865 [20:43<3:07:48,  4.41s/it]                                                                                                                                                  {'loss': 11.1092, 'grad_norm': 1.2421875, 'learning_rate': 4.999102309884323e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21888.75, 'epoch': 0.32}
 11%|███████████▏                                                                                            | 309/2865 [20:43<3:07:48,  4.41s/it] 11%|███████████▎                                                                                            | 310/2865 [20:46<2:49:04,  3.97s/it]                                                                                                                                                  {'loss': 11.1198, 'grad_norm': 1.28125, 'learning_rate': 4.999018852420051e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21497.88, 'epoch': 0.32}
 11%|███████████▎                                                                                            | 310/2865 [20:46<2:49:04,  3.97s/it] 11%|███████████▎                                                                                            | 311/2865 [20:49<2:36:05,  3.67s/it]                                                                                                                                                  {'loss': 11.1301, 'grad_norm': 1.34375, 'learning_rate': 4.998931686726832e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21061.06, 'epoch': 0.33}
 11%|███████████▎                                                                                            | 311/2865 [20:49<2:36:05,  3.67s/it] 11%|███████████▎                                                                                            | 312/2865 [20:52<2:26:56,  3.45s/it]                                                                                                                                                  {'loss': 11.1389, 'grad_norm': 1.5, 'learning_rate': 4.998840812934007e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20742.6, 'epoch': 0.33}
 11%|███████████▎                                                                                            | 312/2865 [20:52<2:26:56,  3.45s/it] 11%|███████████▎                                                                                            | 313/2865 [20:55<2:20:38,  3.31s/it]                                                                                                                                                  {'loss': 11.1486, 'grad_norm': 1.3359375, 'learning_rate': 4.998746231176423e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20795.23, 'epoch': 0.33}
 11%|███████████▎                                                                                            | 313/2865 [20:55<2:20:38,  3.31s/it] 11%|███████████▍                                                                                            | 314/2865 [20:58<2:16:03,  3.20s/it]                                                                                                                                                  {'loss': 11.0866, 'grad_norm': 1.9609375, 'learning_rate': 4.998647941594428e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20568.56, 'epoch': 0.33}
 11%|███████████▍                                                                                            | 314/2865 [20:58<2:16:03,  3.20s/it] 11%|███████████▍                                                                                            | 315/2865 [21:00<2:12:59,  3.13s/it]                                                                                                                                                  {'loss': 11.1292, 'grad_norm': 1.25, 'learning_rate': 4.998545944333869e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21140.31, 'epoch': 0.33}
 11%|███████████▍                                                                                            | 315/2865 [21:00<2:12:59,  3.13s/it] 11%|███████████▍                                                                                            | 316/2865 [21:03<2:10:35,  3.07s/it]                                                                                                                                                  {'loss': 11.1181, 'grad_norm': 1.28125, 'learning_rate': 4.998440239546099e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20763.44, 'epoch': 0.33}
 11%|███████████▍                                                                                            | 316/2865 [21:03<2:10:35,  3.07s/it] 11%|███████████▌                                                                                            | 317/2865 [21:06<2:08:58,  3.04s/it]                                                                                                                                                  {'loss': 11.1147, 'grad_norm': 1.390625, 'learning_rate': 4.998330827387969e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22186.23, 'epoch': 0.33}
 11%|███████████▌                                                                                            | 317/2865 [21:06<2:08:58,  3.04s/it] 11%|███████████▌                                                                                            | 318/2865 [21:09<2:07:52,  3.01s/it]                                                                                                                                                  {'loss': 11.1075, 'grad_norm': 1.1796875, 'learning_rate': 4.998217708021835e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21191.25, 'epoch': 0.33}
 11%|███████████▌                                                                                            | 318/2865 [21:09<2:07:52,  3.01s/it] 11%|███████████▌                                                                                            | 319/2865 [21:12<2:07:04,  2.99s/it]                                                                                                                                                  {'loss': 11.1045, 'grad_norm': 1.21875, 'learning_rate': 4.9981008816155496e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21025.41, 'epoch': 0.33}
 11%|███████████▌                                                                                            | 319/2865 [21:12<2:07:04,  2.99s/it] 11%|███████████▌                                                                                            | 320/2865 [21:15<2:06:36,  2.98s/it]                                                                                                                                                  {'loss': 11.1108, 'grad_norm': 1.2734375, 'learning_rate': 4.9979803483424695e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22000.24, 'epoch': 0.34}
 11%|███████████▌                                                                                            | 320/2865 [21:15<2:06:36,  2.98s/it] 11%|███████████▋                                                                                            | 321/2865 [21:18<2:06:05,  2.97s/it]                                                                                                                                                  {'loss': 11.1332, 'grad_norm': 1.1328125, 'learning_rate': 4.997856108381451e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21500.63, 'epoch': 0.34}
 11%|███████████▋                                                                                            | 321/2865 [21:18<2:06:05,  2.97s/it] 11%|███████████▋                                                                                            | 322/2865 [21:21<2:05:55,  2.97s/it]                                                                                                                                                  {'loss': 11.1341, 'grad_norm': 1.59375, 'learning_rate': 4.99772816191685e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22463.21, 'epoch': 0.34}
 11%|███████████▋                                                                                            | 322/2865 [21:21<2:05:55,  2.97s/it] 11%|███████████▋                                                                                            | 323/2865 [21:24<2:05:37,  2.97s/it]                                                                                                                                                  {'loss': 11.1259, 'grad_norm': 1.09375, 'learning_rate': 4.997596509138525e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20495.61, 'epoch': 0.34}
 11%|███████████▋                                                                                            | 323/2865 [21:24<2:05:37,  2.97s/it] 11%|███████████▊                                                                                            | 324/2865 [21:27<2:05:29,  2.96s/it]                                                                                                                                                  {'loss': 11.1099, 'grad_norm': 1.1171875, 'learning_rate': 4.997461150241828e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22349.16, 'epoch': 0.34}
 11%|███████████▊                                                                                            | 324/2865 [21:27<2:05:29,  2.96s/it] 11%|███████████▊                                                                                            | 325/2865 [21:30<2:05:20,  2.96s/it]                                                                                                                                                  {'loss': 11.1172, 'grad_norm': 1.4453125, 'learning_rate': 4.997322085427618e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20899.48, 'epoch': 0.34}
 11%|███████████▊                                                                                            | 325/2865 [21:30<2:05:20,  2.96s/it] 11%|███████████▊                                                                                            | 326/2865 [21:33<2:05:14,  2.96s/it]                                                                                                                                                  {'loss': 11.1464, 'grad_norm': 1.2265625, 'learning_rate': 4.997179314902249e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21253.59, 'epoch': 0.34}
 11%|███████████▊                                                                                            | 326/2865 [21:33<2:05:14,  2.96s/it] 11%|███████████▊                                                                                            | 327/2865 [21:36<2:05:06,  2.96s/it]                                                                                                                                                  {'loss': 11.1263, 'grad_norm': 1.1328125, 'learning_rate': 4.997032838877574e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21037.68, 'epoch': 0.34}
 11%|███████████▊                                                                                            | 327/2865 [21:36<2:05:06,  2.96s/it] 11%|███████████▉                                                                                            | 328/2865 [21:39<2:05:04,  2.96s/it]                                                                                                                                                  {'loss': 11.1202, 'grad_norm': 1.109375, 'learning_rate': 4.996882657570945e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21456.81, 'epoch': 0.34}
 11%|███████████▉                                                                                            | 328/2865 [21:39<2:05:04,  2.96s/it] 11%|███████████▉                                                                                            | 329/2865 [21:42<2:05:04,  2.96s/it]                                                                                                                                                  {'loss': 11.1255, 'grad_norm': 1.203125, 'learning_rate': 4.996728771205212e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20776.97, 'epoch': 0.34}
 11%|███████████▉                                                                                            | 329/2865 [21:42<2:05:04,  2.96s/it] 12%|███████████▉                                                                                            | 330/2865 [21:45<2:05:03,  2.96s/it]                                                                                                                                                  {'loss': 11.133, 'grad_norm': 1.1015625, 'learning_rate': 4.996571180008723e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21146.61, 'epoch': 0.35}
 12%|███████████▉                                                                                            | 330/2865 [21:45<2:05:03,  2.96s/it] 12%|████████████                                                                                            | 331/2865 [21:48<2:05:01,  2.96s/it]                                                                                                                                                  {'loss': 11.1109, 'grad_norm': 1.125, 'learning_rate': 4.996409884215324e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22336.58, 'epoch': 0.35}
 12%|████████████                                                                                            | 331/2865 [21:48<2:05:01,  2.96s/it] 12%|████████████                                                                                            | 332/2865 [21:51<2:04:52,  2.96s/it]                                                                                                                                                  {'loss': 11.1196, 'grad_norm': 1.34375, 'learning_rate': 4.996244884064357e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20995.38, 'epoch': 0.35}
 12%|████████████                                                                                            | 332/2865 [21:51<2:04:52,  2.96s/it] 12%|████████████                                                                                            | 333/2865 [21:54<2:04:46,  2.96s/it]                                                                                                                                                  {'loss': 11.1461, 'grad_norm': 1.1484375, 'learning_rate': 4.996076179800661e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21755.72, 'epoch': 0.35}
 12%|████████████                                                                                            | 333/2865 [21:54<2:04:46,  2.96s/it] 12%|████████████                                                                                            | 334/2865 [21:57<2:04:39,  2.96s/it]                                                                                                                                                  {'loss': 11.1153, 'grad_norm': 1.140625, 'learning_rate': 4.995903771674573e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21840.55, 'epoch': 0.35}
 12%|████████████                                                                                            | 334/2865 [21:57<2:04:39,  2.96s/it] 12%|████████████▏                                                                                           | 335/2865 [22:00<2:04:40,  2.96s/it]                                                                                                                                                  {'loss': 11.1338, 'grad_norm': 1.4765625, 'learning_rate': 4.995727659941925e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22011.06, 'epoch': 0.35}
 12%|████████████▏                                                                                           | 335/2865 [22:00<2:04:40,  2.96s/it] 12%|████████████▏                                                                                           | 336/2865 [22:03<2:04:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0915, 'grad_norm': 1.1796875, 'learning_rate': 4.995547844864043e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22482.21, 'epoch': 0.35}
 12%|████████████▏                                                                                           | 336/2865 [22:03<2:04:40,  2.96s/it] 12%|████████████▏                                                                                           | 337/2865 [22:06<2:04:25,  2.95s/it]                                                                                                                                                  {'loss': 11.1119, 'grad_norm': 1.3515625, 'learning_rate': 4.995364326707752e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21039.9, 'epoch': 0.35}
 12%|████████████▏                                                                                           | 337/2865 [22:06<2:04:25,  2.95s/it] 12%|████████████▎                                                                                           | 338/2865 [22:08<2:04:25,  2.95s/it]                                                                                                                                                  {'loss': 11.1264, 'grad_norm': 1.140625, 'learning_rate': 4.9951771057453675e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20273.07, 'epoch': 0.35}
 12%|████████████▎                                                                                           | 338/2865 [22:08<2:04:25,  2.95s/it] 12%|████████████▎                                                                                           | 339/2865 [22:11<2:04:19,  2.95s/it]                                                                                                                                                  {'loss': 11.1218, 'grad_norm': 1.2890625, 'learning_rate': 4.994986182254704e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21969.78, 'epoch': 0.35}
 12%|████████████▎                                                                                           | 339/2865 [22:11<2:04:19,  2.95s/it] 12%|████████████▎                                                                                           | 340/2865 [22:14<2:04:26,  2.96s/it]                                                                                                                                                  {'loss': 11.1267, 'grad_norm': 1.078125, 'learning_rate': 4.9947915565190673e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20963.19, 'epoch': 0.36}
 12%|████████████▎                                                                                           | 340/2865 [22:14<2:04:26,  2.96s/it] 12%|████████████▍                                                                                           | 341/2865 [22:17<2:04:23,  2.96s/it]                                                                                                                                                  {'loss': 11.122, 'grad_norm': 1.0859375, 'learning_rate': 4.9945932288272566e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22250.66, 'epoch': 0.36}
 12%|████████████▍                                                                                           | 341/2865 [22:17<2:04:23,  2.96s/it] 12%|████████████▍                                                                                           | 342/2865 [22:20<2:04:14,  2.95s/it]                                                                                                                                                  {'loss': 11.1416, 'grad_norm': 1.203125, 'learning_rate': 4.994391199473566e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21086.34, 'epoch': 0.36}
 12%|████████████▍                                                                                           | 342/2865 [22:20<2:04:14,  2.95s/it] 12%|████████████▍                                                                                           | 343/2865 [22:23<2:04:12,  2.95s/it]                                                                                                                                                  {'loss': 11.1192, 'grad_norm': 1.1171875, 'learning_rate': 4.994185468757781e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21653.38, 'epoch': 0.36}
 12%|████████████▍                                                                                           | 343/2865 [22:23<2:04:12,  2.95s/it] 12%|████████████▍                                                                                           | 344/2865 [22:26<2:04:10,  2.96s/it]                                                                                                                                                  {'loss': 11.1062, 'grad_norm': 1.203125, 'learning_rate': 4.9939760369851796e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20652.8, 'epoch': 0.36}
 12%|████████████▍                                                                                           | 344/2865 [22:26<2:04:10,  2.96s/it] 12%|████████████▌                                                                                           | 345/2865 [22:29<2:04:17,  2.96s/it]                                                                                                                                                  {'loss': 11.1185, 'grad_norm': 1.3046875, 'learning_rate': 4.993762904466534e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21823.41, 'epoch': 0.36}
 12%|████████████▌                                                                                           | 345/2865 [22:29<2:04:17,  2.96s/it] 12%|████████████▌                                                                                           | 346/2865 [22:32<2:04:15,  2.96s/it]                                                                                                                                                  {'loss': 11.1079, 'grad_norm': 1.296875, 'learning_rate': 4.993546071518105e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21343.61, 'epoch': 0.36}
 12%|████████████▌                                                                                           | 346/2865 [22:32<2:04:15,  2.96s/it] 12%|████████████▌                                                                                           | 347/2865 [22:35<2:04:06,  2.96s/it]                                                                                                                                                  {'loss': 11.1006, 'grad_norm': 1.28125, 'learning_rate': 4.993325538461644e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21157.99, 'epoch': 0.36}
 12%|████████████▌                                                                                           | 347/2865 [22:35<2:04:06,  2.96s/it] 12%|████████████▋                                                                                           | 348/2865 [22:38<2:04:07,  2.96s/it]                                                                                                                                                  {'loss': 11.1175, 'grad_norm': 1.4140625, 'learning_rate': 4.9931013056243966e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21295.73, 'epoch': 0.36}
 12%|████████████▋                                                                                           | 348/2865 [22:38<2:04:07,  2.96s/it] 12%|████████████▋                                                                                           | 349/2865 [22:41<2:03:59,  2.96s/it]                                                                                                                                                  {'loss': 11.1244, 'grad_norm': 1.2421875, 'learning_rate': 4.992873373339095e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21839.47, 'epoch': 0.37}
 12%|████████████▋                                                                                           | 349/2865 [22:41<2:03:59,  2.96s/it] 12%|████████████▋                                                                                           | 350/2865 [22:44<2:04:02,  2.96s/it]                                                                                                                                                  {'loss': 11.1113, 'grad_norm': 1.1328125, 'learning_rate': 4.992641741943961e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21557.83, 'epoch': 0.37}
 12%|████████████▋                                                                                           | 350/2865 [22:44<2:04:02,  2.96s/it] 12%|████████████▋                                                                                           | 351/2865 [22:47<2:04:02,  2.96s/it]                                                                                                                                                  {'loss': 11.1319, 'grad_norm': 1.15625, 'learning_rate': 4.992406411782709e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22541.31, 'epoch': 0.37}
 12%|████████████▋                                                                                           | 351/2865 [22:47<2:04:02,  2.96s/it] 12%|████████████▊                                                                                           | 352/2865 [22:50<2:03:58,  2.96s/it]                                                                                                                                                  {'loss': 11.1006, 'grad_norm': 1.2734375, 'learning_rate': 4.9921673832045356e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21687.8, 'epoch': 0.37}
 12%|████████████▊                                                                                           | 352/2865 [22:50<2:03:58,  2.96s/it] 12%|████████████▊                                                                                           | 353/2865 [22:53<2:03:59,  2.96s/it]                                                                                                                                                  {'loss': 11.1392, 'grad_norm': 1.1875, 'learning_rate': 4.991924656564132e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20470.48, 'epoch': 0.37}
 12%|████████████▊                                                                                           | 353/2865 [22:53<2:03:59,  2.96s/it] 12%|████████████▊                                                                                           | 354/2865 [22:56<2:03:48,  2.96s/it]                                                                                                                                                  {'loss': 11.1287, 'grad_norm': 1.21875, 'learning_rate': 4.9916782322216734e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21067.38, 'epoch': 0.37}
 12%|████████████▊                                                                                           | 354/2865 [22:56<2:03:48,  2.96s/it] 12%|████████████▉                                                                                           | 355/2865 [22:59<2:03:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0939, 'grad_norm': 1.1328125, 'learning_rate': 4.991428110542822e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20862.12, 'epoch': 0.37}
 12%|████████████▉                                                                                           | 355/2865 [22:59<2:03:37,  2.96s/it] 12%|████████████▉                                                                                           | 356/2865 [23:02<2:03:35,  2.96s/it]                                                                                                                                                  {'loss': 11.1153, 'grad_norm': 1.296875, 'learning_rate': 4.991174291898727e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21853.37, 'epoch': 0.37}
 12%|████████████▉                                                                                           | 356/2865 [23:02<2:03:35,  2.96s/it] 12%|████████████▉                                                                                           | 357/2865 [23:05<2:03:30,  2.95s/it]                                                                                                                                                  {'loss': 11.1145, 'grad_norm': 1.1796875, 'learning_rate': 4.990916776666022e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21629.55, 'epoch': 0.37}
 12%|████████████▉                                                                                           | 357/2865 [23:05<2:03:30,  2.95s/it] 12%|████████████▉                                                                                           | 358/2865 [23:08<2:03:28,  2.95s/it]                                                                                                                                                  {'loss': 11.1013, 'grad_norm': 1.171875, 'learning_rate': 4.9906555652268297e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21161.49, 'epoch': 0.37}
 12%|████████████▉                                                                                           | 358/2865 [23:08<2:03:28,  2.95s/it] 13%|█████████████                                                                                           | 359/2865 [23:11<2:03:30,  2.96s/it]                                                                                                                                                  {'loss': 11.1318, 'grad_norm': 1.1328125, 'learning_rate': 4.9903906579687534e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21279.32, 'epoch': 0.38}
 13%|█████████████                                                                                           | 359/2865 [23:11<2:03:30,  2.96s/it] 13%|█████████████                                                                                           | 360/2865 [23:14<2:03:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0991, 'grad_norm': 1.28125, 'learning_rate': 4.990122055284883e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21237.14, 'epoch': 0.38}
 13%|█████████████                                                                                           | 360/2865 [23:14<2:03:30,  2.96s/it] 13%|█████████████                                                                                           | 361/2865 [23:16<2:03:25,  2.96s/it]                                                                                                                                                  {'loss': 11.103, 'grad_norm': 1.3125, 'learning_rate': 4.989849757573789e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21808.6, 'epoch': 0.38}
 13%|█████████████                                                                                           | 361/2865 [23:16<2:03:25,  2.96s/it] 13%|█████████████▏                                                                                          | 362/2865 [23:19<2:03:25,  2.96s/it]                                                                                                                                                  {'loss': 11.123, 'grad_norm': 1.140625, 'learning_rate': 4.989573765239528e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20895.08, 'epoch': 0.38}
 13%|█████████████▏                                                                                          | 362/2865 [23:19<2:03:25,  2.96s/it] 13%|█████████████▏                                                                                          | 363/2865 [23:22<2:03:16,  2.96s/it]                                                                                                                                                  {'loss': 11.1014, 'grad_norm': 1.0859375, 'learning_rate': 4.9892940786916384e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19795.37, 'epoch': 0.38}
 13%|█████████████▏                                                                                          | 363/2865 [23:22<2:03:16,  2.96s/it] 13%|█████████████▏                                                                                          | 364/2865 [23:25<2:03:14,  2.96s/it]                                                                                                                                                  {'loss': 11.1139, 'grad_norm': 1.25, 'learning_rate': 4.98901069834514e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20722.85, 'epoch': 0.38}
 13%|█████████████▏                                                                                          | 364/2865 [23:25<2:03:14,  2.96s/it] 13%|█████████████▏                                                                                          | 365/2865 [23:28<2:03:11,  2.96s/it]                                                                                                                                                  {'loss': 11.11, 'grad_norm': 1.09375, 'learning_rate': 4.988723624620533e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21964.95, 'epoch': 0.38}
 13%|█████████████▏                                                                                          | 365/2865 [23:28<2:03:11,  2.96s/it] 13%|█████████████▎                                                                                          | 366/2865 [23:31<2:03:06,  2.96s/it]                                                                                                                                                  {'loss': 11.1197, 'grad_norm': 1.1796875, 'learning_rate': 4.9884328579437976e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21508.53, 'epoch': 0.38}
 13%|█████████████▎                                                                                          | 366/2865 [23:31<2:03:06,  2.96s/it] 13%|█████████████▎                                                                                          | 367/2865 [23:34<2:02:58,  2.95s/it]                                                                                                                                                  {'loss': 11.1233, 'grad_norm': 1.1171875, 'learning_rate': 4.988138398746396e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21057.23, 'epoch': 0.38}
 13%|█████████████▎                                                                                          | 367/2865 [23:34<2:02:58,  2.95s/it] 13%|█████████████▎                                                                                          | 368/2865 [23:37<2:02:51,  2.95s/it]                                                                                                                                                  {'loss': 11.0912, 'grad_norm': 1.2109375, 'learning_rate': 4.987840247465269e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20385.17, 'epoch': 0.39}
 13%|█████████████▎                                                                                          | 368/2865 [23:37<2:02:51,  2.95s/it] 13%|█████████████▍                                                                                          | 369/2865 [23:40<2:02:51,  2.95s/it]                                                                                                                                                  {'loss': 11.128, 'grad_norm': 1.1328125, 'learning_rate': 4.9875384045428345e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22374.47, 'epoch': 0.39}
 13%|█████████████▍                                                                                          | 369/2865 [23:40<2:02:51,  2.95s/it] 13%|█████████████▍                                                                                          | 370/2865 [23:43<2:02:53,  2.96s/it]                                                                                                                                                  {'loss': 11.1057, 'grad_norm': 1.140625, 'learning_rate': 4.98723287042699e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21827.45, 'epoch': 0.39}
 13%|█████████████▍                                                                                          | 370/2865 [23:43<2:02:53,  2.96s/it] 13%|█████████████▍                                                                                          | 371/2865 [23:46<2:02:47,  2.95s/it]                                                                                                                                                  {'loss': 11.114, 'grad_norm': 1.1015625, 'learning_rate': 4.986923645571109e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20818.54, 'epoch': 0.39}
 13%|█████████████▍                                                                                          | 371/2865 [23:46<2:02:47,  2.95s/it] 13%|█████████████▌                                                                                          | 372/2865 [23:49<2:02:47,  2.96s/it]                                                                                                                                                  {'loss': 11.114, 'grad_norm': 1.0703125, 'learning_rate': 4.986610730434043e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21311.27, 'epoch': 0.39}
 13%|█████████████▌                                                                                          | 372/2865 [23:49<2:02:47,  2.96s/it] 13%|█████████████▌                                                                                          | 373/2865 [23:52<2:02:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0949, 'grad_norm': 1.078125, 'learning_rate': 4.986294125480117e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22056.96, 'epoch': 0.39}
 13%|█████████████▌                                                                                          | 373/2865 [23:52<2:02:43,  2.95s/it] 13%|█████████████▌                                                                                          | 374/2865 [23:55<2:02:41,  2.96s/it]                                                                                                                                                  {'loss': 11.1284, 'grad_norm': 1.265625, 'learning_rate': 4.985973831179135e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21843.21, 'epoch': 0.39}
 13%|█████████████▌                                                                                          | 374/2865 [23:55<2:02:41,  2.96s/it] 13%|█████████████▌                                                                                          | 375/2865 [23:58<2:02:35,  2.95s/it]                                                                                                                                                  {'loss': 11.1225, 'grad_norm': 1.1328125, 'learning_rate': 4.9856498480063716e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21007.29, 'epoch': 0.39}
 13%|█████████████▌                                                                                          | 375/2865 [23:58<2:02:35,  2.95s/it] 13%|█████████████▋                                                                                          | 376/2865 [24:01<2:02:31,  2.95s/it]                                                                                                                                                  {'loss': 11.1264, 'grad_norm': 1.2890625, 'learning_rate': 4.9853221764425784e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21935.62, 'epoch': 0.39}
 13%|█████████████▋                                                                                          | 376/2865 [24:01<2:02:31,  2.95s/it] 13%|█████████████▋                                                                                          | 377/2865 [24:04<2:02:30,  2.95s/it]                                                                                                                                                  {'loss': 11.11, 'grad_norm': 1.53125, 'learning_rate': 4.984990816973978e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21776.42, 'epoch': 0.39}
 13%|█████████████▋                                                                                          | 377/2865 [24:04<2:02:30,  2.95s/it] 13%|█████████████▋                                                                                          | 378/2865 [24:07<2:02:28,  2.95s/it]                                                                                                                                                  {'loss': 11.1221, 'grad_norm': 1.3828125, 'learning_rate': 4.984655770092266e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21393.91, 'epoch': 0.4}
 13%|█████████████▋                                                                                          | 378/2865 [24:07<2:02:28,  2.95s/it] 13%|█████████████▊                                                                                          | 379/2865 [24:10<2:02:33,  2.96s/it]                                                                                                                                                  {'loss': 11.1263, 'grad_norm': 1.328125, 'learning_rate': 4.984317036294609e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22243.54, 'epoch': 0.4}
 13%|█████████████▊                                                                                          | 379/2865 [24:10<2:02:33,  2.96s/it] 13%|█████████████▊                                                                                          | 380/2865 [24:13<2:02:38,  2.96s/it]                                                                                                                                                  {'loss': 11.1217, 'grad_norm': 1.296875, 'learning_rate': 4.983974616083647e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22328.01, 'epoch': 0.4}
 13%|█████████████▊                                                                                          | 380/2865 [24:13<2:02:38,  2.96s/it] 13%|█████████████▊                                                                                          | 381/2865 [24:16<2:02:36,  2.96s/it]                                                                                                                                                  {'loss': 11.1113, 'grad_norm': 1.4296875, 'learning_rate': 4.9836285099674875e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21408.94, 'epoch': 0.4}
 13%|█████████████▊                                                                                          | 381/2865 [24:16<2:02:36,  2.96s/it] 13%|█████████████▊                                                                                          | 382/2865 [24:19<2:02:32,  2.96s/it]                                                                                                                                                  {'loss': 11.1148, 'grad_norm': 1.140625, 'learning_rate': 4.983278718459708e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22558.35, 'epoch': 0.4}
 13%|█████████████▊                                                                                          | 382/2865 [24:19<2:02:32,  2.96s/it] 13%|█████████████▉                                                                                          | 383/2865 [24:22<2:02:24,  2.96s/it]                                                                                                                                                  {'loss': 11.1058, 'grad_norm': 1.3984375, 'learning_rate': 4.982925242079356e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21198.61, 'epoch': 0.4}
 13%|█████████████▉                                                                                          | 383/2865 [24:22<2:02:24,  2.96s/it] 13%|█████████████▉                                                                                          | 384/2865 [24:24<2:02:22,  2.96s/it]                                                                                                                                                  {'loss': 11.1261, 'grad_norm': 1.3515625, 'learning_rate': 4.982568081350945e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21956.91, 'epoch': 0.4}
 13%|█████████████▉                                                                                          | 384/2865 [24:24<2:02:22,  2.96s/it] 13%|█████████████▉                                                                                          | 385/2865 [24:27<2:02:15,  2.96s/it]                                                                                                                                                  {'loss': 11.1164, 'grad_norm': 1.2421875, 'learning_rate': 4.982207236804456e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21980.76, 'epoch': 0.4}
 13%|█████████████▉                                                                                          | 385/2865 [24:27<2:02:15,  2.96s/it] 13%|██████████████                                                                                          | 386/2865 [24:30<2:02:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0979, 'grad_norm': 1.3515625, 'learning_rate': 4.9818427089753384e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20840.27, 'epoch': 0.4}
 13%|██████████████                                                                                          | 386/2865 [24:30<2:02:08,  2.96s/it] 14%|██████████████                                                                                          | 387/2865 [24:33<2:02:17,  2.96s/it]                                                                                                                                                  {'loss': 11.115, 'grad_norm': 1.1484375, 'learning_rate': 4.981474498404504e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22576.62, 'epoch': 0.41}
 14%|██████████████                                                                                          | 387/2865 [24:33<2:02:17,  2.96s/it] 14%|██████████████                                                                                          | 388/2865 [24:36<2:02:13,  2.96s/it]                                                                                                                                                  {'loss': 11.1058, 'grad_norm': 1.1328125, 'learning_rate': 4.981102605638332e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21261.21, 'epoch': 0.41}
 14%|██████████████                                                                                          | 388/2865 [24:36<2:02:13,  2.96s/it] 14%|██████████████                                                                                          | 389/2865 [24:39<2:02:08,  2.96s/it]                                                                                                                                                  {'loss': 11.1075, 'grad_norm': 1.125, 'learning_rate': 4.9807270312286646e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22142.42, 'epoch': 0.41}
 14%|██████████████                                                                                          | 389/2865 [24:39<2:02:08,  2.96s/it] 14%|██████████████▏                                                                                         | 390/2865 [24:42<2:02:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0931, 'grad_norm': 1.15625, 'learning_rate': 4.9803477757328054e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22674.61, 'epoch': 0.41}
 14%|██████████████▏                                                                                         | 390/2865 [24:42<2:02:11,  2.96s/it] 14%|██████████████▏                                                                                         | 391/2865 [24:45<2:02:04,  2.96s/it]                                                                                                                                                  {'loss': 11.1228, 'grad_norm': 1.140625, 'learning_rate': 4.9799648397135234e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22138.26, 'epoch': 0.41}
 14%|██████████████▏                                                                                         | 391/2865 [24:45<2:02:04,  2.96s/it] 14%|██████████████▏                                                                                         | 392/2865 [24:48<2:01:58,  2.96s/it]                                                                                                                                                  {'loss': 11.1204, 'grad_norm': 1.265625, 'learning_rate': 4.9795782237390456e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21295.26, 'epoch': 0.41}
 14%|██████████████▏                                                                                         | 392/2865 [24:48<2:01:58,  2.96s/it] 14%|██████████████▎                                                                                         | 393/2865 [24:51<2:01:52,  2.96s/it]                                                                                                                                                  {'loss': 11.1175, 'grad_norm': 1.2734375, 'learning_rate': 4.979187928383063e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21541.13, 'epoch': 0.41}
 14%|██████████████▎                                                                                         | 393/2865 [24:51<2:01:52,  2.96s/it] 14%|██████████████▎                                                                                         | 394/2865 [24:54<2:01:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0994, 'grad_norm': 1.1171875, 'learning_rate': 4.978793954224724e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19921.24, 'epoch': 0.41}
 14%|██████████████▎                                                                                         | 394/2865 [24:54<2:01:53,  2.96s/it] 14%|██████████████▎                                                                                         | 395/2865 [24:57<2:01:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0988, 'grad_norm': 1.265625, 'learning_rate': 4.978396301848637e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19593.75, 'epoch': 0.41}
 14%|██████████████▎                                                                                         | 395/2865 [24:57<2:01:42,  2.96s/it] 14%|██████████████▎                                                                                         | 396/2865 [25:00<2:01:40,  2.96s/it]                                                                                                                                                  {'loss': 11.138, 'grad_norm': 1.1875, 'learning_rate': 4.977994971844867e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21337.02, 'epoch': 0.41}
 14%|██████████████▎                                                                                         | 396/2865 [25:00<2:01:40,  2.96s/it] 14%|██████████████▍                                                                                         | 397/2865 [25:03<2:01:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0976, 'grad_norm': 1.125, 'learning_rate': 4.977589964808937e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21805.96, 'epoch': 0.42}
 14%|██████████████▍                                                                                         | 397/2865 [25:03<2:01:37,  2.96s/it] 14%|██████████████▍                                                                                         | 398/2865 [25:06<2:01:33,  2.96s/it]                                                                                                                                                  {'loss': 11.134, 'grad_norm': 1.328125, 'learning_rate': 4.977181281341829e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22081.18, 'epoch': 0.42}
 14%|██████████████▍                                                                                         | 398/2865 [25:06<2:01:33,  2.96s/it] 14%|██████████████▍                                                                                         | 399/2865 [25:09<2:01:31,  2.96s/it]                                                                                                                                                  {'loss': 11.1089, 'grad_norm': 1.171875, 'learning_rate': 4.976768922049975e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20136.31, 'epoch': 0.42}
 14%|██████████████▍                                                                                         | 399/2865 [25:09<2:01:31,  2.96s/it] 14%|██████████████▌                                                                                         | 400/2865 [25:12<2:01:29,  2.96s/it]                                                                                                                                                  {'loss': 11.1042, 'grad_norm': 1.484375, 'learning_rate': 4.9763528875452646e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19610.77, 'epoch': 0.42}
 14%|██████████████▌                                                                                         | 400/2865 [25:12<2:01:29,  2.96s/it][2025-10-12 03:34:04,645] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:03<05:30,  1.81s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:40,  1.21s/it][A
  2%|██▎                                                                                                          | 4/185 [00:04<02:44,  1.10it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<02:10,  1.37it/s][A
  3%|███▌                                                                                                         | 6/185 [00:05<01:47,  1.66it/s][A
  4%|████                                                                                                         | 7/185 [00:05<01:34,  1.88it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:29,  1.97it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:06<01:23,  2.12it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:16,  2.27it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:07<01:13,  2.37it/s][A
  6%|███████                                                                                                     | 12/185 [00:07<01:13,  2.36it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:11,  2.41it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:08<01:09,  2.45it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:08,  2.49it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:09<01:07,  2.52it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:09<01:06,  2.53it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:05,  2.55it/s][A
 10%|███████████                                                                                                 | 19/185 [00:10<01:05,  2.54it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:10<01:04,  2.56it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:11<01:04,  2.53it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:11<01:03,  2.56it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:02,  2.58it/s][A
 13%|██████████████                                                                                              | 24/185 [00:12<01:03,  2.53it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:12<01:02,  2.57it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:01,  2.58it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:13<01:02,  2.53it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:01,  2.57it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:14<01:01,  2.54it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:14<00:58,  2.66it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.56it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:15<01:00,  2.52it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<01:00,  2.51it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:16<00:59,  2.53it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:16<00:58,  2.58it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:59,  2.52it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:17<00:58,  2.54it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:57,  2.55it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:18<00:57,  2.53it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:18<00:56,  2.58it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.55it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:19<00:56,  2.55it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:19<00:55,  2.54it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:20<00:55,  2.56it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:20<00:53,  2.61it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.57it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:21<00:53,  2.57it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:21<00:54,  2.54it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:22<00:53,  2.54it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:22<00:53,  2.52it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:52,  2.57it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:23<00:52,  2.53it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:23<00:51,  2.55it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:49,  2.64it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:24<00:51,  2.54it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:50,  2.57it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:25<00:49,  2.57it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:25<00:50,  2.53it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:49,  2.54it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:26<00:49,  2.54it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:48,  2.56it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:27<00:47,  2.58it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:27<00:47,  2.58it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.57it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:28<00:46,  2.60it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:28<00:46,  2.57it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:29<00:46,  2.53it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:29<00:45,  2.60it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.53it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:30<00:45,  2.54it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:30<00:43,  2.59it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:31<00:45,  2.51it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:31<00:44,  2.54it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.53it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:32<00:43,  2.55it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:32<00:39,  2.73it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.51it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:33<00:42,  2.51it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.54it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:34<00:41,  2.52it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:34<00:40,  2.54it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:39,  2.59it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:35<00:39,  2.57it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:35<00:40,  2.52it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:36<00:38,  2.58it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:36<00:39,  2.53it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:37,  2.58it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:37<00:37,  2.56it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:37<00:37,  2.56it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:38<00:37,  2.54it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:38<00:37,  2.54it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:37,  2.51it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:39<00:35,  2.59it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:39<00:36,  2.53it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:40<00:35,  2.53it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:40<00:34,  2.55it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.54it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:41<00:33,  2.58it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:41<00:32,  2.62it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.53it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:42<00:32,  2.58it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:31,  2.64it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:43<00:31,  2.57it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:43<00:31,  2.53it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.56it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:44<00:31,  2.52it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.59it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:45<00:30,  2.55it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:45<00:29,  2.60it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.51it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:46<00:29,  2.52it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:46<00:28,  2.53it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:47<00:28,  2.56it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:47<00:28,  2.53it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:26,  2.62it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:48<00:27,  2.55it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:48<00:26,  2.59it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:49<00:25,  2.56it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:50<00:25,  2.52it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:50<00:24,  2.56it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:23,  2.62it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:51<00:23,  2.63it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.56it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:52<00:23,  2.51it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:52<00:22,  2.53it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.56it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:53<00:21,  2.57it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.57it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:54<00:21,  2.54it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:54<00:20,  2.56it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.54it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:55<00:19,  2.56it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:55<00:19,  2.56it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:56<00:18,  2.60it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:56<00:18,  2.59it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.59it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:57<00:18,  2.54it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:57<00:17,  2.56it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.59it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:58<00:16,  2.54it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.59it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:59<00:16,  2.56it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:59<00:15,  2.56it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.55it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [01:00<00:14,  2.57it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.51it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:01<00:13,  2.59it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:01<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.58it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:02<00:12,  2.54it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.56it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:03<00:12,  2.56it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:03<00:11,  2.53it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.54it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:04<00:10,  2.70it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:04<00:10,  2.50it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:05<00:10,  2.53it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:05<00:09,  2.56it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.52it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:06<00:08,  2.58it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:06<00:08,  2.55it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:07,  2.63it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:07<00:07,  2.53it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.53it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:08<00:06,  2.66it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:08<00:06,  2.52it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.53it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:09<00:05,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.55it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:10<00:05,  2.56it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:10<00:04,  2.67it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:11<00:03,  2.60it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.57it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:12<00:03,  2.55it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:12<00:02,  2.66it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.53it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:13<00:01,  2.54it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:13<00:01,  2.54it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.61it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:14<00:00,  2.56it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.52it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.03it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.092155456542969, 'eval_runtime': 78.6158, 'eval_samples_per_second': 150.822, 'eval_steps_per_second': 2.366, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 0.42}
 14%|██████████████▌                                                                                         | 400/2865 [26:30<2:01:29,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.03it/s][A
                                                                                                                                                  [A[2025-10-12 03:35:23,283] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-400
 14%|██████████████▍                                                                                        | 401/2865 [26:39<19:19:57, 28.25s/it]                                                                                                                                                  {'loss': 11.1253, 'grad_norm': 1.1640625, 'learning_rate': 4.975933178445042e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 20021.65, 'epoch': 0.42}
 14%|██████████████▍                                                                                        | 401/2865 [26:39<19:19:57, 28.25s/it] 14%|██████████████▍                                                                                        | 402/2865 [26:42<14:07:55, 20.66s/it]                                                                                                                                                  {'loss': 11.1234, 'grad_norm': 1.1640625, 'learning_rate': 4.9755097953721015e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22394.23, 'epoch': 0.42}
 14%|██████████████▍                                                                                        | 402/2865 [26:42<14:07:55, 20.66s/it] 14%|██████████████▍                                                                                        | 403/2865 [26:45<10:29:39, 15.34s/it]                                                                                                                                                  {'loss': 11.0918, 'grad_norm': 1.1640625, 'learning_rate': 4.97508273895469e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22540.84, 'epoch': 0.42}
 14%|██████████████▍                                                                                        | 403/2865 [26:45<10:29:39, 15.34s/it] 14%|██████████████▋                                                                                         | 404/2865 [26:48<7:56:45, 11.62s/it]                                                                                                                                                  {'loss': 11.0975, 'grad_norm': 1.3984375, 'learning_rate': 4.974652009826506e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21224.01, 'epoch': 0.42}
 14%|██████████████▋                                                                                         | 404/2865 [26:48<7:56:45, 11.62s/it] 14%|██████████████▋                                                                                         | 405/2865 [26:51<6:09:51,  9.02s/it]                                                                                                                                                  {'loss': 11.0825, 'grad_norm': 1.1640625, 'learning_rate': 4.9742176086266966e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21113.54, 'epoch': 0.42}
 14%|██████████████▋                                                                                         | 405/2865 [26:51<6:09:51,  9.02s/it] 14%|██████████████▋                                                                                         | 406/2865 [26:54<4:55:09,  7.20s/it]                                                                                                                                                  {'loss': 11.1285, 'grad_norm': 1.71875, 'learning_rate': 4.9737795359998594e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22300.59, 'epoch': 0.43}
 14%|██████████████▋                                                                                         | 406/2865 [26:54<4:55:09,  7.20s/it] 14%|██████████████▊                                                                                         | 407/2865 [26:57<4:02:55,  5.93s/it]                                                                                                                                                  {'loss': 11.1077, 'grad_norm': 1.1328125, 'learning_rate': 4.9733377925960376e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21160.46, 'epoch': 0.43}
 14%|██████████████▊                                                                                         | 407/2865 [26:57<4:02:55,  5.93s/it] 14%|██████████████▊                                                                                         | 408/2865 [27:00<3:26:25,  5.04s/it]                                                                                                                                                  {'loss': 11.1173, 'grad_norm': 1.734375, 'learning_rate': 4.972892379070724e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21810.78, 'epoch': 0.43}
 14%|██████████████▊                                                                                         | 408/2865 [27:00<3:26:25,  5.04s/it] 14%|██████████████▊                                                                                         | 409/2865 [27:03<3:00:49,  4.42s/it]                                                                                                                                                  {'loss': 11.1103, 'grad_norm': 1.5859375, 'learning_rate': 4.972443296084856e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22301.01, 'epoch': 0.43}
 14%|██████████████▊                                                                                         | 409/2865 [27:03<3:00:49,  4.42s/it] 14%|██████████████▉                                                                                         | 410/2865 [27:06<2:42:44,  3.98s/it]                                                                                                                                                  {'loss': 11.1165, 'grad_norm': 1.5625, 'learning_rate': 4.971990544304815e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20487.25, 'epoch': 0.43}
 14%|██████████████▉                                                                                         | 410/2865 [27:06<2:42:44,  3.98s/it] 14%|██████████████▉                                                                                         | 411/2865 [27:09<2:30:17,  3.67s/it]                                                                                                                                                  {'loss': 11.1007, 'grad_norm': 1.359375, 'learning_rate': 4.97153412440243e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22882.95, 'epoch': 0.43}
 14%|██████████████▉                                                                                         | 411/2865 [27:09<2:30:17,  3.67s/it] 14%|██████████████▉                                                                                         | 412/2865 [27:12<2:21:21,  3.46s/it]                                                                                                                                                  {'loss': 11.0994, 'grad_norm': 1.5234375, 'learning_rate': 4.971074037054967e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21469.34, 'epoch': 0.43}
 14%|██████████████▉                                                                                         | 412/2865 [27:12<2:21:21,  3.46s/it] 14%|██████████████▉                                                                                         | 413/2865 [27:15<2:15:08,  3.31s/it]                                                                                                                                                  {'loss': 11.1217, 'grad_norm': 1.3671875, 'learning_rate': 4.9706102829451397e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21945.52, 'epoch': 0.43}
 14%|██████████████▉                                                                                         | 413/2865 [27:15<2:15:08,  3.31s/it] 14%|███████████████                                                                                         | 414/2865 [27:17<2:10:46,  3.20s/it]                                                                                                                                                  {'loss': 11.1109, 'grad_norm': 1.5390625, 'learning_rate': 4.9701428627611015e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21998.73, 'epoch': 0.43}
 14%|███████████████                                                                                         | 414/2865 [27:17<2:10:46,  3.20s/it] 14%|███████████████                                                                                         | 415/2865 [27:20<2:07:46,  3.13s/it]                                                                                                                                                  {'loss': 11.1473, 'grad_norm': 1.2578125, 'learning_rate': 4.969671777196443e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22186.81, 'epoch': 0.43}
 14%|███████████████                                                                                         | 415/2865 [27:20<2:07:46,  3.13s/it] 15%|███████████████                                                                                         | 416/2865 [27:23<2:05:41,  3.08s/it]                                                                                                                                                  {'loss': 11.1119, 'grad_norm': 1.2109375, 'learning_rate': 4.969197026950197e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22603.17, 'epoch': 0.44}
 15%|███████████████                                                                                         | 416/2865 [27:23<2:05:41,  3.08s/it] 15%|███████████████▏                                                                                        | 417/2865 [27:26<2:04:12,  3.04s/it]                                                                                                                                                  {'loss': 11.1322, 'grad_norm': 1.3125, 'learning_rate': 4.968718612726834e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22518.81, 'epoch': 0.44}
 15%|███████████████▏                                                                                        | 417/2865 [27:26<2:04:12,  3.04s/it] 15%|███████████████▏                                                                                        | 418/2865 [27:29<2:03:04,  3.02s/it]                                                                                                                                                  {'loss': 11.1113, 'grad_norm': 1.2109375, 'learning_rate': 4.968236535236259e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22002.14, 'epoch': 0.44}
 15%|███████████████▏                                                                                        | 418/2865 [27:29<2:03:04,  3.02s/it] 15%|███████████████▏                                                                                        | 419/2865 [27:32<2:02:15,  3.00s/it]                                                                                                                                                  {'loss': 11.1016, 'grad_norm': 1.625, 'learning_rate': 4.967750795193814e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20748.67, 'epoch': 0.44}
 15%|███████████████▏                                                                                        | 419/2865 [27:32<2:02:15,  3.00s/it] 15%|███████████████▏                                                                                        | 420/2865 [27:35<2:01:40,  2.99s/it]                                                                                                                                                  {'loss': 11.0922, 'grad_norm': 1.34375, 'learning_rate': 4.967261393320277e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21384.95, 'epoch': 0.44}
 15%|███████████████▏                                                                                        | 420/2865 [27:35<2:01:40,  2.99s/it] 15%|███████████████▎                                                                                        | 421/2865 [27:38<2:01:11,  2.98s/it]                                                                                                                                                  {'loss': 11.1138, 'grad_norm': 1.3671875, 'learning_rate': 4.9667683303418585e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21419.48, 'epoch': 0.44}
 15%|███████████████▎                                                                                        | 421/2865 [27:38<2:01:11,  2.98s/it] 15%|███████████████▎                                                                                        | 422/2865 [27:41<2:00:58,  2.97s/it]                                                                                                                                                  {'loss': 11.1042, 'grad_norm': 1.390625, 'learning_rate': 4.9662716069902e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21455.64, 'epoch': 0.44}
 15%|███████████████▎                                                                                        | 422/2865 [27:41<2:00:58,  2.97s/it] 15%|███████████████▎                                                                                        | 423/2865 [27:44<2:00:46,  2.97s/it]                                                                                                                                                  {'loss': 11.1198, 'grad_norm': 1.3359375, 'learning_rate': 4.96577122400238e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22558.58, 'epoch': 0.44}
 15%|███████████████▎                                                                                        | 423/2865 [27:44<2:00:46,  2.97s/it] 15%|███████████████▍                                                                                        | 424/2865 [27:47<2:00:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0972, 'grad_norm': 1.3515625, 'learning_rate': 4.9652671821209e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21410.28, 'epoch': 0.44}
 15%|███████████████▍                                                                                        | 424/2865 [27:47<2:00:36,  2.96s/it] 15%|███████████████▍                                                                                        | 425/2865 [27:50<2:00:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0916, 'grad_norm': 1.2109375, 'learning_rate': 4.964759482093697e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21124.88, 'epoch': 0.45}
 15%|███████████████▍                                                                                        | 425/2865 [27:50<2:00:21,  2.96s/it] 15%|███████████████▍                                                                                        | 426/2865 [27:53<2:00:21,  2.96s/it]                                                                                                                                                  {'loss': 11.114, 'grad_norm': 1.3125, 'learning_rate': 4.964248124674133e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22173.74, 'epoch': 0.45}
 15%|███████████████▍                                                                                        | 426/2865 [27:53<2:00:21,  2.96s/it] 15%|███████████████▌                                                                                        | 427/2865 [27:56<2:00:14,  2.96s/it]                                                                                                                                                  {'loss': 11.12, 'grad_norm': 1.2578125, 'learning_rate': 4.963733110620998e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21065.24, 'epoch': 0.45}
 15%|███████████████▌                                                                                        | 427/2865 [27:56<2:00:14,  2.96s/it] 15%|███████████████▌                                                                                        | 428/2865 [27:59<2:00:12,  2.96s/it]                                                                                                                                                  {'loss': 11.1091, 'grad_norm': 1.1484375, 'learning_rate': 4.9632144406985076e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22147.1, 'epoch': 0.45}
 15%|███████████████▌                                                                                        | 428/2865 [27:59<2:00:12,  2.96s/it] 15%|███████████████▌                                                                                        | 429/2865 [28:02<2:00:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0984, 'grad_norm': 1.1484375, 'learning_rate': 4.962692115676303e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22465.42, 'epoch': 0.45}
 15%|███████████████▌                                                                                        | 429/2865 [28:02<2:00:14,  2.96s/it] 15%|███████████████▌                                                                                        | 430/2865 [28:05<2:00:08,  2.96s/it]                                                                                                                                                  {'loss': 11.124, 'grad_norm': 1.1171875, 'learning_rate': 4.962166136329449e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22282.91, 'epoch': 0.45}
 15%|███████████████▌                                                                                        | 430/2865 [28:05<2:00:08,  2.96s/it] 15%|███████████████▋                                                                                        | 431/2865 [28:08<2:00:01,  2.96s/it]                                                                                                                                                  {'loss': 11.1046, 'grad_norm': 1.1171875, 'learning_rate': 4.9616365034384326e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22257.06, 'epoch': 0.45}
 15%|███████████████▋                                                                                        | 431/2865 [28:08<2:00:01,  2.96s/it] 15%|███████████████▋                                                                                        | 432/2865 [28:11<1:59:58,  2.96s/it]                                                                                                                                                  {'loss': 11.1146, 'grad_norm': 1.171875, 'learning_rate': 4.9611032177891614e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22643.34, 'epoch': 0.45}
 15%|███████████████▋                                                                                        | 432/2865 [28:11<1:59:58,  2.96s/it] 15%|███████████████▋                                                                                        | 433/2865 [28:14<1:59:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0966, 'grad_norm': 1.1171875, 'learning_rate': 4.960566280172965e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22635.16, 'epoch': 0.45}
 15%|███████████████▋                                                                                        | 433/2865 [28:14<1:59:57,  2.96s/it] 15%|███████████████▊                                                                                        | 434/2865 [28:17<1:59:52,  2.96s/it]                                                                                                                                                  {'loss': 11.1003, 'grad_norm': 1.1875, 'learning_rate': 4.960025691386589e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21430.68, 'epoch': 0.45}
 15%|███████████████▊                                                                                        | 434/2865 [28:17<1:59:52,  2.96s/it] 15%|███████████████▊                                                                                        | 435/2865 [28:20<1:59:52,  2.96s/it]                                                                                                                                                  {'loss': 11.1059, 'grad_norm': 1.1328125, 'learning_rate': 4.959481452232203e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22505.88, 'epoch': 0.46}
 15%|███████████████▊                                                                                        | 435/2865 [28:20<1:59:52,  2.96s/it] 15%|███████████████▊                                                                                        | 436/2865 [28:23<1:59:43,  2.96s/it]                                                                                                                                                  {'loss': 11.1014, 'grad_norm': 1.1328125, 'learning_rate': 4.958933563517386e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20955.3, 'epoch': 0.46}
 15%|███████████████▊                                                                                        | 436/2865 [28:23<1:59:43,  2.96s/it] 15%|███████████████▊                                                                                        | 437/2865 [28:26<1:59:44,  2.96s/it]                                                                                                                                                  {'loss': 11.1021, 'grad_norm': 1.1328125, 'learning_rate': 4.958382026055137e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20873.14, 'epoch': 0.46}
 15%|███████████████▊                                                                                        | 437/2865 [28:26<1:59:44,  2.96s/it] 15%|███████████████▉                                                                                        | 438/2865 [28:28<1:59:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0974, 'grad_norm': 1.4140625, 'learning_rate': 4.957826840663868e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20935.29, 'epoch': 0.46}
 15%|███████████████▉                                                                                        | 438/2865 [28:28<1:59:36,  2.96s/it] 15%|███████████████▉                                                                                        | 439/2865 [28:31<1:59:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0949, 'grad_norm': 1.1796875, 'learning_rate': 4.957268008167404e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20786.43, 'epoch': 0.46}
 15%|███████████████▉                                                                                        | 439/2865 [28:31<1:59:31,  2.96s/it] 15%|███████████████▉                                                                                        | 440/2865 [28:34<1:59:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0948, 'grad_norm': 1.1875, 'learning_rate': 4.956705529394981e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21761.95, 'epoch': 0.46}
 15%|███████████████▉                                                                                        | 440/2865 [28:34<1:59:27,  2.96s/it] 15%|████████████████                                                                                        | 441/2865 [28:37<1:59:23,  2.96s/it]                                                                                                                                                  {'loss': 11.1091, 'grad_norm': 1.2734375, 'learning_rate': 4.956139405181249e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21848.93, 'epoch': 0.46}
 15%|████████████████                                                                                        | 441/2865 [28:37<1:59:23,  2.96s/it] 15%|████████████████                                                                                        | 442/2865 [28:40<1:59:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0932, 'grad_norm': 1.3203125, 'learning_rate': 4.955569636366263e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21464.6, 'epoch': 0.46}
 15%|████████████████                                                                                        | 442/2865 [28:40<1:59:21,  2.96s/it] 15%|████████████████                                                                                        | 443/2865 [28:43<1:59:23,  2.96s/it]                                                                                                                                                  {'loss': 11.1176, 'grad_norm': 1.3359375, 'learning_rate': 4.954996223795489e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21852.52, 'epoch': 0.46}
 15%|████████████████                                                                                        | 443/2865 [28:43<1:59:23,  2.96s/it] 15%|████████████████                                                                                        | 444/2865 [28:46<1:59:12,  2.95s/it]                                                                                                                                                  {'loss': 11.0936, 'grad_norm': 1.296875, 'learning_rate': 4.9544191683197986e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20610.0, 'epoch': 0.46}
 15%|████████████████                                                                                        | 444/2865 [28:46<1:59:12,  2.95s/it] 16%|████████████████▏                                                                                       | 445/2865 [28:49<1:59:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0804, 'grad_norm': 1.2109375, 'learning_rate': 4.9538384707954694e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22165.57, 'epoch': 0.47}
 16%|████████████████▏                                                                                       | 445/2865 [28:49<1:59:13,  2.96s/it] 16%|████████████████▏                                                                                       | 446/2865 [28:52<1:59:20,  2.96s/it]                                                                                                                                                  {'loss': 11.1009, 'grad_norm': 1.203125, 'learning_rate': 4.953254132084183e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21523.46, 'epoch': 0.47}
 16%|████████████████▏                                                                                       | 446/2865 [28:52<1:59:20,  2.96s/it] 16%|████████████████▏                                                                                       | 447/2865 [28:55<1:59:13,  2.96s/it]                                                                                                                                                  {'loss': 11.1096, 'grad_norm': 1.3984375, 'learning_rate': 4.952666153053025e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22145.46, 'epoch': 0.47}
 16%|████████████████▏                                                                                       | 447/2865 [28:55<1:59:13,  2.96s/it] 16%|████████████████▎                                                                                       | 448/2865 [28:58<1:59:08,  2.96s/it]                                                                                                                                                  {'loss': 11.1003, 'grad_norm': 1.2890625, 'learning_rate': 4.9520745345744814e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21728.84, 'epoch': 0.47}
 16%|████████████████▎                                                                                       | 448/2865 [28:58<1:59:08,  2.96s/it] 16%|████████████████▎                                                                                       | 449/2865 [29:01<1:58:58,  2.95s/it]                                                                                                                                                  {'loss': 11.0859, 'grad_norm': 1.4296875, 'learning_rate': 4.951479277526441e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21192.29, 'epoch': 0.47}
 16%|████████████████▎                                                                                       | 449/2865 [29:01<1:58:58,  2.95s/it] 16%|████████████████▎                                                                                       | 450/2865 [29:04<1:58:51,  2.95s/it]                                                                                                                                                  {'loss': 11.0972, 'grad_norm': 1.1640625, 'learning_rate': 4.9508803827921876e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21218.32, 'epoch': 0.47}
 16%|████████████████▎                                                                                       | 450/2865 [29:04<1:58:51,  2.95s/it] 16%|████████████████▎                                                                                       | 451/2865 [29:07<1:59:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0962, 'grad_norm': 1.3359375, 'learning_rate': 4.950277851260408e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22309.29, 'epoch': 0.47}
 16%|████████████████▎                                                                                       | 451/2865 [29:07<1:59:02,  2.96s/it] 16%|████████████████▍                                                                                       | 452/2865 [29:10<1:58:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0756, 'grad_norm': 1.3125, 'learning_rate': 4.9496716838251825e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19775.55, 'epoch': 0.47}
 16%|████████████████▍                                                                                       | 452/2865 [29:10<1:58:55,  2.96s/it] 16%|████████████████▍                                                                                       | 453/2865 [29:13<1:58:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0851, 'grad_norm': 1.546875, 'learning_rate': 4.949061881385986e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20331.29, 'epoch': 0.47}
 16%|████████████████▍                                                                                       | 453/2865 [29:13<1:58:50,  2.96s/it] 16%|████████████████▍                                                                                       | 454/2865 [29:16<1:58:50,  2.96s/it]                                                                                                                                                  {'loss': 11.1009, 'grad_norm': 1.15625, 'learning_rate': 4.948448444847689e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20546.27, 'epoch': 0.48}
 16%|████████████████▍                                                                                       | 454/2865 [29:16<1:58:50,  2.96s/it] 16%|████████████████▌                                                                                       | 455/2865 [29:19<1:58:56,  2.96s/it]                                                                                                                                                  {'loss': 11.1276, 'grad_norm': 1.34375, 'learning_rate': 4.947831375120554e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20804.29, 'epoch': 0.48}
 16%|████████████████▌                                                                                       | 455/2865 [29:19<1:58:56,  2.96s/it] 16%|████████████████▌                                                                                       | 456/2865 [29:22<1:58:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0988, 'grad_norm': 1.1796875, 'learning_rate': 4.9472106731202364e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20042.94, 'epoch': 0.48}
 16%|████████████████▌                                                                                       | 456/2865 [29:22<1:58:49,  2.96s/it] 16%|████████████████▌                                                                                       | 457/2865 [29:25<1:58:47,  2.96s/it]                                                                                                                                                  {'loss': 11.1416, 'grad_norm': 1.3828125, 'learning_rate': 4.946586339767776e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21633.91, 'epoch': 0.48}
 16%|████████████████▌                                                                                       | 457/2865 [29:25<1:58:47,  2.96s/it] 16%|████████████████▋                                                                                       | 458/2865 [29:28<1:58:41,  2.96s/it]                                                                                                                                                  {'loss': 11.087, 'grad_norm': 1.2734375, 'learning_rate': 4.945958375989609e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21517.83, 'epoch': 0.48}
 16%|████████████████▋                                                                                       | 458/2865 [29:28<1:58:41,  2.96s/it] 16%|████████████████▋                                                                                       | 459/2865 [29:31<1:58:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0811, 'grad_norm': 1.1875, 'learning_rate': 4.9453267827175506e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21978.98, 'epoch': 0.48}
 16%|████████████████▋                                                                                       | 459/2865 [29:31<1:58:36,  2.96s/it] 16%|████████████████▋                                                                                       | 460/2865 [29:34<1:58:30,  2.96s/it]                                                                                                                                                  {'loss': 11.1174, 'grad_norm': 1.2265625, 'learning_rate': 4.9446915608888086e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21122.03, 'epoch': 0.48}
 16%|████████████████▋                                                                                       | 460/2865 [29:34<1:58:30,  2.96s/it] 16%|████████████████▋                                                                                       | 461/2865 [29:36<1:58:29,  2.96s/it]                                                                                                                                                  {'loss': 11.1033, 'grad_norm': 1.1796875, 'learning_rate': 4.9440527114459714e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22404.73, 'epoch': 0.48}
 16%|████████████████▋                                                                                       | 461/2865 [29:37<1:58:29,  2.96s/it] 16%|████████████████▊                                                                                       | 462/2865 [29:39<1:58:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0975, 'grad_norm': 1.359375, 'learning_rate': 4.943410235337009e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20765.8, 'epoch': 0.48}
 16%|████████████████▊                                                                                       | 462/2865 [29:39<1:58:21,  2.96s/it] 16%|████████████████▊                                                                                       | 463/2865 [29:42<1:58:15,  2.95s/it]                                                                                                                                                  {'loss': 11.1099, 'grad_norm': 1.1796875, 'learning_rate': 4.942764133515278e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21577.06, 'epoch': 0.48}
 16%|████████████████▊                                                                                       | 463/2865 [29:42<1:58:15,  2.95s/it] 16%|████████████████▊                                                                                       | 464/2865 [29:45<1:58:14,  2.95s/it]                                                                                                                                                  {'loss': 11.1016, 'grad_norm': 1.0859375, 'learning_rate': 4.94211440693951e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19712.67, 'epoch': 0.49}
 16%|████████████████▊                                                                                       | 464/2865 [29:45<1:58:14,  2.95s/it] 16%|████████████████▉                                                                                       | 465/2865 [29:48<1:58:09,  2.95s/it]                                                                                                                                                  {'loss': 11.09, 'grad_norm': 1.140625, 'learning_rate': 4.9414610565738185e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21056.0, 'epoch': 0.49}
 16%|████████████████▉                                                                                       | 465/2865 [29:48<1:58:09,  2.95s/it] 16%|████████████████▉                                                                                       | 466/2865 [29:51<1:58:02,  2.95s/it]                                                                                                                                                  {'loss': 11.0907, 'grad_norm': 1.1328125, 'learning_rate': 4.9408040833876914e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21342.52, 'epoch': 0.49}
 16%|████████████████▉                                                                                       | 466/2865 [29:51<1:58:02,  2.95s/it] 16%|████████████████▉                                                                                       | 467/2865 [29:54<1:58:04,  2.95s/it]                                                                                                                                                  {'loss': 11.1138, 'grad_norm': 1.15625, 'learning_rate': 4.940143488355996e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21954.15, 'epoch': 0.49}
 16%|████████████████▉                                                                                       | 467/2865 [29:54<1:58:04,  2.95s/it] 16%|████████████████▉                                                                                       | 468/2865 [29:57<1:58:08,  2.96s/it]                                                                                                                                                  {'loss': 11.1044, 'grad_norm': 1.21875, 'learning_rate': 4.939479272458971e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21185.73, 'epoch': 0.49}
 16%|████████████████▉                                                                                       | 468/2865 [29:57<1:58:08,  2.96s/it] 16%|█████████████████                                                                                       | 469/2865 [30:00<1:58:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0839, 'grad_norm': 1.390625, 'learning_rate': 4.93881143668223e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19629.55, 'epoch': 0.49}
 16%|█████████████████                                                                                       | 469/2865 [30:00<1:58:03,  2.96s/it] 16%|█████████████████                                                                                       | 470/2865 [30:03<1:58:00,  2.96s/it]                                                                                                                                                  {'loss': 11.1023, 'grad_norm': 1.125, 'learning_rate': 4.938139982016756e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21933.19, 'epoch': 0.49}
 16%|█████████████████                                                                                       | 470/2865 [30:03<1:58:00,  2.96s/it] 16%|█████████████████                                                                                       | 471/2865 [30:06<1:57:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0904, 'grad_norm': 1.1171875, 'learning_rate': 4.937464909458903e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22000.26, 'epoch': 0.49}
 16%|█████████████████                                                                                       | 471/2865 [30:06<1:57:56,  2.96s/it] 16%|█████████████████▏                                                                                      | 472/2865 [30:09<1:57:59,  2.96s/it]                                                                                                                                                  {'loss': 11.125, 'grad_norm': 1.28125, 'learning_rate': 4.936786220010395e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22471.96, 'epoch': 0.49}
 16%|█████████████████▏                                                                                      | 472/2865 [30:09<1:57:59,  2.96s/it] 17%|█████████████████▏                                                                                      | 473/2865 [30:12<1:57:56,  2.96s/it]                                                                                                                                                  {'loss': 11.1066, 'grad_norm': 1.1484375, 'learning_rate': 4.9361039146783204e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21510.67, 'epoch': 0.5}
 17%|█████████████████▏                                                                                      | 473/2865 [30:12<1:57:56,  2.96s/it] 17%|█████████████████▏                                                                                      | 474/2865 [30:15<1:57:44,  2.95s/it]                                                                                                                                                  {'loss': 11.0959, 'grad_norm': 1.4921875, 'learning_rate': 4.935417994475134e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21186.85, 'epoch': 0.5}
 17%|█████████████████▏                                                                                      | 474/2865 [30:15<1:57:44,  2.95s/it] 17%|█████████████████▏                                                                                      | 475/2865 [30:18<1:57:47,  2.96s/it]                                                                                                                                                  {'loss': 11.1049, 'grad_norm': 1.1953125, 'learning_rate': 4.934728460418656e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21718.43, 'epoch': 0.5}
 17%|█████████████████▏                                                                                      | 475/2865 [30:18<1:57:47,  2.96s/it] 17%|█████████████████▎                                                                                      | 476/2865 [30:21<1:57:44,  2.96s/it]                                                                                                                                                  {'loss': 11.1157, 'grad_norm': 1.15625, 'learning_rate': 4.934035313532067e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22270.52, 'epoch': 0.5}
 17%|█████████████████▎                                                                                      | 476/2865 [30:21<1:57:44,  2.96s/it] 17%|█████████████████▎                                                                                      | 477/2865 [30:24<1:57:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0815, 'grad_norm': 1.3046875, 'learning_rate': 4.933338554843911e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21666.53, 'epoch': 0.5}
 17%|█████████████████▎                                                                                      | 477/2865 [30:24<1:57:44,  2.96s/it] 17%|█████████████████▎                                                                                      | 478/2865 [30:27<1:57:46,  2.96s/it]                                                                                                                                                  {'loss': 11.1037, 'grad_norm': 1.109375, 'learning_rate': 4.932638185388089e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22116.83, 'epoch': 0.5}
 17%|█████████████████▎                                                                                      | 478/2865 [30:27<1:57:46,  2.96s/it] 17%|█████████████████▍                                                                                      | 479/2865 [30:30<1:57:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0836, 'grad_norm': 1.28125, 'learning_rate': 4.9319342062038606e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21029.24, 'epoch': 0.5}
 17%|█████████████████▍                                                                                      | 479/2865 [30:30<1:57:36,  2.96s/it] 17%|█████████████████▍                                                                                      | 480/2865 [30:33<1:57:28,  2.96s/it]                                                                                                                                                  {'loss': 11.1001, 'grad_norm': 1.421875, 'learning_rate': 4.931226618335843e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20449.52, 'epoch': 0.5}
 17%|█████████████████▍                                                                                      | 480/2865 [30:33<1:57:28,  2.96s/it] 17%|█████████████████▍                                                                                      | 481/2865 [30:36<1:57:33,  2.96s/it]                                                                                                                                                  {'loss': 11.1152, 'grad_norm': 1.2421875, 'learning_rate': 4.930515422834007e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21494.01, 'epoch': 0.5}
 17%|█████████████████▍                                                                                      | 481/2865 [30:36<1:57:33,  2.96s/it] 17%|█████████████████▍                                                                                      | 482/2865 [30:39<1:57:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0978, 'grad_norm': 1.7578125, 'learning_rate': 4.9298006207536765e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21292.85, 'epoch': 0.5}
 17%|█████████████████▍                                                                                      | 482/2865 [30:39<1:57:30,  2.96s/it] 17%|█████████████████▌                                                                                      | 483/2865 [30:42<1:57:28,  2.96s/it]                                                                                                                                                  {'loss': 11.1065, 'grad_norm': 1.2890625, 'learning_rate': 4.9290822131555295e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21749.35, 'epoch': 0.51}
 17%|█████████████████▌                                                                                      | 483/2865 [30:42<1:57:28,  2.96s/it] 17%|█████████████████▌                                                                                      | 484/2865 [30:45<1:57:34,  2.96s/it]                                                                                                                                                  {'loss': 11.1002, 'grad_norm': 1.578125, 'learning_rate': 4.928360201105591e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21589.91, 'epoch': 0.51}
 17%|█████████████████▌                                                                                      | 484/2865 [30:45<1:57:34,  2.96s/it] 17%|█████████████████▌                                                                                      | 485/2865 [30:47<1:57:29,  2.96s/it]                                                                                                                                                  {'loss': 11.1009, 'grad_norm': 1.265625, 'learning_rate': 4.9276345856752356e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21108.97, 'epoch': 0.51}
 17%|█████████████████▌                                                                                      | 485/2865 [30:47<1:57:29,  2.96s/it] 17%|█████████████████▋                                                                                      | 486/2865 [30:50<1:57:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0903, 'grad_norm': 1.3125, 'learning_rate': 4.926905367941185e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21084.36, 'epoch': 0.51}
 17%|█████████████████▋                                                                                      | 486/2865 [30:50<1:57:21,  2.96s/it] 17%|█████████████████▋                                                                                      | 487/2865 [30:53<1:57:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0976, 'grad_norm': 1.3984375, 'learning_rate': 4.926172548985508e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20483.03, 'epoch': 0.51}
 17%|█████████████████▋                                                                                      | 487/2865 [30:53<1:57:15,  2.96s/it] 17%|█████████████████▋                                                                                      | 488/2865 [30:56<1:57:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0791, 'grad_norm': 1.2890625, 'learning_rate': 4.925436129895614e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22169.31, 'epoch': 0.51}
 17%|█████████████████▋                                                                                      | 488/2865 [30:56<1:57:14,  2.96s/it] 17%|█████████████████▊                                                                                      | 489/2865 [30:59<1:57:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0946, 'grad_norm': 1.3359375, 'learning_rate': 4.924696111764257e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21871.73, 'epoch': 0.51}
 17%|█████████████████▊                                                                                      | 489/2865 [30:59<1:57:13,  2.96s/it] 17%|█████████████████▊                                                                                      | 490/2865 [31:02<1:57:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0888, 'grad_norm': 1.2890625, 'learning_rate': 4.92395249568953e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21673.11, 'epoch': 0.51}
 17%|█████████████████▊                                                                                      | 490/2865 [31:02<1:57:09,  2.96s/it] 17%|█████████████████▊                                                                                      | 491/2865 [31:05<1:57:05,  2.96s/it]                                                                                                                                                  {'loss': 11.116, 'grad_norm': 1.140625, 'learning_rate': 4.923205282774865e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21060.5, 'epoch': 0.51}
 17%|█████████████████▊                                                                                      | 491/2865 [31:05<1:57:05,  2.96s/it] 17%|█████████████████▊                                                                                      | 492/2865 [31:08<1:56:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0975, 'grad_norm': 1.265625, 'learning_rate': 4.922454474129033e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20145.03, 'epoch': 0.52}
 17%|█████████████████▊                                                                                      | 492/2865 [31:08<1:56:58,  2.96s/it] 17%|█████████████████▉                                                                                      | 493/2865 [31:11<1:56:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0947, 'grad_norm': 1.2890625, 'learning_rate': 4.92170007086614e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21488.18, 'epoch': 0.52}
 17%|█████████████████▉                                                                                      | 493/2865 [31:11<1:56:49,  2.96s/it] 17%|█████████████████▉                                                                                      | 494/2865 [31:14<1:56:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0919, 'grad_norm': 1.234375, 'learning_rate': 4.9209420741056235e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21542.66, 'epoch': 0.52}
 17%|█████████████████▉                                                                                      | 494/2865 [31:14<1:56:41,  2.95s/it] 17%|█████████████████▉                                                                                      | 495/2865 [31:17<1:56:37,  2.95s/it]                                                                                                                                                  {'loss': 11.1086, 'grad_norm': 1.2421875, 'learning_rate': 4.920180484972255e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21940.82, 'epoch': 0.52}
 17%|█████████████████▉                                                                                      | 495/2865 [31:17<1:56:37,  2.95s/it] 17%|██████████████████                                                                                      | 496/2865 [31:20<1:56:34,  2.95s/it]                                                                                                                                                  {'loss': 11.103, 'grad_norm': 1.140625, 'learning_rate': 4.9194153045961385e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20930.68, 'epoch': 0.52}
 17%|██████████████████                                                                                      | 496/2865 [31:20<1:56:34,  2.95s/it] 17%|██████████████████                                                                                      | 497/2865 [31:23<1:56:31,  2.95s/it]                                                                                                                                                  {'loss': 11.1067, 'grad_norm': 1.1640625, 'learning_rate': 4.918646534112704e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22024.65, 'epoch': 0.52}
 17%|██████████████████                                                                                      | 497/2865 [31:23<1:56:31,  2.95s/it] 17%|██████████████████                                                                                      | 498/2865 [31:26<1:56:33,  2.95s/it]                                                                                                                                                  {'loss': 11.0982, 'grad_norm': 1.15625, 'learning_rate': 4.917874174662711e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20936.49, 'epoch': 0.52}
 17%|██████████████████                                                                                      | 498/2865 [31:26<1:56:33,  2.95s/it] 17%|██████████████████                                                                                      | 499/2865 [31:29<1:56:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0939, 'grad_norm': 1.203125, 'learning_rate': 4.917098227392242e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22232.64, 'epoch': 0.52}
 17%|██████████████████                                                                                      | 499/2865 [31:29<1:56:31,  2.96s/it] 17%|██████████████████▏                                                                                     | 500/2865 [31:32<1:56:33,  2.96s/it]                                                                                                                                                  {'loss': 11.1004, 'grad_norm': 1.1484375, 'learning_rate': 4.916318693452706e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22267.05, 'epoch': 0.52}
 17%|██████████████████▏                                                                                     | 500/2865 [31:32<1:56:33,  2.96s/it][2025-10-12 03:40:24,638] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:23,  1.11s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:35,  1.17it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:01,  1.49it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:43,  1.73it/s][A
  3%|███▌                                                                                                         | 6/185 [00:03<01:31,  1.95it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:24,  2.10it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:19,  2.22it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:04<01:10,  2.51it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:14,  2.36it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:05<01:11,  2.43it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:10,  2.46it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:09,  2.48it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:06<01:08,  2.51it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:08,  2.49it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:07<01:07,  2.50it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:03,  2.64it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:06,  2.52it/s][A
 10%|███████████                                                                                                 | 19/185 [00:08<01:06,  2.50it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:04,  2.54it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:09<01:03,  2.57it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.53it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:02,  2.61it/s][A
 13%|██████████████                                                                                              | 24/185 [00:10<01:03,  2.54it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.57it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:01,  2.59it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<00:59,  2.65it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:00,  2.61it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:12<01:00,  2.58it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.57it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<01:00,  2.54it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.54it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:59,  2.56it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:14<00:58,  2.57it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:56,  2.65it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:58,  2.56it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:15<00:58,  2.54it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:58,  2.52it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:16<00:57,  2.56it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:57,  2.52it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:56,  2.55it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:17<00:56,  2.53it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:55,  2.55it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:18<00:54,  2.58it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:54,  2.58it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:52,  2.64it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:19<00:54,  2.55it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:52,  2.61it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:53,  2.55it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.54it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:51,  2.60it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:21<00:51,  2.61it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:50,  2.63it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:51,  2.55it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:22<00:50,  2.56it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:51,  2.51it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:23<00:50,  2.52it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:49,  2.56it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:50,  2.51it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:24<00:49,  2.54it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:48,  2.55it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:25<00:47,  2.57it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.59it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:46,  2.63it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:26<00:46,  2.60it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.57it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:46,  2.56it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:45,  2.56it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.54it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:28<00:44,  2.57it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:45,  2.53it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:29<00:44,  2.56it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.54it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:43,  2.55it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:30<00:43,  2.54it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.58it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:41,  2.59it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:31<00:42,  2.55it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.55it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:32<00:40,  2.57it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.59it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:39,  2.60it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:33<00:39,  2.57it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:39,  2.56it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:34<00:38,  2.59it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.55it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:38,  2.56it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:35<00:37,  2.57it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:36,  2.60it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:36<00:37,  2.56it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:36<00:36,  2.56it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:36,  2.53it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:37<00:35,  2.56it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.56it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:38<00:34,  2.58it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:38<00:34,  2.58it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:33,  2.61it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:39<00:34,  2.54it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:33,  2.55it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:40<00:32,  2.62it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.53it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:41<00:31,  2.57it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.58it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.56it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:42<00:29,  2.65it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.53it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:43<00:30,  2.50it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:30,  2.53it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.52it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:44<00:28,  2.58it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.54it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:28,  2.52it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:45<00:27,  2.54it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.58it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:46<00:26,  2.61it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.55it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:26,  2.56it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:47<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.59it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:48<00:24,  2.57it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.62it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.55it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:49<00:23,  2.57it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:50<00:23,  2.56it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.55it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:21,  2.61it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:51<00:21,  2.58it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.56it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:52<00:20,  2.59it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:52<00:20,  2.57it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:20,  2.56it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:53<00:19,  2.59it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:18,  2.65it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:19,  2.51it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:54<00:18,  2.58it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.60it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:55<00:18,  2.52it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.53it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:17,  2.53it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:56<00:16,  2.60it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.57it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:57<00:16,  2.56it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.62it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.50it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:58<00:14,  2.53it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.52it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:59<00:14,  2.56it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.57it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:00<00:12,  2.55it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.54it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:01<00:12,  2.55it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:01<00:11,  2.56it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.57it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:02<00:10,  2.66it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.55it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:03<00:10,  2.59it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:03<00:09,  2.55it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.55it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:04<00:08,  2.56it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.56it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.56it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:05<00:07,  2.57it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.65it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:06<00:06,  2.58it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.56it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.62it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:07<00:05,  2.57it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.63it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:08<00:05,  2.58it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:08<00:04,  2.54it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.57it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:09<00:03,  2.58it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.58it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:10<00:03,  2.58it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:10<00:02,  2.63it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.55it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:11<00:01,  2.55it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.56it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:12<00:01,  2.68it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:12<00:00,  2.57it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.58it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:13<00:00,  2.04it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.079370498657227, 'eval_runtime': 77.4707, 'eval_samples_per_second': 153.051, 'eval_steps_per_second': 2.401, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 0.52}
 17%|██████████████████▏                                                                                     | 500/2865 [32:49<1:56:33,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.04it/s][A
                                                                                                                                                  [A[2025-10-12 03:41:42,129] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-500
 17%|██████████████████                                                                                     | 501/2865 [32:59<18:33:51, 28.27s/it]                                                                                                                                                  {'loss': 11.1041, 'grad_norm': 1.1484375, 'learning_rate': 4.915535574000833e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19925.4, 'epoch': 0.52}
 17%|██████████████████                                                                                     | 501/2865 [32:59<18:33:51, 28.27s/it] 18%|██████████████████                                                                                     | 502/2865 [33:02<13:34:06, 20.67s/it]                                                                                                                                                  {'loss': 11.0877, 'grad_norm': 1.3984375, 'learning_rate': 4.9147488701986745e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20566.99, 'epoch': 0.53}
 18%|██████████████████                                                                                     | 502/2865 [33:02<13:34:06, 20.67s/it] 18%|██████████████████                                                                                     | 503/2865 [33:05<10:04:26, 15.35s/it]                                                                                                                                                  {'loss': 11.0968, 'grad_norm': 1.140625, 'learning_rate': 4.9139585832135974e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21168.39, 'epoch': 0.53}
 18%|██████████████████                                                                                     | 503/2865 [33:05<10:04:26, 15.35s/it] 18%|██████████████████▎                                                                                     | 504/2865 [33:08<7:37:46, 11.63s/it]                                                                                                                                                  {'loss': 11.0967, 'grad_norm': 1.140625, 'learning_rate': 4.91316471421829e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22437.95, 'epoch': 0.53}
 18%|██████████████████▎                                                                                     | 504/2865 [33:08<7:37:46, 11.63s/it] 18%|██████████████████▎                                                                                     | 505/2865 [33:11<5:55:06,  9.03s/it]                                                                                                                                                  {'loss': 11.0715, 'grad_norm': 1.125, 'learning_rate': 4.912367264390752e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21500.81, 'epoch': 0.53}
 18%|██████████████████▎                                                                                     | 505/2865 [33:11<5:55:06,  9.03s/it] 18%|██████████████████▎                                                                                     | 506/2865 [33:14<4:43:16,  7.21s/it]                                                                                                                                                  {'loss': 11.0944, 'grad_norm': 1.0703125, 'learning_rate': 4.911566234914301e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22037.2, 'epoch': 0.53}
 18%|██████████████████▎                                                                                     | 506/2865 [33:14<4:43:16,  7.21s/it] 18%|██████████████████▍                                                                                     | 507/2865 [33:17<3:53:05,  5.93s/it]                                                                                                                                                  {'loss': 11.1081, 'grad_norm': 1.0859375, 'learning_rate': 4.910761626977561e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20790.15, 'epoch': 0.53}
 18%|██████████████████▍                                                                                     | 507/2865 [33:17<3:53:05,  5.93s/it] 18%|██████████████████▍                                                                                     | 508/2865 [33:20<3:17:54,  5.04s/it]                                                                                                                                                  {'loss': 11.0769, 'grad_norm': 1.09375, 'learning_rate': 4.9099534417744716e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21019.3, 'epoch': 0.53}
 18%|██████████████████▍                                                                                     | 508/2865 [33:20<3:17:54,  5.04s/it] 18%|██████████████████▍                                                                                     | 509/2865 [33:23<2:53:14,  4.41s/it]                                                                                                                                                  {'loss': 11.0982, 'grad_norm': 1.140625, 'learning_rate': 4.909141680504275e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21463.74, 'epoch': 0.53}
 18%|██████████████████▍                                                                                     | 509/2865 [33:23<2:53:14,  4.41s/it] 18%|██████████████████▌                                                                                     | 510/2865 [33:26<2:36:02,  3.98s/it]                                                                                                                                                  {'loss': 11.0868, 'grad_norm': 1.140625, 'learning_rate': 4.9083263443715245e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19973.88, 'epoch': 0.53}
 18%|██████████████████▌                                                                                     | 510/2865 [33:26<2:36:02,  3.98s/it] 18%|██████████████████▌                                                                                     | 511/2865 [33:29<2:23:54,  3.67s/it]                                                                                                                                                  {'loss': 11.0877, 'grad_norm': 1.078125, 'learning_rate': 4.9075074345860746e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21558.05, 'epoch': 0.54}
 18%|██████████████████▌                                                                                     | 511/2865 [33:29<2:23:54,  3.67s/it] 18%|██████████████████▌                                                                                     | 512/2865 [33:32<2:15:36,  3.46s/it]                                                                                                                                                  {'loss': 11.1142, 'grad_norm': 1.25, 'learning_rate': 4.906684952363085e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21797.3, 'epoch': 0.54}
 18%|██████████████████▌                                                                                     | 512/2865 [33:32<2:15:36,  3.46s/it] 18%|██████████████████▌                                                                                     | 513/2865 [33:35<2:09:42,  3.31s/it]                                                                                                                                                  {'loss': 11.1151, 'grad_norm': 1.1640625, 'learning_rate': 4.905858898923017e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22358.65, 'epoch': 0.54}
 18%|██████████████████▌                                                                                     | 513/2865 [33:35<2:09:42,  3.31s/it] 18%|██████████████████▋                                                                                     | 514/2865 [33:38<2:05:30,  3.20s/it]                                                                                                                                                  {'loss': 11.1169, 'grad_norm': 1.1640625, 'learning_rate': 4.905029275491627e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20380.88, 'epoch': 0.54}
 18%|██████████████████▋                                                                                     | 514/2865 [33:38<2:05:30,  3.20s/it] 18%|██████████████████▋                                                                                     | 515/2865 [33:41<2:02:33,  3.13s/it]                                                                                                                                                  {'loss': 11.1007, 'grad_norm': 1.0546875, 'learning_rate': 4.904196083299974e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20714.81, 'epoch': 0.54}
 18%|██████████████████▋                                                                                     | 515/2865 [33:41<2:02:33,  3.13s/it] 18%|██████████████████▋                                                                                     | 516/2865 [33:43<2:00:25,  3.08s/it]                                                                                                                                                  {'loss': 11.1133, 'grad_norm': 1.21875, 'learning_rate': 4.903359323584409e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21097.43, 'epoch': 0.54}
 18%|██████████████████▋                                                                                     | 516/2865 [33:43<2:00:25,  3.08s/it] 18%|██████████████████▊                                                                                     | 517/2865 [33:46<1:59:04,  3.04s/it]                                                                                                                                                  {'loss': 11.0862, 'grad_norm': 1.4609375, 'learning_rate': 4.9025189975865774e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22064.23, 'epoch': 0.54}
 18%|██████████████████▊                                                                                     | 517/2865 [33:46<1:59:04,  3.04s/it] 18%|██████████████████▊                                                                                     | 518/2865 [33:49<1:58:04,  3.02s/it]                                                                                                                                                  {'loss': 11.0894, 'grad_norm': 1.171875, 'learning_rate': 4.901675106553418e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22468.45, 'epoch': 0.54}
 18%|██████████████████▊                                                                                     | 518/2865 [33:49<1:58:04,  3.02s/it] 18%|██████████████████▊                                                                                     | 519/2865 [33:52<1:57:23,  3.00s/it]                                                                                                                                                  {'loss': 11.0756, 'grad_norm': 1.46875, 'learning_rate': 4.900827651737159e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20813.47, 'epoch': 0.54}
 18%|██████████████████▊                                                                                     | 519/2865 [33:52<1:57:23,  3.00s/it] 18%|██████████████████▉                                                                                     | 520/2865 [33:55<1:56:43,  2.99s/it]                                                                                                                                                  {'loss': 11.083, 'grad_norm': 1.5859375, 'learning_rate': 4.899976634395316e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21311.11, 'epoch': 0.54}
 18%|██████████████████▉                                                                                     | 520/2865 [33:55<1:56:43,  2.99s/it] 18%|██████████████████▉                                                                                     | 521/2865 [33:58<1:56:27,  2.98s/it]                                                                                                                                                  {'loss': 11.1035, 'grad_norm': 1.2265625, 'learning_rate': 4.899122055790691e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21408.21, 'epoch': 0.55}
 18%|██████████████████▉                                                                                     | 521/2865 [33:58<1:56:27,  2.98s/it] 18%|██████████████████▉                                                                                     | 522/2865 [34:01<1:56:07,  2.97s/it]                                                                                                                                                  {'loss': 11.081, 'grad_norm': 1.265625, 'learning_rate': 4.8982639171913727e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20535.9, 'epoch': 0.55}
 18%|██████████████████▉                                                                                     | 522/2865 [34:01<1:56:07,  2.97s/it] 18%|██████████████████▉                                                                                     | 523/2865 [34:04<1:55:49,  2.97s/it]                                                                                                                                                  {'loss': 11.0853, 'grad_norm': 1.4453125, 'learning_rate': 4.897402219870728e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20216.33, 'epoch': 0.55}
 18%|██████████████████▉                                                                                     | 523/2865 [34:04<1:55:49,  2.97s/it] 18%|███████████████████                                                                                     | 524/2865 [34:07<1:55:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0747, 'grad_norm': 1.1953125, 'learning_rate': 4.896536965107408e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21718.21, 'epoch': 0.55}
 18%|███████████████████                                                                                     | 524/2865 [34:07<1:55:38,  2.96s/it] 18%|███████████████████                                                                                     | 525/2865 [34:10<1:55:31,  2.96s/it]                                                                                                                                                  {'loss': 11.1065, 'grad_norm': 1.21875, 'learning_rate': 4.8956681541853434e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21550.87, 'epoch': 0.55}
 18%|███████████████████                                                                                     | 525/2865 [34:10<1:55:31,  2.96s/it] 18%|███████████████████                                                                                     | 526/2865 [34:13<1:55:33,  2.96s/it]                                                                                                                                                  {'loss': 11.1086, 'grad_norm': 1.28125, 'learning_rate': 4.894795788393738e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22801.0, 'epoch': 0.55}
 18%|███████████████████                                                                                     | 526/2865 [34:13<1:55:33,  2.96s/it] 18%|███████████████████▏                                                                                    | 527/2865 [34:16<1:55:23,  2.96s/it]                                                                                                                                                  {'loss': 11.091, 'grad_norm': 1.1875, 'learning_rate': 4.893919869027073e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20815.6, 'epoch': 0.55}
 18%|███████████████████▏                                                                                    | 527/2865 [34:16<1:55:23,  2.96s/it] 18%|███████████████████▏                                                                                    | 528/2865 [34:19<1:55:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0985, 'grad_norm': 1.3359375, 'learning_rate': 4.8930403973851035e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22124.02, 'epoch': 0.55}
 18%|███████████████████▏                                                                                    | 528/2865 [34:19<1:55:18,  2.96s/it] 18%|███████████████████▏                                                                                    | 529/2865 [34:22<1:55:09,  2.96s/it]                                                                                                                                                  {'loss': 11.1077, 'grad_norm': 1.1015625, 'learning_rate': 4.8921573747728535e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21820.88, 'epoch': 0.55}
 18%|███████████████████▏                                                                                    | 529/2865 [34:22<1:55:09,  2.96s/it] 18%|███████████████████▏                                                                                    | 530/2865 [34:25<1:55:07,  2.96s/it]                                                                                                                                                  {'loss': 11.0837, 'grad_norm': 1.3046875, 'learning_rate': 4.891270802500617e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21318.37, 'epoch': 0.55}
 18%|███████████████████▏                                                                                    | 530/2865 [34:25<1:55:07,  2.96s/it] 19%|███████████████████▎                                                                                    | 531/2865 [34:28<1:55:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0758, 'grad_norm': 1.375, 'learning_rate': 4.890380681883957e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21888.34, 'epoch': 0.56}
 19%|███████████████████▎                                                                                    | 531/2865 [34:28<1:55:04,  2.96s/it] 19%|███████████████████▎                                                                                    | 532/2865 [34:31<1:54:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0876, 'grad_norm': 1.140625, 'learning_rate': 4.889487014243699e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21318.72, 'epoch': 0.56}
 19%|███████████████████▎                                                                                    | 532/2865 [34:31<1:54:58,  2.96s/it] 19%|███████████████████▎                                                                                    | 533/2865 [34:34<1:55:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0977, 'grad_norm': 1.140625, 'learning_rate': 4.8885898009059336e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22116.76, 'epoch': 0.56}
 19%|███████████████████▎                                                                                    | 533/2865 [34:34<1:55:01,  2.96s/it] 19%|███████████████████▍                                                                                    | 534/2865 [34:37<1:55:02,  2.96s/it]                                                                                                                                                  {'loss': 11.1049, 'grad_norm': 1.171875, 'learning_rate': 4.8876890432020114e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21083.25, 'epoch': 0.56}
 19%|███████████████████▍                                                                                    | 534/2865 [34:37<1:55:02,  2.96s/it] 19%|███████████████████▍                                                                                    | 535/2865 [34:40<1:54:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0989, 'grad_norm': 1.2890625, 'learning_rate': 4.886784742468545e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22411.07, 'epoch': 0.56}
 19%|███████████████████▍                                                                                    | 535/2865 [34:40<1:54:57,  2.96s/it] 19%|███████████████████▍                                                                                    | 536/2865 [34:43<1:54:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0999, 'grad_norm': 1.3046875, 'learning_rate': 4.8858769000474016e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21434.46, 'epoch': 0.56}
 19%|███████████████████▍                                                                                    | 536/2865 [34:43<1:54:45,  2.96s/it] 19%|███████████████████▍                                                                                    | 537/2865 [34:46<1:54:39,  2.95s/it]                                                                                                                                                  {'loss': 11.0973, 'grad_norm': 1.25, 'learning_rate': 4.884965517285704e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21114.04, 'epoch': 0.56}
 19%|███████████████████▍                                                                                    | 537/2865 [34:46<1:54:39,  2.95s/it] 19%|███████████████████▌                                                                                    | 538/2865 [34:49<1:54:39,  2.96s/it]                                                                                                                                                  {'loss': 11.079, 'grad_norm': 1.2421875, 'learning_rate': 4.8840505955358305e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22437.92, 'epoch': 0.56}
 19%|███████████████████▌                                                                                    | 538/2865 [34:49<1:54:39,  2.96s/it] 19%|███████████████████▌                                                                                    | 539/2865 [34:51<1:54:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0921, 'grad_norm': 1.1953125, 'learning_rate': 4.883132136155411e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20871.38, 'epoch': 0.56}
 19%|███████████████████▌                                                                                    | 539/2865 [34:52<1:54:35,  2.96s/it] 19%|███████████████████▌                                                                                    | 540/2865 [34:54<1:54:30,  2.95s/it]                                                                                                                                                  {'loss': 11.0874, 'grad_norm': 1.1640625, 'learning_rate': 4.882210140507321e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20516.78, 'epoch': 0.57}
 19%|███████████████████▌                                                                                    | 540/2865 [34:54<1:54:30,  2.95s/it] 19%|███████████████████▋                                                                                    | 541/2865 [34:57<1:54:27,  2.95s/it]                                                                                                                                                  {'loss': 11.1055, 'grad_norm': 1.2109375, 'learning_rate': 4.881284609959686e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20988.69, 'epoch': 0.57}
 19%|███████████████████▋                                                                                    | 541/2865 [34:57<1:54:27,  2.95s/it] 19%|███████████████████▋                                                                                    | 542/2865 [35:00<1:54:23,  2.95s/it]                                                                                                                                                  {'loss': 11.1175, 'grad_norm': 1.2109375, 'learning_rate': 4.880355545885877e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22010.39, 'epoch': 0.57}
 19%|███████████████████▋                                                                                    | 542/2865 [35:00<1:54:23,  2.95s/it] 19%|███████████████████▋                                                                                    | 543/2865 [35:03<1:54:20,  2.95s/it]                                                                                                                                                  {'loss': 11.0878, 'grad_norm': 1.1796875, 'learning_rate': 4.8794229496645104e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21374.54, 'epoch': 0.57}
 19%|███████████████████▋                                                                                    | 543/2865 [35:03<1:54:20,  2.95s/it] 19%|███████████████████▋                                                                                    | 544/2865 [35:06<1:54:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0667, 'grad_norm': 1.3515625, 'learning_rate': 4.878486822679438e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20346.83, 'epoch': 0.57}
 19%|███████████████████▋                                                                                    | 544/2865 [35:06<1:54:21,  2.96s/it] 19%|███████████████████▊                                                                                    | 545/2865 [35:09<1:54:24,  2.96s/it]                                                                                                                                                  {'loss': 11.1036, 'grad_norm': 1.4296875, 'learning_rate': 4.877547166319756e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22153.15, 'epoch': 0.57}
 19%|███████████████████▊                                                                                    | 545/2865 [35:09<1:54:24,  2.96s/it] 19%|███████████████████▊                                                                                    | 546/2865 [35:12<1:54:20,  2.96s/it]                                                                                                                                                  {'loss': 11.1006, 'grad_norm': 1.1328125, 'learning_rate': 4.876603981979795e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21696.54, 'epoch': 0.57}
 19%|███████████████████▊                                                                                    | 546/2865 [35:12<1:54:20,  2.96s/it] 19%|███████████████████▊                                                                                    | 547/2865 [35:15<1:54:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0883, 'grad_norm': 1.125, 'learning_rate': 4.875657271059123e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22535.85, 'epoch': 0.57}
 19%|███████████████████▊                                                                                    | 547/2865 [35:15<1:54:21,  2.96s/it] 19%|███████████████████▉                                                                                    | 548/2865 [35:18<1:54:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0906, 'grad_norm': 1.1796875, 'learning_rate': 4.874707034962539e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22072.18, 'epoch': 0.57}
 19%|███████████████████▉                                                                                    | 548/2865 [35:18<1:54:16,  2.96s/it] 19%|███████████████████▉                                                                                    | 549/2865 [35:21<1:54:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0914, 'grad_norm': 1.1015625, 'learning_rate': 4.873753275100073e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20984.37, 'epoch': 0.57}
 19%|███████████████████▉                                                                                    | 549/2865 [35:21<1:54:16,  2.96s/it] 19%|███████████████████▉                                                                                    | 550/2865 [35:24<1:54:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0876, 'grad_norm': 1.2265625, 'learning_rate': 4.8727959928869855e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20451.77, 'epoch': 0.58}
 19%|███████████████████▉                                                                                    | 550/2865 [35:24<1:54:11,  2.96s/it] 19%|████████████████████                                                                                    | 551/2865 [35:27<1:54:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0656, 'grad_norm': 1.25, 'learning_rate': 4.871835189743761e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20874.49, 'epoch': 0.58}
 19%|████████████████████                                                                                    | 551/2865 [35:27<1:54:12,  2.96s/it] 19%|████████████████████                                                                                    | 552/2865 [35:30<1:54:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0832, 'grad_norm': 1.1640625, 'learning_rate': 4.870870867096112e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21125.58, 'epoch': 0.58}
 19%|████████████████████                                                                                    | 552/2865 [35:30<1:54:04,  2.96s/it] 19%|████████████████████                                                                                    | 553/2865 [35:33<1:54:03,  2.96s/it]                                                                                                                                                  {'loss': 11.1102, 'grad_norm': 1.28125, 'learning_rate': 4.869903026374971e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20184.03, 'epoch': 0.58}
 19%|████████████████████                                                                                    | 553/2865 [35:33<1:54:03,  2.96s/it] 19%|████████████████████                                                                                    | 554/2865 [35:36<1:54:07,  2.96s/it]                                                                                                                                                  {'loss': 11.0695, 'grad_norm': 1.171875, 'learning_rate': 4.8689316690164924e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21717.78, 'epoch': 0.58}
 19%|████████████████████                                                                                    | 554/2865 [35:36<1:54:07,  2.96s/it] 19%|████████████████████▏                                                                                   | 555/2865 [35:39<1:53:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0769, 'grad_norm': 1.1328125, 'learning_rate': 4.8679567964620464e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21294.27, 'epoch': 0.58}
 19%|████████████████████▏                                                                                   | 555/2865 [35:39<1:53:54,  2.96s/it] 19%|████████████████████▏                                                                                   | 556/2865 [35:42<1:53:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0796, 'grad_norm': 1.09375, 'learning_rate': 4.866978410158222e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21212.0, 'epoch': 0.58}
 19%|████████████████████▏                                                                                   | 556/2865 [35:42<1:53:57,  2.96s/it] 19%|████████████████████▏                                                                                   | 557/2865 [35:45<1:53:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0946, 'grad_norm': 1.234375, 'learning_rate': 4.865996511556821e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20605.54, 'epoch': 0.58}
 19%|████████████████████▏                                                                                   | 557/2865 [35:45<1:53:43,  2.96s/it] 19%|████████████████████▎                                                                                   | 558/2865 [35:48<1:53:49,  2.96s/it]                                                                                                                                                  {'loss': 11.1035, 'grad_norm': 1.1484375, 'learning_rate': 4.865011102114857e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23307.14, 'epoch': 0.58}
 19%|████████████████████▎                                                                                   | 558/2865 [35:48<1:53:49,  2.96s/it] 20%|████████████████████▎                                                                                   | 559/2865 [35:51<1:53:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0831, 'grad_norm': 1.1015625, 'learning_rate': 4.864022183294554e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22071.88, 'epoch': 0.59}
 20%|████████████████████▎                                                                                   | 559/2865 [35:51<1:53:46,  2.96s/it] 20%|████████████████████▎                                                                                   | 560/2865 [35:54<1:53:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0752, 'grad_norm': 1.09375, 'learning_rate': 4.863029756563342e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23289.27, 'epoch': 0.59}
 20%|████████████████████▎                                                                                   | 560/2865 [35:54<1:53:52,  2.96s/it] 20%|████████████████████▎                                                                                   | 561/2865 [35:57<1:53:45,  2.96s/it]                                                                                                                                                  {'loss': 11.1064, 'grad_norm': 1.21875, 'learning_rate': 4.8620338233938584e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21341.83, 'epoch': 0.59}
 20%|████████████████████▎                                                                                   | 561/2865 [35:57<1:53:45,  2.96s/it] 20%|████████████████████▍                                                                                   | 562/2865 [36:00<1:53:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0972, 'grad_norm': 1.203125, 'learning_rate': 4.861034385263941e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21498.88, 'epoch': 0.59}
 20%|████████████████████▍                                                                                   | 562/2865 [36:00<1:53:36,  2.96s/it] 20%|████████████████████▍                                                                                   | 563/2865 [36:03<1:53:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0892, 'grad_norm': 1.125, 'learning_rate': 4.8600314436566305e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22253.95, 'epoch': 0.59}
 20%|████████████████████▍                                                                                   | 563/2865 [36:03<1:53:31,  2.96s/it] 20%|████████████████████▍                                                                                   | 564/2865 [36:05<1:53:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0906, 'grad_norm': 1.3359375, 'learning_rate': 4.859025000060167e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22945.56, 'epoch': 0.59}
 20%|████████████████████▍                                                                                   | 564/2865 [36:05<1:53:29,  2.96s/it] 20%|████████████████████▌                                                                                   | 565/2865 [36:08<1:53:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0708, 'grad_norm': 1.3671875, 'learning_rate': 4.8580150559679835e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20769.55, 'epoch': 0.59}
 20%|████████████████████▌                                                                                   | 565/2865 [36:08<1:53:20,  2.96s/it] 20%|████████████████████▌                                                                                   | 566/2865 [36:11<1:53:18,  2.96s/it]                                                                                                                                                  {'loss': 11.1048, 'grad_norm': 1.2109375, 'learning_rate': 4.857001612878712e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20560.23, 'epoch': 0.59}
 20%|████████████████████▌                                                                                   | 566/2865 [36:11<1:53:18,  2.96s/it] 20%|████████████████████▌                                                                                   | 567/2865 [36:14<1:53:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0913, 'grad_norm': 1.1484375, 'learning_rate': 4.855984672296173e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21400.8, 'epoch': 0.59}
 20%|████████████████████▌                                                                                   | 567/2865 [36:14<1:53:15,  2.96s/it] 20%|████████████████████▌                                                                                   | 568/2865 [36:17<1:53:06,  2.95s/it]                                                                                                                                                  {'loss': 11.0886, 'grad_norm': 1.2109375, 'learning_rate': 4.854964235729379e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21026.95, 'epoch': 0.59}
 20%|████████████████████▌                                                                                   | 568/2865 [36:17<1:53:06,  2.95s/it] 20%|████████████████████▋                                                                                   | 569/2865 [36:20<1:53:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0996, 'grad_norm': 1.1796875, 'learning_rate': 4.853940304692529e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19929.4, 'epoch': 0.6}
 20%|████████████████████▋                                                                                   | 569/2865 [36:20<1:53:09,  2.96s/it] 20%|████████████████████▋                                                                                   | 570/2865 [36:23<1:53:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0757, 'grad_norm': 1.1171875, 'learning_rate': 4.852912880705007e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20965.14, 'epoch': 0.6}
 20%|████████████████████▋                                                                                   | 570/2865 [36:23<1:53:04,  2.96s/it] 20%|████████████████████▋                                                                                   | 571/2865 [36:26<1:52:57,  2.95s/it]                                                                                                                                                  {'loss': 11.0919, 'grad_norm': 1.125, 'learning_rate': 4.8518819652913805e-05, 'memory/max_active (GiB)': 9.62, 'memory/max_allocated (GiB)': 9.62, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 9068.38, 'epoch': 0.6}
 20%|████████████████████▋                                                                                   | 571/2865 [36:26<1:52:57,  2.95s/it] 20%|████████████████████▊                                                                                   | 572/2865 [36:29<1:52:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0958, 'grad_norm': 1.1953125, 'learning_rate': 4.8508475599814e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20960.85, 'epoch': 0.6}
 20%|████████████████████▊                                                                                   | 572/2865 [36:29<1:52:58,  2.96s/it] 20%|████████████████████▊                                                                                   | 573/2865 [36:32<1:52:50,  2.95s/it]                                                                                                                                                  {'loss': 11.0894, 'grad_norm': 1.234375, 'learning_rate': 4.84980966630999e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21409.08, 'epoch': 0.6}
 20%|████████████████████▊                                                                                   | 573/2865 [36:32<1:52:50,  2.95s/it] 20%|████████████████████▊                                                                                   | 574/2865 [36:35<1:52:44,  2.95s/it]                                                                                                                                                  {'loss': 11.06, 'grad_norm': 1.1484375, 'learning_rate': 4.8487682858172546e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21365.0, 'epoch': 0.6}
 20%|████████████████████▊                                                                                   | 574/2865 [36:35<1:52:44,  2.95s/it] 20%|████████████████████▊                                                                                   | 575/2865 [36:38<1:52:39,  2.95s/it]                                                                                                                                                  {'loss': 11.0779, 'grad_norm': 1.46875, 'learning_rate': 4.847723420048472e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20958.04, 'epoch': 0.6}
 20%|████████████████████▊                                                                                   | 575/2865 [36:38<1:52:39,  2.95s/it] 20%|████████████████████▉                                                                                   | 576/2865 [36:41<1:52:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0816, 'grad_norm': 1.265625, 'learning_rate': 4.846675070554091e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21004.22, 'epoch': 0.6}
 20%|████████████████████▉                                                                                   | 576/2865 [36:41<1:52:41,  2.95s/it] 20%|████████████████████▉                                                                                   | 577/2865 [36:44<1:52:39,  2.95s/it]                                                                                                                                                  {'loss': 11.0842, 'grad_norm': 1.15625, 'learning_rate': 4.84562323888973e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20987.84, 'epoch': 0.6}
 20%|████████████████████▉                                                                                   | 577/2865 [36:44<1:52:39,  2.95s/it] 20%|████████████████████▉                                                                                   | 578/2865 [36:47<1:52:35,  2.95s/it]                                                                                                                                                  {'loss': 11.088, 'grad_norm': 1.1640625, 'learning_rate': 4.8445679266161745e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21072.55, 'epoch': 0.61}
 20%|████████████████████▉                                                                                   | 578/2865 [36:47<1:52:35,  2.95s/it] 20%|█████████████████████                                                                                   | 579/2865 [36:50<1:52:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0916, 'grad_norm': 1.1484375, 'learning_rate': 4.8435091352993746e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21025.77, 'epoch': 0.61}
 20%|█████████████████████                                                                                   | 579/2865 [36:50<1:52:45,  2.96s/it] 20%|█████████████████████                                                                                   | 580/2865 [36:53<1:52:41,  2.96s/it]                                                                                                                                                  {'loss': 11.09, 'grad_norm': 1.09375, 'learning_rate': 4.842446866510444e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22137.68, 'epoch': 0.61}
 20%|█████████████████████                                                                                   | 580/2865 [36:53<1:52:41,  2.96s/it] 20%|█████████████████████                                                                                   | 581/2865 [36:56<1:52:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0832, 'grad_norm': 1.2265625, 'learning_rate': 4.841381121825654e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22016.06, 'epoch': 0.61}
 20%|█████████████████████                                                                                   | 581/2865 [36:56<1:52:38,  2.96s/it] 20%|█████████████████████▏                                                                                  | 582/2865 [36:59<1:52:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0714, 'grad_norm': 1.15625, 'learning_rate': 4.840311902826438e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21670.18, 'epoch': 0.61}
 20%|█████████████████████▏                                                                                  | 582/2865 [36:59<1:52:38,  2.96s/it] 20%|█████████████████████▏                                                                                  | 583/2865 [37:02<1:52:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0767, 'grad_norm': 1.15625, 'learning_rate': 4.83923921109938e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21100.13, 'epoch': 0.61}
 20%|█████████████████████▏                                                                                  | 583/2865 [37:02<1:52:27,  2.96s/it] 20%|█████████████████████▏                                                                                  | 584/2865 [37:05<1:52:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0868, 'grad_norm': 1.09375, 'learning_rate': 4.8381630482362204e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20496.43, 'epoch': 0.61}
 20%|█████████████████████▏                                                                                  | 584/2865 [37:05<1:52:33,  2.96s/it] 20%|█████████████████████▏                                                                                  | 585/2865 [37:08<1:52:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0734, 'grad_norm': 1.140625, 'learning_rate': 4.8370834158338485e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21813.8, 'epoch': 0.61}
 20%|█████████████████████▏                                                                                  | 585/2865 [37:08<1:52:22,  2.96s/it] 20%|█████████████████████▎                                                                                  | 586/2865 [37:11<1:52:23,  2.96s/it]                                                                                                                                                  {'loss': 11.1008, 'grad_norm': 1.0859375, 'learning_rate': 4.836000315494303e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20877.61, 'epoch': 0.61}
 20%|█████████████████████▎                                                                                  | 586/2865 [37:11<1:52:23,  2.96s/it] 20%|█████████████████████▎                                                                                  | 587/2865 [37:13<1:52:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0787, 'grad_norm': 1.1171875, 'learning_rate': 4.834913748824768e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20373.79, 'epoch': 0.61}
 20%|█████████████████████▎                                                                                  | 587/2865 [37:13<1:52:26,  2.96s/it] 21%|█████████████████████▎                                                                                  | 588/2865 [37:16<1:52:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0789, 'grad_norm': 1.2734375, 'learning_rate': 4.8338237174375724e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20781.25, 'epoch': 0.62}
 21%|█████████████████████▎                                                                                  | 588/2865 [37:16<1:52:24,  2.96s/it] 21%|█████████████████████▍                                                                                  | 589/2865 [37:19<1:52:20,  2.96s/it]                                                                                                                                                  {'loss': 11.1099, 'grad_norm': 1.1171875, 'learning_rate': 4.832730222950184e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21209.7, 'epoch': 0.62}
 21%|█████████████████████▍                                                                                  | 589/2865 [37:19<1:52:20,  2.96s/it] 21%|█████████████████████▍                                                                                  | 590/2865 [37:22<1:52:25,  2.97s/it]                                                                                                                                                  {'loss': 11.0619, 'grad_norm': 1.1640625, 'learning_rate': 4.831633266985212e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23087.44, 'epoch': 0.62}
 21%|█████████████████████▍                                                                                  | 590/2865 [37:22<1:52:25,  2.97s/it] 21%|█████████████████████▍                                                                                  | 591/2865 [37:25<1:52:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0741, 'grad_norm': 1.2265625, 'learning_rate': 4.8305328511704004e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21566.73, 'epoch': 0.62}
 21%|█████████████████████▍                                                                                  | 591/2865 [37:25<1:52:14,  2.96s/it] 21%|█████████████████████▍                                                                                  | 592/2865 [37:28<1:52:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0876, 'grad_norm': 1.1484375, 'learning_rate': 4.829428977138627e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21350.85, 'epoch': 0.62}
 21%|█████████████████████▍                                                                                  | 592/2865 [37:28<1:52:03,  2.96s/it] 21%|█████████████████████▌                                                                                  | 593/2865 [37:31<1:52:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0839, 'grad_norm': 1.171875, 'learning_rate': 4.828321646527902e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21822.6, 'epoch': 0.62}
 21%|█████████████████████▌                                                                                  | 593/2865 [37:31<1:52:04,  2.96s/it] 21%|█████████████████████▌                                                                                  | 594/2865 [37:34<1:52:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0855, 'grad_norm': 1.1015625, 'learning_rate': 4.827210860981365e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22185.82, 'epoch': 0.62}
 21%|█████████████████████▌                                                                                  | 594/2865 [37:34<1:52:01,  2.96s/it] 21%|█████████████████████▌                                                                                  | 595/2865 [37:37<1:51:47,  2.95s/it]                                                                                                                                                  {'loss': 11.0688, 'grad_norm': 1.421875, 'learning_rate': 4.826096622147281e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21050.33, 'epoch': 0.62}
 21%|█████████████████████▌                                                                                  | 595/2865 [37:37<1:51:47,  2.95s/it] 21%|█████████████████████▋                                                                                  | 596/2865 [37:40<1:51:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0824, 'grad_norm': 1.09375, 'learning_rate': 4.82497893167904e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21766.54, 'epoch': 0.62}
 21%|█████████████████████▋                                                                                  | 596/2865 [37:40<1:51:48,  2.96s/it] 21%|█████████████████████▋                                                                                  | 597/2865 [37:43<1:51:49,  2.96s/it]                                                                                                                                                  {'loss': 11.1023, 'grad_norm': 1.078125, 'learning_rate': 4.823857791235155e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21988.41, 'epoch': 0.63}
 21%|█████████████████████▋                                                                                  | 597/2865 [37:43<1:51:49,  2.96s/it] 21%|█████████████████████▋                                                                                  | 598/2865 [37:46<1:51:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0753, 'grad_norm': 1.1171875, 'learning_rate': 4.822733202479255e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21487.8, 'epoch': 0.63}
 21%|█████████████████████▋                                                                                  | 598/2865 [37:46<1:51:42,  2.96s/it] 21%|█████████████████████▋                                                                                  | 599/2865 [37:49<1:51:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0752, 'grad_norm': 1.328125, 'learning_rate': 4.8216051670800885e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22518.47, 'epoch': 0.63}
 21%|█████████████████████▋                                                                                  | 599/2865 [37:49<1:51:41,  2.96s/it] 21%|█████████████████████▊                                                                                  | 600/2865 [37:52<1:51:32,  2.95s/it]                                                                                                                                                  {'loss': 11.0875, 'grad_norm': 1.125, 'learning_rate': 4.82047368671152e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20787.58, 'epoch': 0.63}
 21%|█████████████████████▊                                                                                  | 600/2865 [37:52<1:51:32,  2.95s/it][2025-10-12 03:46:44,763] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:23,  1.11s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:34,  1.18it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:03,  1.46it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:43,  1.75it/s][A
  3%|███▌                                                                                                         | 6/185 [00:03<01:32,  1.93it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:23,  2.12it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:18,  2.25it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:16,  2.31it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:13,  2.37it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:05<01:12,  2.39it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:10,  2.47it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:09,  2.46it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:07,  2.54it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.50it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:07<01:06,  2.53it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.52it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:05,  2.55it/s][A
 10%|███████████                                                                                                 | 19/185 [00:08<01:02,  2.64it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:03,  2.61it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:09<01:02,  2.62it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:03,  2.58it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:04,  2.51it/s][A
 13%|██████████████                                                                                              | 24/185 [00:10<01:04,  2.50it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:03,  2.54it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:01,  2.60it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:02,  2.54it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:00,  2.58it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:12<01:01,  2.55it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.58it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<00:58,  2.61it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:13<00:57,  2.65it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:59,  2.57it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:14<00:57,  2.61it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:58,  2.55it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:58,  2.54it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:15<00:58,  2.54it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.55it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:16<00:57,  2.56it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:56,  2.56it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:56,  2.55it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:17<00:54,  2.61it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:55,  2.57it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:18<00:56,  2.51it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:54,  2.55it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:53,  2.59it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:19<00:54,  2.53it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.55it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:53,  2.56it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:52,  2.57it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:51,  2.60it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:21<00:51,  2.58it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:51,  2.55it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:51,  2.54it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:22<00:50,  2.58it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:50,  2.54it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:23<00:49,  2.57it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:48,  2.60it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:49,  2.56it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:24<00:48,  2.57it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:48,  2.57it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:25<00:48,  2.53it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.58it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:45,  2.68it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:26<00:47,  2.53it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.57it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:46,  2.52it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:46,  2.51it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.53it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:28<00:45,  2.54it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:43,  2.60it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:29<00:43,  2.58it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:29<00:42,  2.64it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:43,  2.54it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:30<00:42,  2.58it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:43,  2.50it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:43,  2.49it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:31<00:42,  2.54it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.54it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:32<00:41,  2.52it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:39,  2.63it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:40,  2.52it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:33<00:39,  2.56it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:39,  2.53it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:34<00:39,  2.54it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.55it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:37,  2.60it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:35<00:37,  2.60it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.58it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:36<00:37,  2.56it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.58it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:36,  2.58it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:37<00:35,  2.58it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.58it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:38<00:34,  2.58it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:38<00:34,  2.60it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:34,  2.57it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:39<00:34,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:33,  2.52it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:40<00:33,  2.54it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.54it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:41<00:31,  2.61it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.54it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.56it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:42<00:31,  2.50it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.58it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:43<00:30,  2.53it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:30,  2.52it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.57it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:44<00:29,  2.54it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:27,  2.64it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:28,  2.54it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.61it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.56it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:46<00:26,  2.61it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:27,  2.51it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:25,  2.59it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:47<00:25,  2.61it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:48<00:25,  2.53it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.57it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:23,  2.63it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:49<00:24,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.58it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:50<00:22,  2.60it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.61it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:21,  2.66it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:51<00:22,  2.50it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.52it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:52<00:21,  2.53it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.60it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:20,  2.55it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:53<00:19,  2.57it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.55it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:19,  2.51it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.54it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.53it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:55<00:18,  2.53it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:16,  2.65it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:17,  2.55it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:56<00:16,  2.62it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.51it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:57<00:16,  2.54it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.54it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.57it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:58<00:14,  2.55it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.60it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:59<00:14,  2.57it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.52it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:00<00:12,  2.55it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.58it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:01<00:12,  2.57it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.58it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.55it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:02<00:10,  2.58it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.55it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:03<00:10,  2.58it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:03<00:09,  2.55it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.57it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:04<00:08,  2.58it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.59it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.57it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:05<00:07,  2.57it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.57it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:06<00:07,  2.56it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.55it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.55it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:07<00:05,  2.63it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.54it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:08<00:05,  2.55it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.54it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.58it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:09<00:03,  2.55it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.65it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:10<00:03,  2.56it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:10<00:02,  2.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.55it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:11<00:01,  2.55it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.58it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:12<00:01,  2.67it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:12<00:00,  2.57it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.54it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.95it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.06601333618164, 'eval_runtime': 77.891, 'eval_samples_per_second': 152.225, 'eval_steps_per_second': 2.388, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 0.63}
 21%|█████████████████████▊                                                                                  | 600/2865 [39:10<1:51:32,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.95it/s][A
                                                                                                                                                  [A[2025-10-12 03:48:02,685] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-600
 21%|█████████████████████▌                                                                                 | 601/2865 [39:19<17:45:28, 28.24s/it]                                                                                                                                                  {'loss': 11.0873, 'grad_norm': 1.1953125, 'learning_rate': 4.819338763052521e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 18924.54, 'epoch': 0.63}
 21%|█████████████████████▌                                                                                 | 601/2865 [39:19<17:45:28, 28.24s/it] 21%|█████████████████████▋                                                                                 | 602/2865 [39:22<12:58:54, 20.65s/it]                                                                                                                                                  {'loss': 11.0843, 'grad_norm': 1.09375, 'learning_rate': 4.818200397787177e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21565.15, 'epoch': 0.63}
 21%|█████████████████████▋                                                                                 | 602/2865 [39:22<12:58:54, 20.65s/it] 21%|█████████████████████▉                                                                                  | 603/2865 [39:25<9:38:15, 15.34s/it]                                                                                                                                                  {'loss': 11.0789, 'grad_norm': 1.078125, 'learning_rate': 4.817058592604677e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22024.99, 'epoch': 0.63}
 21%|█████████████████████▉                                                                                  | 603/2865 [39:25<9:38:15, 15.34s/it] 21%|█████████████████████▉                                                                                  | 604/2865 [39:28<7:17:59, 11.62s/it]                                                                                                                                                  {'loss': 11.066, 'grad_norm': 1.28125, 'learning_rate': 4.8159133491993166e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22011.2, 'epoch': 0.63}
 21%|█████████████████████▉                                                                                  | 604/2865 [39:28<7:17:59, 11.62s/it] 21%|█████████████████████▉                                                                                  | 605/2865 [39:31<5:39:46,  9.02s/it]                                                                                                                                                  {'loss': 11.0717, 'grad_norm': 1.09375, 'learning_rate': 4.814764669270494e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21185.88, 'epoch': 0.63}
 21%|█████████████████████▉                                                                                  | 605/2865 [39:31<5:39:46,  9.02s/it] 21%|█████████████████████▉                                                                                  | 606/2865 [39:34<4:31:04,  7.20s/it]                                                                                                                                                  {'loss': 11.1058, 'grad_norm': 1.2265625, 'learning_rate': 4.8136125545227034e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21375.0, 'epoch': 0.63}
 21%|█████████████████████▉                                                                                  | 606/2865 [39:34<4:31:04,  7.20s/it] 21%|██████████████████████                                                                                  | 607/2865 [39:37<3:43:04,  5.93s/it]                                                                                                                                                  {'loss': 11.0626, 'grad_norm': 1.09375, 'learning_rate': 4.812457006665538e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21477.88, 'epoch': 0.64}
 21%|██████████████████████                                                                                  | 607/2865 [39:37<3:43:04,  5.93s/it] 21%|██████████████████████                                                                                  | 608/2865 [39:40<3:09:26,  5.04s/it]                                                                                                                                                  {'loss': 11.1035, 'grad_norm': 1.0703125, 'learning_rate': 4.811298027413687e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21284.77, 'epoch': 0.64}
 21%|██████████████████████                                                                                  | 608/2865 [39:40<3:09:26,  5.04s/it] 21%|██████████████████████                                                                                  | 609/2865 [39:43<2:46:02,  4.42s/it]                                                                                                                                                  {'loss': 11.0909, 'grad_norm': 1.0859375, 'learning_rate': 4.810135618486928e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22742.36, 'epoch': 0.64}
 21%|██████████████████████                                                                                  | 609/2865 [39:43<2:46:02,  4.42s/it] 21%|██████████████████████▏                                                                                 | 610/2865 [39:46<2:29:22,  3.97s/it]                                                                                                                                                  {'loss': 11.0724, 'grad_norm': 1.421875, 'learning_rate': 4.808969781610129e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20877.22, 'epoch': 0.64}
 21%|██████████████████████▏                                                                                 | 610/2865 [39:46<2:29:22,  3.97s/it] 21%|██████████████████████▏                                                                                 | 611/2865 [39:49<2:17:47,  3.67s/it]                                                                                                                                                  {'loss': 11.083, 'grad_norm': 1.125, 'learning_rate': 4.8078005185132464e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21032.41, 'epoch': 0.64}
 21%|██████████████████████▏                                                                                 | 611/2865 [39:49<2:17:47,  3.67s/it] 21%|██████████████████████▏                                                                                 | 612/2865 [39:52<2:09:40,  3.45s/it]                                                                                                                                                  {'loss': 11.0812, 'grad_norm': 1.125, 'learning_rate': 4.806627830931318e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21491.0, 'epoch': 0.64}
 21%|██████████████████████▏                                                                                 | 612/2865 [39:52<2:09:40,  3.45s/it] 21%|██████████████████████▎                                                                                 | 613/2865 [39:55<2:04:00,  3.30s/it]                                                                                                                                                  {'loss': 11.0757, 'grad_norm': 1.09375, 'learning_rate': 4.8054517206044646e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21232.38, 'epoch': 0.64}
 21%|██████████████████████▎                                                                                 | 613/2865 [39:55<2:04:00,  3.30s/it] 21%|██████████████████████▎                                                                                 | 614/2865 [39:58<2:00:02,  3.20s/it]                                                                                                                                                  {'loss': 11.0825, 'grad_norm': 1.5234375, 'learning_rate': 4.8042721892778856e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20470.79, 'epoch': 0.64}
 21%|██████████████████████▎                                                                                 | 614/2865 [39:58<2:00:02,  3.20s/it] 21%|██████████████████████▎                                                                                 | 615/2865 [40:01<1:57:12,  3.13s/it]                                                                                                                                                  {'loss': 11.0783, 'grad_norm': 1.1171875, 'learning_rate': 4.8030892387018575e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21904.18, 'epoch': 0.64}
 21%|██████████████████████▎                                                                                 | 615/2865 [40:01<1:57:12,  3.13s/it] 22%|██████████████████████▎                                                                                 | 616/2865 [40:03<1:55:12,  3.07s/it]                                                                                                                                                  {'loss': 11.0932, 'grad_norm': 1.171875, 'learning_rate': 4.8019028706317294e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22112.9, 'epoch': 0.65}
 22%|██████████████████████▎                                                                                 | 616/2865 [40:03<1:55:12,  3.07s/it] 22%|██████████████████████▍                                                                                 | 617/2865 [40:06<1:54:01,  3.04s/it]                                                                                                                                                  {'loss': 11.0977, 'grad_norm': 1.1640625, 'learning_rate': 4.8007130868279216e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21703.86, 'epoch': 0.65}
 22%|██████████████████████▍                                                                                 | 617/2865 [40:06<1:54:01,  3.04s/it] 22%|██████████████████████▍                                                                                 | 618/2865 [40:09<1:52:58,  3.02s/it]                                                                                                                                                  {'loss': 11.0722, 'grad_norm': 1.09375, 'learning_rate': 4.799519889055923e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21902.51, 'epoch': 0.65}
 22%|██████████████████████▍                                                                                 | 618/2865 [40:09<1:52:58,  3.02s/it] 22%|██████████████████████▍                                                                                 | 619/2865 [40:12<1:52:05,  2.99s/it]                                                                                                                                                  {'loss': 11.061, 'grad_norm': 1.4140625, 'learning_rate': 4.7983232790862905e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20556.16, 'epoch': 0.65}
 22%|██████████████████████▍                                                                                 | 619/2865 [40:12<1:52:05,  2.99s/it] 22%|██████████████████████▌                                                                                 | 620/2865 [40:15<1:51:34,  2.98s/it]                                                                                                                                                  {'loss': 11.0731, 'grad_norm': 1.1875, 'learning_rate': 4.79712325869464e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21247.35, 'epoch': 0.65}
 22%|██████████████████████▌                                                                                 | 620/2865 [40:15<1:51:34,  2.98s/it] 22%|██████████████████████▌                                                                                 | 621/2865 [40:18<1:51:13,  2.97s/it]                                                                                                                                                  {'loss': 11.0769, 'grad_norm': 1.109375, 'learning_rate': 4.7959198296616526e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21480.74, 'epoch': 0.65}
 22%|██████████████████████▌                                                                                 | 621/2865 [40:18<1:51:13,  2.97s/it] 22%|██████████████████████▌                                                                                 | 622/2865 [40:21<1:50:55,  2.97s/it]                                                                                                                                                  {'loss': 11.0652, 'grad_norm': 1.109375, 'learning_rate': 4.794712993773064e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20806.96, 'epoch': 0.65}
 22%|██████████████████████▌                                                                                 | 622/2865 [40:21<1:50:55,  2.97s/it] 22%|██████████████████████▌                                                                                 | 623/2865 [40:24<1:50:50,  2.97s/it]                                                                                                                                                  {'loss': 11.1108, 'grad_norm': 1.5546875, 'learning_rate': 4.793502752819667e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22307.09, 'epoch': 0.65}
 22%|██████████████████████▌                                                                                 | 623/2865 [40:24<1:50:50,  2.97s/it] 22%|██████████████████████▋                                                                                 | 624/2865 [40:27<1:50:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0867, 'grad_norm': 1.2265625, 'learning_rate': 4.792289108597306e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21456.73, 'epoch': 0.65}
 22%|██████████████████████▋                                                                                 | 624/2865 [40:27<1:50:39,  2.96s/it] 22%|██████████████████████▋                                                                                 | 625/2865 [40:30<1:50:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0894, 'grad_norm': 1.21875, 'learning_rate': 4.7910720629068774e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21279.03, 'epoch': 0.65}
 22%|██████████████████████▋                                                                                 | 625/2865 [40:30<1:50:35,  2.96s/it] 22%|██████████████████████▋                                                                                 | 626/2865 [40:33<1:50:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0523, 'grad_norm': 1.1640625, 'learning_rate': 4.789851617554322e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22113.23, 'epoch': 0.66}
 22%|██████████████████████▋                                                                                 | 626/2865 [40:33<1:50:27,  2.96s/it] 22%|██████████████████████▊                                                                                 | 627/2865 [40:36<1:50:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0583, 'grad_norm': 1.125, 'learning_rate': 4.788627774350628e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21189.93, 'epoch': 0.66}
 22%|██████████████████████▊                                                                                 | 627/2865 [40:36<1:50:27,  2.96s/it] 22%|██████████████████████▊                                                                                 | 628/2865 [40:39<1:50:31,  2.96s/it]                                                                                                                                                  {'loss': 11.06, 'grad_norm': 1.109375, 'learning_rate': 4.787400535111824e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22546.99, 'epoch': 0.66}
 22%|██████████████████████▊                                                                                 | 628/2865 [40:39<1:50:31,  2.96s/it] 22%|██████████████████████▊                                                                                 | 629/2865 [40:42<1:50:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0668, 'grad_norm': 1.1328125, 'learning_rate': 4.786169901658978e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20437.39, 'epoch': 0.66}
 22%|██████████████████████▊                                                                                 | 629/2865 [40:42<1:50:24,  2.96s/it] 22%|██████████████████████▊                                                                                 | 630/2865 [40:45<1:50:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0897, 'grad_norm': 1.0859375, 'learning_rate': 4.784935875818195e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21105.81, 'epoch': 0.66}
 22%|██████████████████████▊                                                                                 | 630/2865 [40:45<1:50:16,  2.96s/it] 22%|██████████████████████▉                                                                                 | 631/2865 [40:48<1:50:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0715, 'grad_norm': 1.0859375, 'learning_rate': 4.783698459420615e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21405.01, 'epoch': 0.66}
 22%|██████████████████████▉                                                                                 | 631/2865 [40:48<1:50:12,  2.96s/it] 22%|██████████████████████▉                                                                                 | 632/2865 [40:51<1:50:07,  2.96s/it]                                                                                                                                                  {'loss': 11.077, 'grad_norm': 1.109375, 'learning_rate': 4.782457654302406e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21215.47, 'epoch': 0.66}
 22%|██████████████████████▉                                                                                 | 632/2865 [40:51<1:50:07,  2.96s/it] 22%|██████████████████████▉                                                                                 | 633/2865 [40:54<1:50:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0766, 'grad_norm': 1.0703125, 'learning_rate': 4.781213462304768e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21684.0, 'epoch': 0.66}
 22%|██████████████████████▉                                                                                 | 633/2865 [40:54<1:50:01,  2.96s/it] 22%|███████████████████████                                                                                 | 634/2865 [40:57<1:49:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0814, 'grad_norm': 1.0859375, 'learning_rate': 4.779965885273924e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21197.99, 'epoch': 0.66}
 22%|███████████████████████                                                                                 | 634/2865 [40:57<1:49:58,  2.96s/it] 22%|███████████████████████                                                                                 | 635/2865 [41:00<1:49:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0502, 'grad_norm': 1.28125, 'learning_rate': 4.778714925061122e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22547.42, 'epoch': 0.66}
 22%|███████████████████████                                                                                 | 635/2865 [41:00<1:49:59,  2.96s/it] 22%|███████████████████████                                                                                 | 636/2865 [41:03<1:49:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0654, 'grad_norm': 1.09375, 'learning_rate': 4.7774605835226286e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22340.71, 'epoch': 0.67}
 22%|███████████████████████                                                                                 | 636/2865 [41:03<1:49:57,  2.96s/it] 22%|███████████████████████                                                                                 | 637/2865 [41:06<1:49:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0611, 'grad_norm': 1.0625, 'learning_rate': 4.776202862519727e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21368.91, 'epoch': 0.67}
 22%|███████████████████████                                                                                 | 637/2865 [41:06<1:49:52,  2.96s/it] 22%|███████████████████████▏                                                                                | 638/2865 [41:09<1:49:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0521, 'grad_norm': 1.078125, 'learning_rate': 4.77494176391872e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21300.27, 'epoch': 0.67}
 22%|███████████████████████▏                                                                                | 638/2865 [41:09<1:49:43,  2.96s/it] 22%|███████████████████████▏                                                                                | 639/2865 [41:11<1:49:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0567, 'grad_norm': 1.0859375, 'learning_rate': 4.773677289590917e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21585.01, 'epoch': 0.67}
 22%|███████████████████████▏                                                                                | 639/2865 [41:12<1:49:39,  2.96s/it] 22%|███████████████████████▏                                                                                | 640/2865 [41:14<1:49:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0573, 'grad_norm': 1.0859375, 'learning_rate': 4.7724094414126385e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22283.98, 'epoch': 0.67}
 22%|███████████████████████▏                                                                                | 640/2865 [41:14<1:49:40,  2.96s/it] 22%|███████████████████████▎                                                                                | 641/2865 [41:17<1:49:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0986, 'grad_norm': 1.265625, 'learning_rate': 4.771138221265212e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21950.1, 'epoch': 0.67}
 22%|███████████████████████▎                                                                                | 641/2865 [41:17<1:49:33,  2.96s/it] 22%|███████████████████████▎                                                                                | 642/2865 [41:20<1:49:37,  2.96s/it]                                                                                                                                                  {'loss': 11.083, 'grad_norm': 1.453125, 'learning_rate': 4.769863631034966e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22063.21, 'epoch': 0.67}
 22%|███████████████████████▎                                                                                | 642/2865 [41:20<1:49:37,  2.96s/it] 22%|███████████████████████▎                                                                                | 643/2865 [41:23<1:49:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0825, 'grad_norm': 1.2578125, 'learning_rate': 4.7685856726132347e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21694.03, 'epoch': 0.67}
 22%|███████████████████████▎                                                                                | 643/2865 [41:23<1:49:35,  2.96s/it] 22%|███████████████████████▍                                                                                | 644/2865 [41:26<1:49:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0563, 'grad_norm': 1.1875, 'learning_rate': 4.767304347896347e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21228.57, 'epoch': 0.67}
 22%|███████████████████████▍                                                                                | 644/2865 [41:26<1:49:29,  2.96s/it] 23%|███████████████████████▍                                                                                | 645/2865 [41:29<1:49:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0591, 'grad_norm': 1.3125, 'learning_rate': 4.766019658785624e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21132.79, 'epoch': 0.68}
 23%|███████████████████████▍                                                                                | 645/2865 [41:29<1:49:21,  2.96s/it] 23%|███████████████████████▍                                                                                | 646/2865 [41:32<1:49:26,  2.96s/it]                                                                                                                                                  {'loss': 11.07, 'grad_norm': 1.296875, 'learning_rate': 4.7647316071873846e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22461.25, 'epoch': 0.68}
 23%|███████████████████████▍                                                                                | 646/2865 [41:32<1:49:26,  2.96s/it] 23%|███████████████████████▍                                                                                | 647/2865 [41:35<1:49:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0718, 'grad_norm': 1.3984375, 'learning_rate': 4.763440195012936e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21500.37, 'epoch': 0.68}
 23%|███████████████████████▍                                                                                | 647/2865 [41:35<1:49:22,  2.96s/it] 23%|███████████████████████▌                                                                                | 648/2865 [41:38<1:49:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0666, 'grad_norm': 1.1875, 'learning_rate': 4.762145424178569e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22465.31, 'epoch': 0.68}
 23%|███████████████████████▌                                                                                | 648/2865 [41:38<1:49:20,  2.96s/it] 23%|███████████████████████▌                                                                                | 649/2865 [41:41<1:49:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0683, 'grad_norm': 1.171875, 'learning_rate': 4.760847296605562e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22608.6, 'epoch': 0.68}
 23%|███████████████████████▌                                                                                | 649/2865 [41:41<1:49:17,  2.96s/it] 23%|███████████████████████▌                                                                                | 650/2865 [41:44<1:49:18,  2.96s/it]                                                                                                                                                  {'loss': 11.072, 'grad_norm': 1.2890625, 'learning_rate': 4.759545814220171e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21326.56, 'epoch': 0.68}
 23%|███████████████████████▌                                                                                | 650/2865 [41:44<1:49:18,  2.96s/it] 23%|███████████████████████▋                                                                                | 651/2865 [41:47<1:49:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0891, 'grad_norm': 1.3046875, 'learning_rate': 4.7582409789536335e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22136.57, 'epoch': 0.68}
 23%|███████████████████████▋                                                                                | 651/2865 [41:47<1:49:13,  2.96s/it] 23%|███████████████████████▋                                                                                | 652/2865 [41:50<1:49:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0836, 'grad_norm': 1.65625, 'learning_rate': 4.756932792742159e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21490.82, 'epoch': 0.68}
 23%|███████████████████████▋                                                                                | 652/2865 [41:50<1:49:01,  2.96s/it] 23%|███████████████████████▋                                                                                | 653/2865 [41:53<1:49:01,  2.96s/it]                                                                                                                                                  {'loss': 11.083, 'grad_norm': 1.6484375, 'learning_rate': 4.7556212575269334e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22419.78, 'epoch': 0.68}
 23%|███████████████████████▋                                                                                | 653/2865 [41:53<1:49:01,  2.96s/it] 23%|███████████████████████▋                                                                                | 654/2865 [41:56<1:48:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0854, 'grad_norm': 1.734375, 'learning_rate': 4.754306375254106e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20875.11, 'epoch': 0.68}
 23%|███████████████████████▋                                                                                | 654/2865 [41:56<1:48:53,  2.96s/it] 23%|███████████████████████▊                                                                                | 655/2865 [41:59<1:48:49,  2.95s/it]                                                                                                                                                  {'loss': 11.1122, 'grad_norm': 1.65625, 'learning_rate': 4.7529881478748e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22225.89, 'epoch': 0.69}
 23%|███████████████████████▊                                                                                | 655/2865 [41:59<1:48:49,  2.95s/it] 23%|███████████████████████▊                                                                                | 656/2865 [42:02<1:48:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0917, 'grad_norm': 1.53125, 'learning_rate': 4.7516665773450954e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20815.68, 'epoch': 0.69}
 23%|███████████████████████▊                                                                                | 656/2865 [42:02<1:48:43,  2.95s/it] 23%|███████████████████████▊                                                                                | 657/2865 [42:05<1:48:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0952, 'grad_norm': 1.359375, 'learning_rate': 4.7503416656260386e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21073.06, 'epoch': 0.69}
 23%|███████████████████████▊                                                                                | 657/2865 [42:05<1:48:45,  2.96s/it] 23%|███████████████████████▉                                                                                | 658/2865 [42:08<1:48:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0825, 'grad_norm': 4.96875, 'learning_rate': 4.7490134146836306e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21600.43, 'epoch': 0.69}
 23%|███████████████████████▉                                                                                | 658/2865 [42:08<1:48:47,  2.96s/it] 23%|███████████████████████▉                                                                                | 659/2865 [42:11<1:48:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0711, 'grad_norm': 1.671875, 'learning_rate': 4.747681826488828e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21863.01, 'epoch': 0.69}
 23%|███████████████████████▉                                                                                | 659/2865 [42:11<1:48:41,  2.96s/it] 23%|███████████████████████▉                                                                                | 660/2865 [42:14<1:48:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0935, 'grad_norm': 1.3203125, 'learning_rate': 4.746346903017541e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22416.12, 'epoch': 0.69}
 23%|███████████████████████▉                                                                                | 660/2865 [42:14<1:48:40,  2.96s/it] 23%|███████████████████████▉                                                                                | 661/2865 [42:17<1:48:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0723, 'grad_norm': 1.6484375, 'learning_rate': 4.745008646250627e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22181.78, 'epoch': 0.69}
 23%|███████████████████████▉                                                                                | 661/2865 [42:17<1:48:36,  2.96s/it] 23%|████████████████████████                                                                                | 662/2865 [42:20<1:48:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0762, 'grad_norm': 1.3515625, 'learning_rate': 4.74366705817389e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21043.28, 'epoch': 0.69}
 23%|████████████████████████                                                                                | 662/2865 [42:20<1:48:37,  2.96s/it] 23%|████████████████████████                                                                                | 663/2865 [42:22<1:48:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0804, 'grad_norm': 1.3125, 'learning_rate': 4.7423221407780784e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21846.01, 'epoch': 0.69}
 23%|████████████████████████                                                                                | 663/2865 [42:22<1:48:33,  2.96s/it] 23%|████████████████████████                                                                                | 664/2865 [42:25<1:48:27,  2.96s/it]                                                                                                                                                  {'loss': 11.1004, 'grad_norm': 1.3203125, 'learning_rate': 4.74097389605888e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20991.05, 'epoch': 0.7}
 23%|████████████████████████                                                                                | 664/2865 [42:25<1:48:27,  2.96s/it] 23%|████████████████████████▏                                                                               | 665/2865 [42:28<1:48:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0837, 'grad_norm': 1.21875, 'learning_rate': 4.7396223260169194e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20941.44, 'epoch': 0.7}
 23%|████████████████████████▏                                                                               | 665/2865 [42:28<1:48:28,  2.96s/it] 23%|████████████████████████▏                                                                               | 666/2865 [42:31<1:48:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0955, 'grad_norm': 1.2890625, 'learning_rate': 4.7382674326577556e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21684.33, 'epoch': 0.7}
 23%|████████████████████████▏                                                                               | 666/2865 [42:31<1:48:23,  2.96s/it] 23%|████████████████████████▏                                                                               | 667/2865 [42:34<1:48:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0788, 'grad_norm': 1.1796875, 'learning_rate': 4.7369092179918815e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21257.43, 'epoch': 0.7}
 23%|████████████████████████▏                                                                               | 667/2865 [42:34<1:48:28,  2.96s/it] 23%|████████████████████████▏                                                                               | 668/2865 [42:37<1:48:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0727, 'grad_norm': 1.4140625, 'learning_rate': 4.7355476840347145e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19947.96, 'epoch': 0.7}
 23%|████████████████████████▏                                                                               | 668/2865 [42:37<1:48:20,  2.96s/it] 23%|████████████████████████▎                                                                               | 669/2865 [42:40<1:48:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0636, 'grad_norm': 1.2421875, 'learning_rate': 4.734182832806601e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21559.29, 'epoch': 0.7}
 23%|████████████████████████▎                                                                               | 669/2865 [42:40<1:48:12,  2.96s/it] 23%|████████████████████████▎                                                                               | 670/2865 [42:43<1:48:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0787, 'grad_norm': 1.2265625, 'learning_rate': 4.7328146663328066e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21946.15, 'epoch': 0.7}
 23%|████████████████████████▎                                                                               | 670/2865 [42:43<1:48:13,  2.96s/it] 23%|████████████████████████▎                                                                               | 671/2865 [42:46<1:48:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0691, 'grad_norm': 1.1328125, 'learning_rate': 4.731443186643519e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20987.78, 'epoch': 0.7}
 23%|████████████████████████▎                                                                               | 671/2865 [42:46<1:48:04,  2.96s/it] 23%|████████████████████████▍                                                                               | 672/2865 [42:49<1:48:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0808, 'grad_norm': 1.3671875, 'learning_rate': 4.730068395773841e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20071.09, 'epoch': 0.7}
 23%|████████████████████████▍                                                                               | 672/2865 [42:49<1:48:04,  2.96s/it] 23%|████████████████████████▍                                                                               | 673/2865 [42:52<1:48:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0685, 'grad_norm': 1.21875, 'learning_rate': 4.728690295763789e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23264.68, 'epoch': 0.7}
 23%|████████████████████████▍                                                                               | 673/2865 [42:52<1:48:11,  2.96s/it] 24%|████████████████████████▍                                                                               | 674/2865 [42:55<1:48:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0728, 'grad_norm': 1.1875, 'learning_rate': 4.727308888658289e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21366.61, 'epoch': 0.71}
 24%|████████████████████████▍                                                                               | 674/2865 [42:55<1:48:03,  2.96s/it] 24%|████████████████████████▌                                                                               | 675/2865 [42:58<1:47:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0641, 'grad_norm': 1.1328125, 'learning_rate': 4.725924176507175e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21101.74, 'epoch': 0.71}
 24%|████████████████████████▌                                                                               | 675/2865 [42:58<1:47:56,  2.96s/it] 24%|████████████████████████▌                                                                               | 676/2865 [43:01<1:47:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0691, 'grad_norm': 1.1953125, 'learning_rate': 4.7245361613651863e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21434.07, 'epoch': 0.71}
 24%|████████████████████████▌                                                                               | 676/2865 [43:01<1:47:57,  2.96s/it] 24%|████████████████████████▌                                                                               | 677/2865 [43:04<1:47:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0783, 'grad_norm': 1.1015625, 'learning_rate': 4.723144845291961e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21192.0, 'epoch': 0.71}
 24%|████████████████████████▌                                                                               | 677/2865 [43:04<1:47:55,  2.96s/it] 24%|████████████████████████▌                                                                               | 678/2865 [43:07<1:47:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0736, 'grad_norm': 1.2421875, 'learning_rate': 4.721750230352039e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21262.47, 'epoch': 0.71}
 24%|████████████████████████▌                                                                               | 678/2865 [43:07<1:47:41,  2.95s/it] 24%|████████████████████████▋                                                                               | 679/2865 [43:10<1:47:38,  2.95s/it]                                                                                                                                                  {'loss': 11.0745, 'grad_norm': 1.109375, 'learning_rate': 4.7203523186148507e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20824.46, 'epoch': 0.71}
 24%|████████████████████████▋                                                                               | 679/2865 [43:10<1:47:38,  2.95s/it] 24%|████████████████████████▋                                                                               | 680/2865 [43:13<1:47:33,  2.95s/it]                                                                                                                                                  {'loss': 11.0873, 'grad_norm': 1.1015625, 'learning_rate': 4.718951112154722e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20896.28, 'epoch': 0.71}
 24%|████████████████████████▋                                                                               | 680/2865 [43:13<1:47:33,  2.95s/it] 24%|████████████████████████▋                                                                               | 681/2865 [43:16<1:47:27,  2.95s/it]                                                                                                                                                  {'loss': 11.0738, 'grad_norm': 1.109375, 'learning_rate': 4.7175466130508664e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21677.9, 'epoch': 0.71}
 24%|████████████████████████▋                                                                               | 681/2865 [43:16<1:47:27,  2.95s/it] 24%|████████████████████████▊                                                                               | 682/2865 [43:19<1:47:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0642, 'grad_norm': 1.0859375, 'learning_rate': 4.716138823387384e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21266.81, 'epoch': 0.71}
 24%|████████████████████████▊                                                                               | 682/2865 [43:19<1:47:23,  2.95s/it] 24%|████████████████████████▊                                                                               | 683/2865 [43:22<1:47:21,  2.95s/it]                                                                                                                                                  {'loss': 11.0524, 'grad_norm': 1.0703125, 'learning_rate': 4.714727745253256e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21193.71, 'epoch': 0.72}
 24%|████████████████████████▊                                                                               | 683/2865 [43:22<1:47:21,  2.95s/it] 24%|████████████████████████▊                                                                               | 684/2865 [43:25<1:47:17,  2.95s/it]                                                                                                                                                  {'loss': 11.06, 'grad_norm': 1.0703125, 'learning_rate': 4.713313380742346e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21074.81, 'epoch': 0.72}
 24%|████████████████████████▊                                                                               | 684/2865 [43:25<1:47:17,  2.95s/it] 24%|████████████████████████▊                                                                               | 685/2865 [43:28<1:47:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0687, 'grad_norm': 1.125, 'learning_rate': 4.711895731953392e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22460.98, 'epoch': 0.72}
 24%|████████████████████████▊                                                                               | 685/2865 [43:28<1:47:21,  2.96s/it] 24%|████████████████████████▉                                                                               | 686/2865 [43:30<1:47:15,  2.95s/it]                                                                                                                                                  {'loss': 11.0707, 'grad_norm': 1.0859375, 'learning_rate': 4.7104748009900054e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20951.34, 'epoch': 0.72}
 24%|████████████████████████▉                                                                               | 686/2865 [43:30<1:47:15,  2.95s/it] 24%|████████████████████████▉                                                                               | 687/2865 [43:33<1:47:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0821, 'grad_norm': 1.0859375, 'learning_rate': 4.7090505899606696e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21094.15, 'epoch': 0.72}
 24%|████████████████████████▉                                                                               | 687/2865 [43:33<1:47:20,  2.96s/it] 24%|████████████████████████▉                                                                               | 688/2865 [43:36<1:47:28,  2.96s/it]                                                                                                                                                  {'loss': 11.078, 'grad_norm': 1.21875, 'learning_rate': 4.707623100978733e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21772.62, 'epoch': 0.72}
 24%|████████████████████████▉                                                                               | 688/2865 [43:36<1:47:28,  2.96s/it] 24%|█████████████████████████                                                                               | 689/2865 [43:39<1:47:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0924, 'grad_norm': 1.1171875, 'learning_rate': 4.706192336162411e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21811.31, 'epoch': 0.72}
 24%|█████████████████████████                                                                               | 689/2865 [43:39<1:47:20,  2.96s/it] 24%|█████████████████████████                                                                               | 690/2865 [43:42<1:47:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0643, 'grad_norm': 1.1328125, 'learning_rate': 4.704758297634777e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21901.15, 'epoch': 0.72}
 24%|█████████████████████████                                                                               | 690/2865 [43:42<1:47:15,  2.96s/it] 24%|█████████████████████████                                                                               | 691/2865 [43:45<1:47:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0416, 'grad_norm': 1.90625, 'learning_rate': 4.703320987523764e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20991.43, 'epoch': 0.72}
 24%|█████████████████████████                                                                               | 691/2865 [43:45<1:47:05,  2.96s/it] 24%|█████████████████████████                                                                               | 692/2865 [43:48<1:47:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0706, 'grad_norm': 1.078125, 'learning_rate': 4.701880407962159e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21671.9, 'epoch': 0.72}
 24%|█████████████████████████                                                                               | 692/2865 [43:48<1:47:05,  2.96s/it] 24%|█████████████████████████▏                                                                              | 693/2865 [43:51<1:47:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0763, 'grad_norm': 1.1171875, 'learning_rate': 4.7004365610876e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22023.17, 'epoch': 0.73}
 24%|█████████████████████████▏                                                                              | 693/2865 [43:51<1:47:02,  2.96s/it] 24%|█████████████████████████▏                                                                              | 694/2865 [43:54<1:46:54,  2.95s/it]                                                                                                                                                  {'loss': 11.0657, 'grad_norm': 1.1640625, 'learning_rate': 4.698989449042573e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21117.05, 'epoch': 0.73}
 24%|█████████████████████████▏                                                                              | 694/2865 [43:54<1:46:54,  2.95s/it] 24%|█████████████████████████▏                                                                              | 695/2865 [43:57<1:46:47,  2.95s/it]                                                                                                                                                  {'loss': 11.067, 'grad_norm': 1.2734375, 'learning_rate': 4.6975390739744126e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20643.61, 'epoch': 0.73}
 24%|█████████████████████████▏                                                                              | 695/2865 [43:57<1:46:47,  2.95s/it] 24%|█████████████████████████▎                                                                              | 696/2865 [44:00<1:46:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0588, 'grad_norm': 1.203125, 'learning_rate': 4.6960854380352895e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23127.84, 'epoch': 0.73}
 24%|█████████████████████████▎                                                                              | 696/2865 [44:00<1:46:54,  2.96s/it] 24%|█████████████████████████▎                                                                              | 697/2865 [44:03<1:46:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0942, 'grad_norm': 1.3828125, 'learning_rate': 4.694628543382218e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21524.9, 'epoch': 0.73}
 24%|█████████████████████████▎                                                                              | 697/2865 [44:03<1:46:51,  2.96s/it] 24%|█████████████████████████▎                                                                              | 698/2865 [44:06<1:46:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0707, 'grad_norm': 1.125, 'learning_rate': 4.6931683921770456e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20678.21, 'epoch': 0.73}
 24%|█████████████████████████▎                                                                              | 698/2865 [44:06<1:46:47,  2.96s/it] 24%|█████████████████████████▎                                                                              | 699/2865 [44:09<1:46:35,  2.95s/it]                                                                                                                                                  {'loss': 11.048, 'grad_norm': 1.1015625, 'learning_rate': 4.691704986586453e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21252.73, 'epoch': 0.73}
 24%|█████████████████████████▎                                                                              | 699/2865 [44:09<1:46:35,  2.95s/it] 24%|█████████████████████████▍                                                                              | 700/2865 [44:12<1:46:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0743, 'grad_norm': 1.2109375, 'learning_rate': 4.6902383287819485e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21809.9, 'epoch': 0.73}
 24%|█████████████████████████▍                                                                              | 700/2865 [44:12<1:46:34,  2.95s/it][2025-10-12 03:53:04,677] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<04:11,  1.38s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:02,  1.00s/it][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:20,  1.29it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<01:55,  1.56it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:40,  1.79it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:29,  2.00it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:23,  2.11it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:17,  2.28it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:16,  2.28it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.37it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:12,  2.39it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:10,  2.45it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:08,  2.48it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:06,  2.55it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:06,  2.55it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.54it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:05,  2.55it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:03,  2.61it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:04,  2.56it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:03,  2.57it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.54it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:03,  2.54it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:02,  2.56it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:03,  2.53it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:01,  2.57it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:00,  2.61it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:00,  2.61it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:01,  2.54it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.56it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.54it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<00:59,  2.55it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:58,  2.62it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:59,  2.55it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:58,  2.55it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:57,  2.57it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:57,  2.56it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.55it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:55,  2.62it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:57,  2.54it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.55it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.52it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:56,  2.53it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:55,  2.55it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:53,  2.62it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.54it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:53,  2.57it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.56it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:52,  2.61it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:50,  2.66it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:52,  2.55it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.54it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:52,  2.53it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.55it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:51,  2.53it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:49,  2.59it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:50,  2.53it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:50,  2.51it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:47,  2.62it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:48,  2.54it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:49,  2.50it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:48,  2.51it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:46,  2.59it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.53it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.55it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.56it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:46,  2.51it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.55it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:44,  2.56it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.57it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:43,  2.60it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.53it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.53it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:42,  2.59it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.58it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.53it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:42,  2.55it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.53it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:40,  2.56it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.56it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.56it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:40,  2.54it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:39,  2.55it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:38,  2.57it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.56it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.56it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:37,  2.57it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.57it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.52it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:37,  2.53it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:35,  2.61it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:36,  2.53it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.54it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.56it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.56it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.53it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:33,  2.58it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.58it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:32,  2.59it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.59it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.59it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:31,  2.59it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.59it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.55it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.55it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:31,  2.50it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:30,  2.52it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.57it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.54it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.62it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:29,  2.51it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.55it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.55it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.57it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.49it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:27,  2.52it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:25,  2.63it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:26,  2.51it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.51it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.54it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.55it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.51it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:24,  2.51it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.52it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.54it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.58it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.54it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:22,  2.54it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.55it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.56it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.57it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.56it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.55it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.54it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:18,  2.58it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.53it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.57it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:17,  2.56it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.56it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.55it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.53it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.54it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:15,  2.68it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.51it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.52it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:15,  2.53it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.56it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.58it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.59it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.56it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.57it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.58it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.66it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.54it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.56it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.63it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.54it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.56it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.54it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.53it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.60it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.57it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.57it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.54it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.54it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.57it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.58it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.59it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.54it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.53it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.58it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.56it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.55it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.60it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.54it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.55it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.60it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.59it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.59it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.93it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.047319412231445, 'eval_runtime': 78.0009, 'eval_samples_per_second': 152.011, 'eval_steps_per_second': 2.385, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 0.73}
 24%|█████████████████████████▍                                                                              | 700/2865 [45:30<1:46:34,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  1.93it/s][A
                                                                                                                                                  [A[2025-10-12 03:54:22,701] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-700
 24%|█████████████████████████▏                                                                             | 701/2865 [45:39<16:54:12, 28.12s/it]                                                                                                                                                  {'loss': 11.0609, 'grad_norm': 1.171875, 'learning_rate': 4.6887684209398686e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 18717.85, 'epoch': 0.73}
 24%|█████████████████████████▏                                                                             | 701/2865 [45:39<16:54:12, 28.12s/it] 25%|█████████████████████████▏                                                                             | 702/2865 [45:42<12:21:36, 20.57s/it]                                                                                                                                                  {'loss': 11.0693, 'grad_norm': 1.109375, 'learning_rate': 4.68729526524137e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21937.95, 'epoch': 0.74}
 25%|█████████████████████████▏                                                                             | 702/2865 [45:42<12:21:36, 20.57s/it] 25%|█████████████████████████▌                                                                              | 703/2865 [45:45<9:10:36, 15.28s/it]                                                                                                                                                  {'loss': 11.0388, 'grad_norm': 1.4453125, 'learning_rate': 4.685818863872432e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21734.07, 'epoch': 0.74}
 25%|█████████████████████████▌                                                                              | 703/2865 [45:45<9:10:36, 15.28s/it] 25%|█████████████████████████▌                                                                              | 704/2865 [45:48<6:57:02, 11.58s/it]                                                                                                                                                  {'loss': 11.0594, 'grad_norm': 1.171875, 'learning_rate': 4.684339219023847e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21111.27, 'epoch': 0.74}
 25%|█████████████████████████▌                                                                              | 704/2865 [45:48<6:57:02, 11.58s/it] 25%|█████████████████████████▌                                                                              | 705/2865 [45:50<5:23:31,  8.99s/it]                                                                                                                                                  {'loss': 11.047, 'grad_norm': 1.1875, 'learning_rate': 4.6828563328912204e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20756.46, 'epoch': 0.74}
 25%|█████████████████████████▌                                                                              | 705/2865 [45:50<5:23:31,  8.99s/it] 25%|█████████████████████████▋                                                                              | 706/2865 [45:53<4:18:16,  7.18s/it]                                                                                                                                                  {'loss': 11.0716, 'grad_norm': 1.2734375, 'learning_rate': 4.68137020767497e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22190.32, 'epoch': 0.74}
 25%|█████████████████████████▋                                                                              | 706/2865 [45:53<4:18:16,  7.18s/it] 25%|█████████████████████████▋                                                                              | 707/2865 [45:56<3:32:33,  5.91s/it]                                                                                                                                                  {'loss': 11.0643, 'grad_norm': 1.171875, 'learning_rate': 4.6798808455803166e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21552.66, 'epoch': 0.74}
 25%|█████████████████████████▋                                                                              | 707/2865 [45:56<3:32:33,  5.91s/it] 25%|█████████████████████████▋                                                                              | 708/2865 [45:59<3:00:41,  5.03s/it]                                                                                                                                                  {'loss': 11.0606, 'grad_norm': 1.140625, 'learning_rate': 4.678388248817287e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21966.17, 'epoch': 0.74}
 25%|█████████████████████████▋                                                                              | 708/2865 [45:59<3:00:41,  5.03s/it] 25%|█████████████████████████▋                                                                              | 709/2865 [46:02<2:38:16,  4.40s/it]                                                                                                                                                  {'loss': 11.056, 'grad_norm': 1.1328125, 'learning_rate': 4.6768924196007074e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20585.08, 'epoch': 0.74}
 25%|█████████████████████████▋                                                                              | 709/2865 [46:02<2:38:16,  4.40s/it] 25%|█████████████████████████▊                                                                              | 710/2865 [46:05<2:22:41,  3.97s/it]                                                                                                                                                  {'loss': 11.0643, 'grad_norm': 1.109375, 'learning_rate': 4.675393360150198e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21330.78, 'epoch': 0.74}
 25%|█████████████████████████▊                                                                              | 710/2865 [46:05<2:22:41,  3.97s/it] 25%|█████████████████████████▊                                                                              | 711/2865 [46:08<2:11:39,  3.67s/it]                                                                                                                                                  {'loss': 11.0573, 'grad_norm': 1.09375, 'learning_rate': 4.6738910726901756e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22425.68, 'epoch': 0.74}
 25%|█████████████████████████▊                                                                              | 711/2865 [46:08<2:11:39,  3.67s/it] 25%|█████████████████████████▊                                                                              | 712/2865 [46:11<2:03:51,  3.45s/it]                                                                                                                                                  {'loss': 11.0444, 'grad_norm': 1.265625, 'learning_rate': 4.6723855594498434e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21744.88, 'epoch': 0.75}
 25%|█████████████████████████▊                                                                              | 712/2865 [46:11<2:03:51,  3.45s/it] 25%|█████████████████████████▉                                                                              | 713/2865 [46:14<1:58:28,  3.30s/it]                                                                                                                                                  {'loss': 11.0574, 'grad_norm': 1.3046875, 'learning_rate': 4.670876822663195e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21713.36, 'epoch': 0.75}
 25%|█████████████████████████▉                                                                              | 713/2865 [46:14<1:58:28,  3.30s/it] 25%|█████████████████████████▉                                                                              | 714/2865 [46:17<1:54:35,  3.20s/it]                                                                                                                                                  {'loss': 11.0467, 'grad_norm': 1.171875, 'learning_rate': 4.6693648645690045e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19965.53, 'epoch': 0.75}
 25%|█████████████████████████▉                                                                              | 714/2865 [46:17<1:54:35,  3.20s/it] 25%|█████████████████████████▉                                                                              | 715/2865 [46:20<1:51:52,  3.12s/it]                                                                                                                                                  {'loss': 11.0598, 'grad_norm': 1.09375, 'learning_rate': 4.667849687410829e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21683.54, 'epoch': 0.75}
 25%|█████████████████████████▉                                                                              | 715/2865 [46:20<1:51:52,  3.12s/it] 25%|█████████████████████████▉                                                                              | 716/2865 [46:23<1:49:59,  3.07s/it]                                                                                                                                                  {'loss': 11.0459, 'grad_norm': 1.1015625, 'learning_rate': 4.6663312934369976e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21617.13, 'epoch': 0.75}
 25%|█████████████████████████▉                                                                              | 716/2865 [46:23<1:49:59,  3.07s/it] 25%|██████████████████████████                                                                              | 717/2865 [46:26<1:48:39,  3.04s/it]                                                                                                                                                  {'loss': 11.062, 'grad_norm': 1.21875, 'learning_rate': 4.6648096849006175e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21562.16, 'epoch': 0.75}
 25%|██████████████████████████                                                                              | 717/2865 [46:26<1:48:39,  3.04s/it] 25%|██████████████████████████                                                                              | 718/2865 [46:29<1:47:43,  3.01s/it]                                                                                                                                                  {'loss': 11.0654, 'grad_norm': 1.109375, 'learning_rate': 4.663284864059564e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21337.16, 'epoch': 0.75}
 25%|██████████████████████████                                                                              | 718/2865 [46:29<1:47:43,  3.01s/it] 25%|██████████████████████████                                                                              | 719/2865 [46:32<1:46:59,  2.99s/it]                                                                                                                                                  {'loss': 11.0486, 'grad_norm': 1.0703125, 'learning_rate': 4.6617568331764785e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21647.04, 'epoch': 0.75}
 25%|██████████████████████████                                                                              | 719/2865 [46:32<1:46:59,  2.99s/it] 25%|██████████████████████████▏                                                                             | 720/2865 [46:35<1:46:37,  2.98s/it]                                                                                                                                                  {'loss': 11.0742, 'grad_norm': 1.109375, 'learning_rate': 4.660225594518766e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22521.6, 'epoch': 0.75}
 25%|██████████████████████████▏                                                                             | 720/2865 [46:35<1:46:37,  2.98s/it] 25%|██████████████████████████▏                                                                             | 721/2865 [46:38<1:46:17,  2.97s/it]                                                                                                                                                  {'loss': 11.0708, 'grad_norm': 1.3046875, 'learning_rate': 4.658691150358592e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20266.63, 'epoch': 0.75}
 25%|██████████████████████████▏                                                                             | 721/2865 [46:38<1:46:17,  2.97s/it] 25%|██████████████████████████▏                                                                             | 722/2865 [46:41<1:46:09,  2.97s/it]                                                                                                                                                  {'loss': 11.0703, 'grad_norm': 1.09375, 'learning_rate': 4.657153502972877e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21881.4, 'epoch': 0.76}
 25%|██████████████████████████▏                                                                             | 722/2865 [46:41<1:46:09,  2.97s/it] 25%|██████████████████████████▏                                                                             | 723/2865 [46:44<1:46:00,  2.97s/it]                                                                                                                                                  {'loss': 11.0584, 'grad_norm': 1.1015625, 'learning_rate': 4.655612654643298e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21498.31, 'epoch': 0.76}
 25%|██████████████████████████▏                                                                             | 723/2865 [46:44<1:46:00,  2.97s/it] 25%|██████████████████████████▎                                                                             | 724/2865 [46:47<1:45:50,  2.97s/it]                                                                                                                                                  {'loss': 11.048, 'grad_norm': 1.4765625, 'learning_rate': 4.654068607656278e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22006.05, 'epoch': 0.76}
 25%|██████████████████████████▎                                                                             | 724/2865 [46:47<1:45:50,  2.97s/it] 25%|██████████████████████████▎                                                                             | 725/2865 [46:50<1:45:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0612, 'grad_norm': 1.3046875, 'learning_rate': 4.6525213643029895e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20863.03, 'epoch': 0.76}
 25%|██████████████████████████▎                                                                             | 725/2865 [46:50<1:45:35,  2.96s/it] 25%|██████████████████████████▎                                                                             | 726/2865 [46:53<1:45:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0523, 'grad_norm': 1.2734375, 'learning_rate': 4.6509709268793455e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21369.07, 'epoch': 0.76}
 25%|██████████████████████████▎                                                                             | 726/2865 [46:53<1:45:24,  2.96s/it] 25%|██████████████████████████▍                                                                             | 727/2865 [46:55<1:45:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0397, 'grad_norm': 1.3515625, 'learning_rate': 4.6494172976859994e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22836.97, 'epoch': 0.76}
 25%|██████████████████████████▍                                                                             | 727/2865 [46:55<1:45:26,  2.96s/it] 25%|██████████████████████████▍                                                                             | 728/2865 [46:58<1:45:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0534, 'grad_norm': 1.3359375, 'learning_rate': 4.647860479028342e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21429.94, 'epoch': 0.76}
 25%|██████████████████████████▍                                                                             | 728/2865 [46:58<1:45:28,  2.96s/it] 25%|██████████████████████████▍                                                                             | 729/2865 [47:01<1:45:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0646, 'grad_norm': 1.296875, 'learning_rate': 4.646300473216496e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21516.37, 'epoch': 0.76}
 25%|██████████████████████████▍                                                                             | 729/2865 [47:01<1:45:22,  2.96s/it] 25%|██████████████████████████▍                                                                             | 730/2865 [47:04<1:45:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0648, 'grad_norm': 1.3203125, 'learning_rate': 4.6447372825653126e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22595.26, 'epoch': 0.76}
 25%|██████████████████████████▍                                                                             | 730/2865 [47:04<1:45:18,  2.96s/it] 26%|██████████████████████████▌                                                                             | 731/2865 [47:07<1:45:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0614, 'grad_norm': 1.1875, 'learning_rate': 4.6431709093943695e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21363.28, 'epoch': 0.77}
 26%|██████████████████████████▌                                                                             | 731/2865 [47:07<1:45:19,  2.96s/it] 26%|██████████████████████████▌                                                                             | 732/2865 [47:10<1:45:14,  2.96s/it]                                                                                                                                                  {'loss': 11.042, 'grad_norm': 1.1640625, 'learning_rate': 4.641601356027968e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21248.28, 'epoch': 0.77}
 26%|██████████████████████████▌                                                                             | 732/2865 [47:10<1:45:14,  2.96s/it] 26%|██████████████████████████▌                                                                             | 733/2865 [47:13<1:45:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0661, 'grad_norm': 1.5078125, 'learning_rate': 4.640028624795127e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21107.5, 'epoch': 0.77}
 26%|██████████████████████████▌                                                                             | 733/2865 [47:13<1:45:04,  2.96s/it] 26%|██████████████████████████▋                                                                             | 734/2865 [47:16<1:44:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0637, 'grad_norm': 1.359375, 'learning_rate': 4.638452718029581e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21237.12, 'epoch': 0.77}
 26%|██████████████████████████▋                                                                             | 734/2865 [47:16<1:44:53,  2.95s/it] 26%|██████████████████████████▋                                                                             | 735/2865 [47:19<1:44:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0547, 'grad_norm': 1.3515625, 'learning_rate': 4.636873638069777e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23025.22, 'epoch': 0.77}
 26%|██████████████████████████▋                                                                             | 735/2865 [47:19<1:44:57,  2.96s/it] 26%|██████████████████████████▋                                                                             | 736/2865 [47:22<1:44:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0506, 'grad_norm': 1.15625, 'learning_rate': 4.635291387258872e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22810.69, 'epoch': 0.77}
 26%|██████████████████████████▋                                                                             | 736/2865 [47:22<1:44:54,  2.96s/it] 26%|██████████████████████████▊                                                                             | 737/2865 [47:25<1:44:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0628, 'grad_norm': 1.25, 'learning_rate': 4.633705967944726e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21214.89, 'epoch': 0.77}
 26%|██████████████████████████▊                                                                             | 737/2865 [47:25<1:44:49,  2.96s/it] 26%|██████████████████████████▊                                                                             | 738/2865 [47:28<1:44:42,  2.95s/it]                                                                                                                                                  {'loss': 11.0446, 'grad_norm': 1.4296875, 'learning_rate': 4.6321173824799e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21300.45, 'epoch': 0.77}
 26%|██████████████████████████▊                                                                             | 738/2865 [47:28<1:44:42,  2.95s/it] 26%|██████████████████████████▊                                                                             | 739/2865 [47:31<1:44:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0736, 'grad_norm': 1.1328125, 'learning_rate': 4.630525633221656e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22180.93, 'epoch': 0.77}
 26%|██████████████████████████▊                                                                             | 739/2865 [47:31<1:44:42,  2.96s/it] 26%|██████████████████████████▊                                                                             | 740/2865 [47:34<1:44:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0363, 'grad_norm': 1.234375, 'learning_rate': 4.628930722531949e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20881.94, 'epoch': 0.77}
 26%|██████████████████████████▊                                                                             | 740/2865 [47:34<1:44:46,  2.96s/it] 26%|██████████████████████████▉                                                                             | 741/2865 [47:37<1:44:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0616, 'grad_norm': 1.4375, 'learning_rate': 4.627332652777425e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21779.74, 'epoch': 0.78}
 26%|██████████████████████████▉                                                                             | 741/2865 [47:37<1:44:41,  2.96s/it] 26%|██████████████████████████▉                                                                             | 742/2865 [47:40<1:44:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0594, 'grad_norm': 1.3359375, 'learning_rate': 4.625731426329418e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21285.67, 'epoch': 0.78}
 26%|██████████████████████████▉                                                                             | 742/2865 [47:40<1:44:38,  2.96s/it] 26%|██████████████████████████▉                                                                             | 743/2865 [47:43<1:44:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0803, 'grad_norm': 1.1484375, 'learning_rate': 4.624127045563947e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21224.26, 'epoch': 0.78}
 26%|██████████████████████████▉                                                                             | 743/2865 [47:43<1:44:36,  2.96s/it] 26%|███████████████████████████                                                                             | 744/2865 [47:46<1:44:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0647, 'grad_norm': 1.1484375, 'learning_rate': 4.6225195128617114e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20904.23, 'epoch': 0.78}
 26%|███████████████████████████                                                                             | 744/2865 [47:46<1:44:31,  2.96s/it] 26%|███████████████████████████                                                                             | 745/2865 [47:49<1:44:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0485, 'grad_norm': 1.46875, 'learning_rate': 4.620908830608085e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20927.21, 'epoch': 0.78}
 26%|███████████████████████████                                                                             | 745/2865 [47:49<1:44:23,  2.95s/it] 26%|███████████████████████████                                                                             | 746/2865 [47:52<1:44:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0654, 'grad_norm': 1.125, 'learning_rate': 4.619295001193118e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20643.45, 'epoch': 0.78}
 26%|███████████████████████████                                                                             | 746/2865 [47:52<1:44:24,  2.96s/it] 26%|███████████████████████████                                                                             | 747/2865 [47:55<1:44:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0837, 'grad_norm': 1.2109375, 'learning_rate': 4.6176780270115304e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21483.08, 'epoch': 0.78}
 26%|███████████████████████████                                                                             | 747/2865 [47:55<1:44:24,  2.96s/it] 26%|███████████████████████████▏                                                                            | 748/2865 [47:58<1:44:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0647, 'grad_norm': 1.1015625, 'learning_rate': 4.616057910462708e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22616.3, 'epoch': 0.78}
 26%|███████████████████████████▏                                                                            | 748/2865 [47:58<1:44:28,  2.96s/it] 26%|███████████████████████████▏                                                                            | 749/2865 [48:01<1:44:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0592, 'grad_norm': 1.109375, 'learning_rate': 4.614434653950699e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21219.16, 'epoch': 0.78}
 26%|███████████████████████████▏                                                                            | 749/2865 [48:01<1:44:22,  2.96s/it] 26%|███████████████████████████▏                                                                            | 750/2865 [48:04<1:44:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0575, 'grad_norm': 1.09375, 'learning_rate': 4.6128082598842116e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20609.04, 'epoch': 0.79}
 26%|███████████████████████████▏                                                                            | 750/2865 [48:04<1:44:18,  2.96s/it] 26%|███████████████████████████▎                                                                            | 751/2865 [48:06<1:44:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0626, 'grad_norm': 1.09375, 'learning_rate': 4.61117873067661e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21005.3, 'epoch': 0.79}
 26%|███████████████████████████▎                                                                            | 751/2865 [48:06<1:44:17,  2.96s/it] 26%|███████████████████████████▎                                                                            | 752/2865 [48:09<1:44:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0662, 'grad_norm': 1.0703125, 'learning_rate': 4.609546068745909e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20397.76, 'epoch': 0.79}
 26%|███████████████████████████▎                                                                            | 752/2865 [48:09<1:44:14,  2.96s/it] 26%|███████████████████████████▎                                                                            | 753/2865 [48:12<1:44:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0612, 'grad_norm': 1.09375, 'learning_rate': 4.607910276514775e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20890.24, 'epoch': 0.79}
 26%|███████████████████████████▎                                                                            | 753/2865 [48:12<1:44:05,  2.96s/it] 26%|███████████████████████████▎                                                                            | 754/2865 [48:15<1:43:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0579, 'grad_norm': 1.09375, 'learning_rate': 4.6062713564105157e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20186.45, 'epoch': 0.79}
 26%|███████████████████████████▎                                                                            | 754/2865 [48:15<1:43:58,  2.96s/it] 26%|███████████████████████████▍                                                                            | 755/2865 [48:18<1:43:54,  2.95s/it]                                                                                                                                                  {'loss': 11.0442, 'grad_norm': 1.15625, 'learning_rate': 4.6046293108650814e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21328.48, 'epoch': 0.79}
 26%|███████████████████████████▍                                                                            | 755/2865 [48:18<1:43:54,  2.95s/it] 26%|███████████████████████████▍                                                                            | 756/2865 [48:21<1:43:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0638, 'grad_norm': 1.203125, 'learning_rate': 4.602984142315064e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20438.53, 'epoch': 0.79}
 26%|███████████████████████████▍                                                                            | 756/2865 [48:21<1:43:57,  2.96s/it] 26%|███████████████████████████▍                                                                            | 757/2865 [48:24<1:43:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0445, 'grad_norm': 1.1015625, 'learning_rate': 4.601335853201683e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21787.94, 'epoch': 0.79}
 26%|███████████████████████████▍                                                                            | 757/2865 [48:24<1:43:54,  2.96s/it] 26%|███████████████████████████▌                                                                            | 758/2865 [48:27<1:43:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0568, 'grad_norm': 1.078125, 'learning_rate': 4.599684445970793e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20769.79, 'epoch': 0.79}
 26%|███████████████████████████▌                                                                            | 758/2865 [48:27<1:43:47,  2.96s/it] 26%|███████████████████████████▌                                                                            | 759/2865 [48:30<1:43:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0524, 'grad_norm': 1.1171875, 'learning_rate': 4.5980299230728734e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21671.89, 'epoch': 0.79}
 26%|███████████████████████████▌                                                                            | 759/2865 [48:30<1:43:44,  2.96s/it] 27%|███████████████████████████▌                                                                            | 760/2865 [48:33<1:43:36,  2.95s/it]                                                                                                                                                  {'loss': 11.0634, 'grad_norm': 1.0625, 'learning_rate': 4.596372286963029e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21801.46, 'epoch': 0.8}
 27%|███████████████████████████▌                                                                            | 760/2865 [48:33<1:43:36,  2.95s/it] 27%|███████████████████████████▌                                                                            | 761/2865 [48:36<1:43:30,  2.95s/it]                                                                                                                                                  {'loss': 11.0672, 'grad_norm': 1.0859375, 'learning_rate': 4.594711540100981e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21438.31, 'epoch': 0.8}
 27%|███████████████████████████▌                                                                            | 761/2865 [48:36<1:43:30,  2.95s/it] 27%|███████████████████████████▋                                                                            | 762/2865 [48:39<1:43:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0486, 'grad_norm': 1.09375, 'learning_rate': 4.593047684951069e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21126.32, 'epoch': 0.8}
 27%|███████████████████████████▋                                                                            | 762/2865 [48:39<1:43:34,  2.95s/it] 27%|███████████████████████████▋                                                                            | 763/2865 [48:42<1:43:24,  2.95s/it]                                                                                                                                                  {'loss': 11.0506, 'grad_norm': 1.2578125, 'learning_rate': 4.591380723982246e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20879.73, 'epoch': 0.8}
 27%|███████████████████████████▋                                                                            | 763/2865 [48:42<1:43:24,  2.95s/it] 27%|███████████████████████████▋                                                                            | 764/2865 [48:45<1:43:22,  2.95s/it]                                                                                                                                                  {'loss': 11.0609, 'grad_norm': 1.0625, 'learning_rate': 4.589710659668069e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21352.17, 'epoch': 0.8}
 27%|███████████████████████████▋                                                                            | 764/2865 [48:45<1:43:22,  2.95s/it] 27%|███████████████████████████▊                                                                            | 765/2865 [48:48<1:43:20,  2.95s/it]                                                                                                                                                  {'loss': 11.0576, 'grad_norm': 1.0625, 'learning_rate': 4.588037494486706e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19761.97, 'epoch': 0.8}
 27%|███████████████████████████▊                                                                            | 765/2865 [48:48<1:43:20,  2.95s/it] 27%|███████████████████████████▊                                                                            | 766/2865 [48:51<1:43:17,  2.95s/it]                                                                                                                                                  {'loss': 11.0465, 'grad_norm': 1.0546875, 'learning_rate': 4.586361230920921e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22061.89, 'epoch': 0.8}
 27%|███████████████████████████▊                                                                            | 766/2865 [48:51<1:43:17,  2.95s/it] 27%|███████████████████████████▊                                                                            | 767/2865 [48:54<1:43:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0346, 'grad_norm': 1.0625, 'learning_rate': 4.5846818714580785e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22204.24, 'epoch': 0.8}
 27%|███████████████████████████▊                                                                            | 767/2865 [48:54<1:43:19,  2.95s/it] 27%|███████████████████████████▉                                                                            | 768/2865 [48:57<1:43:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0255, 'grad_norm': 1.234375, 'learning_rate': 4.582999418590136e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22109.18, 'epoch': 0.8}
 27%|███████████████████████████▉                                                                            | 768/2865 [48:57<1:43:16,  2.96s/it] 27%|███████████████████████████▉                                                                            | 769/2865 [49:00<1:43:11,  2.95s/it]                                                                                                                                                  {'loss': 11.0429, 'grad_norm': 1.0703125, 'learning_rate': 4.581313874813642e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21166.05, 'epoch': 0.81}
 27%|███████████████████████████▉                                                                            | 769/2865 [49:00<1:43:11,  2.95s/it] 27%|███████████████████████████▉                                                                            | 770/2865 [49:03<1:43:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0393, 'grad_norm': 1.4609375, 'learning_rate': 4.5796252426297306e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21058.69, 'epoch': 0.81}
 27%|███████████████████████████▉                                                                            | 770/2865 [49:03<1:43:11,  2.96s/it] 27%|███████████████████████████▉                                                                            | 771/2865 [49:06<1:43:04,  2.95s/it]                                                                                                                                                  {'loss': 11.0534, 'grad_norm': 1.0859375, 'learning_rate': 4.577933524544119e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20971.79, 'epoch': 0.81}
 27%|███████████████████████████▉                                                                            | 771/2865 [49:06<1:43:04,  2.95s/it] 27%|████████████████████████████                                                                            | 772/2865 [49:09<1:43:00,  2.95s/it]                                                                                                                                                  {'loss': 11.0412, 'grad_norm': 1.0625, 'learning_rate': 4.5762387230671045e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20887.84, 'epoch': 0.81}
 27%|████████████████████████████                                                                            | 772/2865 [49:09<1:43:00,  2.95s/it] 27%|████████████████████████████                                                                            | 773/2865 [49:11<1:42:57,  2.95s/it]                                                                                                                                                  {'loss': 11.0622, 'grad_norm': 1.078125, 'learning_rate': 4.574540840713557e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22146.73, 'epoch': 0.81}
 27%|████████████████████████████                                                                            | 773/2865 [49:11<1:42:57,  2.95s/it] 27%|████████████████████████████                                                                            | 774/2865 [49:14<1:42:56,  2.95s/it]                                                                                                                                                  {'loss': 11.0437, 'grad_norm': 1.1015625, 'learning_rate': 4.5728398800029214e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22229.04, 'epoch': 0.81}
 27%|████████████████████████████                                                                            | 774/2865 [49:14<1:42:56,  2.95s/it] 27%|████████████████████████████▏                                                                           | 775/2865 [49:17<1:42:54,  2.95s/it]                                                                                                                                                  {'loss': 11.0273, 'grad_norm': 1.0859375, 'learning_rate': 4.571135843459209e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22135.56, 'epoch': 0.81}
 27%|████████████████████████████▏                                                                           | 775/2865 [49:17<1:42:54,  2.95s/it] 27%|████████████████████████████▏                                                                           | 776/2865 [49:20<1:42:51,  2.95s/it]                                                                                                                                                  {'loss': 11.058, 'grad_norm': 1.109375, 'learning_rate': 4.569428733610994e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22133.42, 'epoch': 0.81}
 27%|████████████████████████████▏                                                                           | 776/2865 [49:20<1:42:51,  2.95s/it] 27%|████████████████████████████▏                                                                           | 777/2865 [49:23<1:42:45,  2.95s/it]                                                                                                                                                  {'loss': 11.0613, 'grad_norm': 1.046875, 'learning_rate': 4.5677185529914135e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21299.41, 'epoch': 0.81}
 27%|████████████████████████████▏                                                                           | 777/2865 [49:23<1:42:45,  2.95s/it] 27%|████████████████████████████▏                                                                           | 778/2865 [49:26<1:42:39,  2.95s/it]                                                                                                                                                  {'loss': 11.0199, 'grad_norm': 1.1015625, 'learning_rate': 4.566005304138159e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20562.18, 'epoch': 0.81}
 27%|████████████████████████████▏                                                                           | 778/2865 [49:26<1:42:39,  2.95s/it] 27%|████████████████████████████▎                                                                           | 779/2865 [49:29<1:42:38,  2.95s/it]                                                                                                                                                  {'loss': 11.0613, 'grad_norm': 1.0625, 'learning_rate': 4.564288989593477e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20333.81, 'epoch': 0.82}
 27%|████████████████████████████▎                                                                           | 779/2865 [49:29<1:42:38,  2.95s/it] 27%|████████████████████████████▎                                                                           | 780/2865 [49:32<1:42:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0731, 'grad_norm': 1.0546875, 'learning_rate': 4.5625696119041605e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21462.15, 'epoch': 0.82}
 27%|████████████████████████████▎                                                                           | 780/2865 [49:32<1:42:34,  2.95s/it] 27%|████████████████████████████▎                                                                           | 781/2865 [49:35<1:42:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0367, 'grad_norm': 1.0625, 'learning_rate': 4.5608471736215494e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22233.72, 'epoch': 0.82}
 27%|████████████████████████████▎                                                                           | 781/2865 [49:35<1:42:34,  2.95s/it] 27%|████████████████████████████▍                                                                           | 782/2865 [49:38<1:42:33,  2.95s/it]                                                                                                                                                  {'loss': 11.0685, 'grad_norm': 1.0703125, 'learning_rate': 4.5591216773015266e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21823.02, 'epoch': 0.82}
 27%|████████████████████████████▍                                                                           | 782/2865 [49:38<1:42:33,  2.95s/it] 27%|████████████████████████████▍                                                                           | 783/2865 [49:41<1:42:25,  2.95s/it]                                                                                                                                                  {'loss': 11.0429, 'grad_norm': 1.2265625, 'learning_rate': 4.55739312550451e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20853.98, 'epoch': 0.82}
 27%|████████████████████████████▍                                                                           | 783/2865 [49:41<1:42:25,  2.95s/it] 27%|████████████████████████████▍                                                                           | 784/2865 [49:44<1:42:18,  2.95s/it]                                                                                                                                                  {'loss': 11.048, 'grad_norm': 1.0703125, 'learning_rate': 4.5556615207954515e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21301.61, 'epoch': 0.82}
 27%|████████████████████████████▍                                                                           | 784/2865 [49:44<1:42:18,  2.95s/it] 27%|████████████████████████████▍                                                                           | 785/2865 [49:47<1:42:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0418, 'grad_norm': 1.1328125, 'learning_rate': 4.553926865743836e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20568.74, 'epoch': 0.82}
 27%|████████████████████████████▍                                                                           | 785/2865 [49:47<1:42:31,  2.96s/it] 27%|████████████████████████████▌                                                                           | 786/2865 [49:50<1:42:21,  2.95s/it]                                                                                                                                                  {'loss': 11.0488, 'grad_norm': 1.125, 'learning_rate': 4.5521891629236725e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21574.62, 'epoch': 0.82}
 27%|████████████████████████████▌                                                                           | 786/2865 [49:50<1:42:21,  2.95s/it] 27%|████████████████████████████▌                                                                           | 787/2865 [49:53<1:42:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0671, 'grad_norm': 1.4765625, 'learning_rate': 4.5504484149134917e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21075.72, 'epoch': 0.82}
 27%|████████████████████████████▌                                                                           | 787/2865 [49:53<1:42:30,  2.96s/it] 28%|████████████████████████████▌                                                                           | 788/2865 [49:56<1:42:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0298, 'grad_norm': 1.0859375, 'learning_rate': 4.548704624296346e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21223.06, 'epoch': 0.83}
 28%|████████████████████████████▌                                                                           | 788/2865 [49:56<1:42:20,  2.96s/it] 28%|████████████████████████████▋                                                                           | 789/2865 [49:59<1:42:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0502, 'grad_norm': 1.1484375, 'learning_rate': 4.5469577936597994e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22153.21, 'epoch': 0.83}
 28%|████████████████████████████▋                                                                           | 789/2865 [49:59<1:42:17,  2.96s/it] 28%|████████████████████████████▋                                                                           | 790/2865 [50:02<1:42:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0335, 'grad_norm': 1.078125, 'learning_rate': 4.5452079255959297e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21161.77, 'epoch': 0.83}
 28%|████████████████████████████▋                                                                           | 790/2865 [50:02<1:42:13,  2.96s/it] 28%|████████████████████████████▋                                                                           | 791/2865 [50:05<1:42:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0605, 'grad_norm': 1.09375, 'learning_rate': 4.5434550227013195e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21458.71, 'epoch': 0.83}
 28%|████████████████████████████▋                                                                           | 791/2865 [50:05<1:42:14,  2.96s/it] 28%|████████████████████████████▋                                                                           | 792/2865 [50:08<1:42:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0567, 'grad_norm': 1.0859375, 'learning_rate': 4.5416990875770554e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21341.56, 'epoch': 0.83}
 28%|████████████████████████████▋                                                                           | 792/2865 [50:08<1:42:09,  2.96s/it] 28%|████████████████████████████▊                                                                           | 793/2865 [50:11<1:42:10,  2.96s/it]                                                                                                                                                  {'loss': 11.053, 'grad_norm': 1.0546875, 'learning_rate': 4.5399401228287245e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21256.95, 'epoch': 0.83}
 28%|████████████████████████████▊                                                                           | 793/2865 [50:11<1:42:10,  2.96s/it] 28%|████████████████████████████▊                                                                           | 794/2865 [50:14<1:42:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0237, 'grad_norm': 1.0859375, 'learning_rate': 4.538178131066409e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22349.57, 'epoch': 0.83}
 28%|████████████████████████████▊                                                                           | 794/2865 [50:14<1:42:09,  2.96s/it] 28%|████████████████████████████▊                                                                           | 795/2865 [50:16<1:41:57,  2.96s/it]                                                                                                                                                  {'loss': 11.051, 'grad_norm': 1.125, 'learning_rate': 4.536413114904682e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21338.18, 'epoch': 0.83}
 28%|████████████████████████████▊                                                                           | 795/2865 [50:16<1:41:57,  2.96s/it] 28%|████████████████████████████▉                                                                           | 796/2865 [50:19<1:41:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0404, 'grad_norm': 1.078125, 'learning_rate': 4.534645076962605e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19205.45, 'epoch': 0.83}
 28%|████████████████████████████▉                                                                           | 796/2865 [50:19<1:41:53,  2.95s/it] 28%|████████████████████████████▉                                                                           | 797/2865 [50:22<1:41:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0341, 'grad_norm': 1.1796875, 'learning_rate': 4.532874019863723e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20880.96, 'epoch': 0.83}
 28%|████████████████████████████▉                                                                           | 797/2865 [50:22<1:41:51,  2.96s/it] 28%|████████████████████████████▉                                                                           | 798/2865 [50:25<1:41:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0391, 'grad_norm': 1.140625, 'learning_rate': 4.531099946236063e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21762.79, 'epoch': 0.84}
 28%|████████████████████████████▉                                                                           | 798/2865 [50:25<1:41:48,  2.96s/it] 28%|█████████████████████████████                                                                           | 799/2865 [50:28<1:41:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0588, 'grad_norm': 1.0625, 'learning_rate': 4.529322858712126e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21734.97, 'epoch': 0.84}
 28%|█████████████████████████████                                                                           | 799/2865 [50:28<1:41:43,  2.95s/it] 28%|█████████████████████████████                                                                           | 800/2865 [50:31<1:41:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0185, 'grad_norm': 1.0625, 'learning_rate': 4.5275427599288845e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20110.47, 'epoch': 0.84}
 28%|█████████████████████████████                                                                           | 800/2865 [50:31<1:41:46,  2.96s/it][2025-10-12 03:59:24,083] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:03<05:28,  1.79s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:40,  1.21s/it][A
  2%|██▎                                                                                                          | 4/185 [00:04<02:40,  1.13it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<02:10,  1.38it/s][A
  3%|███▌                                                                                                         | 6/185 [00:05<01:51,  1.61it/s][A
  4%|████                                                                                                         | 7/185 [00:05<01:37,  1.82it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:28,  2.01it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:06<01:22,  2.12it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:17,  2.27it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:07<01:12,  2.40it/s][A
  6%|███████                                                                                                     | 12/185 [00:07<01:13,  2.35it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:11,  2.42it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:08<01:09,  2.45it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:07,  2.51it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:09<01:06,  2.53it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:09<01:06,  2.53it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:04,  2.58it/s][A
 10%|███████████                                                                                                 | 19/185 [00:10<01:04,  2.58it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:10<01:04,  2.55it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:11<01:04,  2.53it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:11<01:03,  2.58it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:04,  2.52it/s][A
 13%|██████████████                                                                                              | 24/185 [00:12<01:03,  2.53it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:12<01:02,  2.54it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:13<01:03,  2.52it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:13<01:01,  2.57it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:01,  2.56it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:14<01:00,  2.56it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:14<01:00,  2.56it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.53it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:15<01:00,  2.52it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.55it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:16<00:59,  2.54it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:16<00:59,  2.53it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:57,  2.60it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:17<00:57,  2.57it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:58,  2.51it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:18<00:57,  2.56it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:18<00:57,  2.54it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.57it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:19<00:55,  2.57it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:19<00:56,  2.53it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:20<00:55,  2.56it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:20<00:54,  2.56it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.57it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:21<00:53,  2.57it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:21<00:53,  2.56it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:22<00:53,  2.54it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:22<00:52,  2.59it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:52,  2.55it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:23<00:50,  2.64it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:23<00:52,  2.49it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:52,  2.52it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:24<00:51,  2.55it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:50,  2.58it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:25<00:49,  2.58it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:25<00:49,  2.55it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:48,  2.60it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:26<00:48,  2.56it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:49,  2.53it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:27<00:48,  2.53it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:27<00:47,  2.57it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.54it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:28<00:46,  2.57it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:28<00:46,  2.54it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:29<00:46,  2.53it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:29<00:44,  2.61it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.53it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:30<00:45,  2.53it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:30<00:44,  2.55it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:31<00:44,  2.51it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:31<00:42,  2.62it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.54it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:32<00:42,  2.58it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:32<00:43,  2.53it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.54it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:33<00:42,  2.54it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.54it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:34<00:40,  2.59it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:34<00:40,  2.59it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.51it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:35<00:40,  2.53it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:35<00:39,  2.57it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:36<00:39,  2.55it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:36<00:39,  2.54it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.54it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:37<00:38,  2.53it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:37<00:37,  2.58it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:38<00:37,  2.54it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:38<00:36,  2.55it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:36,  2.55it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:39<00:35,  2.57it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:39<00:33,  2.69it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:40<00:35,  2.55it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:40<00:35,  2.52it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.55it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:41<00:34,  2.53it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:41<00:33,  2.58it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.54it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:42<00:33,  2.50it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:32,  2.53it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:43<00:32,  2.52it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:43<00:31,  2.55it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.51it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:44<00:30,  2.58it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.52it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:45<00:29,  2.58it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:45<00:30,  2.52it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.57it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:46<00:29,  2.54it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:46<00:29,  2.52it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:47<00:28,  2.51it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:47<00:28,  2.53it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.52it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:48<00:26,  2.57it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:48<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:49<00:25,  2.59it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:49<00:25,  2.59it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.52it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:50<00:24,  2.57it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:50<00:24,  2.53it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:51<00:24,  2.56it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:51<00:23,  2.56it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.55it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:52<00:23,  2.54it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:52<00:22,  2.53it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.56it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:53<00:21,  2.63it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.58it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:54<00:20,  2.60it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:54<00:20,  2.53it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.52it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:55<00:19,  2.57it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:55<00:19,  2.57it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:56<00:18,  2.66it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:56<00:18,  2.58it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.54it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:57<00:18,  2.51it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:57<00:17,  2.53it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:58<00:16,  2.60it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:58<00:16,  2.57it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:15,  2.63it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:59<00:16,  2.48it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:59<00:15,  2.53it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.58it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [01:00<00:15,  2.53it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.51it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:01<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:01<00:13,  2.53it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.53it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:02<00:13,  2.51it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.53it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:03<00:12,  2.56it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:03<00:11,  2.54it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.51it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:04<00:10,  2.55it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:04<00:10,  2.53it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:05<00:10,  2.59it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:05<00:09,  2.53it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.57it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:06<00:09,  2.55it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:06<00:08,  2.55it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:07<00:08,  2.54it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:07<00:07,  2.56it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.55it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:08<00:07,  2.53it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:08<00:06,  2.57it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:09<00:06,  2.52it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:09<00:05,  2.54it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.61it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:10<00:05,  2.55it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:10<00:04,  2.60it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.56it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:11<00:03,  2.56it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.54it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:12<00:03,  2.58it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:12<00:02,  2.54it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.54it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:13<00:01,  2.58it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:13<00:01,  2.64it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:14<00:01,  2.53it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:14<00:00,  2.58it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.55it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  1.90it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.022880554199219, 'eval_runtime': 78.7136, 'eval_samples_per_second': 150.635, 'eval_steps_per_second': 2.363, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 0.84}
 28%|█████████████████████████████                                                                           | 800/2865 [51:50<1:41:46,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  1.90it/s][A
                                                                                                                                                  [A[2025-10-12 04:00:42,821] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-800
 28%|████████████████████████████▊                                                                          | 801/2865 [51:59<16:14:21, 28.32s/it]                                                                                                                                                  {'loss': 11.0401, 'grad_norm': 1.0703125, 'learning_rate': 4.525759652527782e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 20436.25, 'epoch': 0.84}
 28%|████████████████████████████▊                                                                          | 801/2865 [51:59<16:14:21, 28.32s/it] 28%|████████████████████████████▊                                                                          | 802/2865 [52:02<11:52:17, 20.72s/it]                                                                                                                                                  {'loss': 11.0496, 'grad_norm': 1.0703125, 'learning_rate': 4.523973539154725e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21516.86, 'epoch': 0.84}
 28%|████████████████████████████▊                                                                          | 802/2865 [52:02<11:52:17, 20.72s/it] 28%|█████████████████████████████▏                                                                          | 803/2865 [52:05<8:48:52, 15.39s/it]                                                                                                                                                  {'loss': 11.0525, 'grad_norm': 1.0546875, 'learning_rate': 4.522184422460081e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21289.66, 'epoch': 0.84}
 28%|█████████████████████████████▏                                                                          | 803/2865 [52:05<8:48:52, 15.39s/it] 28%|█████████████████████████████▏                                                                          | 804/2865 [52:08<6:40:29, 11.66s/it]                                                                                                                                                  {'loss': 11.0342, 'grad_norm': 1.0390625, 'learning_rate': 4.520392305098672e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22464.48, 'epoch': 0.84}
 28%|█████████████████████████████▏                                                                          | 804/2865 [52:08<6:40:29, 11.66s/it] 28%|█████████████████████████████▏                                                                          | 805/2865 [52:11<5:10:38,  9.05s/it]                                                                                                                                                  {'loss': 11.0458, 'grad_norm': 1.0546875, 'learning_rate': 4.518597189729775e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21784.98, 'epoch': 0.84}
 28%|█████████████████████████████▏                                                                          | 805/2865 [52:11<5:10:38,  9.05s/it] 28%|█████████████████████████████▎                                                                          | 806/2865 [52:14<4:07:46,  7.22s/it]                                                                                                                                                  {'loss': 11.0397, 'grad_norm': 1.171875, 'learning_rate': 4.516799079017116e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21550.76, 'epoch': 0.84}
 28%|█████████████████████████████▎                                                                          | 806/2865 [52:14<4:07:46,  7.22s/it] 28%|█████████████████████████████▎                                                                          | 807/2865 [52:17<3:23:49,  5.94s/it]                                                                                                                                                  {'loss': 11.0474, 'grad_norm': 1.109375, 'learning_rate': 4.514997975628864e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21409.61, 'epoch': 0.85}
 28%|█████████████████████████████▎                                                                          | 807/2865 [52:17<3:23:49,  5.94s/it] 28%|█████████████████████████████▎                                                                          | 808/2865 [52:19<2:53:01,  5.05s/it]                                                                                                                                                  {'loss': 11.0524, 'grad_norm': 1.1015625, 'learning_rate': 4.5131938822376284e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22290.12, 'epoch': 0.85}
 28%|█████████████████████████████▎                                                                          | 808/2865 [52:19<2:53:01,  5.05s/it] 28%|█████████████████████████████▎                                                                          | 809/2865 [52:22<2:31:22,  4.42s/it]                                                                                                                                                  {'loss': 11.0605, 'grad_norm': 1.046875, 'learning_rate': 4.5113868015204574e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21192.02, 'epoch': 0.85}
 28%|█████████████████████████████▎                                                                          | 809/2865 [52:22<2:31:22,  4.42s/it] 28%|█████████████████████████████▍                                                                          | 810/2865 [52:25<2:16:15,  3.98s/it]                                                                                                                                                  {'loss': 11.031, 'grad_norm': 1.109375, 'learning_rate': 4.5095767361588315e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21211.18, 'epoch': 0.85}
 28%|█████████████████████████████▍                                                                          | 810/2865 [52:25<2:16:15,  3.98s/it] 28%|█████████████████████████████▍                                                                          | 811/2865 [52:28<2:05:38,  3.67s/it]                                                                                                                                                  {'loss': 11.0193, 'grad_norm': 1.140625, 'learning_rate': 4.507763688838659e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21911.01, 'epoch': 0.85}
 28%|█████████████████████████████▍                                                                          | 811/2865 [52:28<2:05:38,  3.67s/it] 28%|█████████████████████████████▍                                                                          | 812/2865 [52:31<1:58:15,  3.46s/it]                                                                                                                                                  {'loss': 11.0494, 'grad_norm': 1.125, 'learning_rate': 4.505947662250272e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22026.68, 'epoch': 0.85}
 28%|█████████████████████████████▍                                                                          | 812/2865 [52:31<1:58:15,  3.46s/it] 28%|█████████████████████████████▌                                                                          | 813/2865 [52:34<1:52:56,  3.30s/it]                                                                                                                                                  {'loss': 11.0372, 'grad_norm': 1.1328125, 'learning_rate': 4.504128659088427e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20692.37, 'epoch': 0.85}
 28%|█████████████████████████████▌                                                                          | 813/2865 [52:34<1:52:56,  3.30s/it] 28%|█████████████████████████████▌                                                                          | 814/2865 [52:37<1:49:18,  3.20s/it]                                                                                                                                                  {'loss': 11.0344, 'grad_norm': 1.109375, 'learning_rate': 4.502306682052294e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21850.79, 'epoch': 0.85}
 28%|█████████████████████████████▌                                                                          | 814/2865 [52:37<1:49:18,  3.20s/it] 28%|█████████████████████████████▌                                                                          | 815/2865 [52:40<1:46:41,  3.12s/it]                                                                                                                                                  {'loss': 11.01, 'grad_norm': 1.09375, 'learning_rate': 4.50048173384546e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19966.43, 'epoch': 0.85}
 28%|█████████████████████████████▌                                                                          | 815/2865 [52:40<1:46:41,  3.12s/it] 28%|█████████████████████████████▌                                                                          | 816/2865 [52:43<1:45:11,  3.08s/it]                                                                                                                                                  {'loss': 11.0586, 'grad_norm': 1.296875, 'learning_rate': 4.498653817175914e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21331.0, 'epoch': 0.85}
 28%|█████████████████████████████▌                                                                          | 816/2865 [52:43<1:45:11,  3.08s/it] 29%|█████████████████████████████▋                                                                          | 817/2865 [52:46<1:43:55,  3.04s/it]                                                                                                                                                  {'loss': 11.0486, 'grad_norm': 1.3828125, 'learning_rate': 4.496822934756057e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21349.93, 'epoch': 0.86}
 29%|█████████████████████████████▋                                                                          | 817/2865 [52:46<1:43:55,  3.04s/it] 29%|█████████████████████████████▋                                                                          | 818/2865 [52:49<1:42:59,  3.02s/it]                                                                                                                                                  {'loss': 11.0399, 'grad_norm': 1.1328125, 'learning_rate': 4.4949890893026864e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20413.32, 'epoch': 0.86}
 29%|█████████████████████████████▋                                                                          | 818/2865 [52:49<1:42:59,  3.02s/it] 29%|█████████████████████████████▋                                                                          | 819/2865 [52:52<1:42:15,  3.00s/it]                                                                                                                                                  {'loss': 11.0266, 'grad_norm': 1.25, 'learning_rate': 4.4931522835369976e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21480.12, 'epoch': 0.86}
 29%|█████████████████████████████▋                                                                          | 819/2865 [52:52<1:42:15,  3.00s/it] 29%|█████████████████████████████▊                                                                          | 820/2865 [52:55<1:41:50,  2.99s/it]                                                                                                                                                  {'loss': 11.0584, 'grad_norm': 1.0859375, 'learning_rate': 4.49131252018458e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22757.2, 'epoch': 0.86}
 29%|█████████████████████████████▊                                                                          | 820/2865 [52:55<1:41:50,  2.99s/it] 29%|█████████████████████████████▊                                                                          | 821/2865 [52:58<1:41:31,  2.98s/it]                                                                                                                                                  {'loss': 11.0344, 'grad_norm': 1.1953125, 'learning_rate': 4.489469801975409e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21895.35, 'epoch': 0.86}
 29%|█████████████████████████████▊                                                                          | 821/2865 [52:58<1:41:31,  2.98s/it] 29%|█████████████████████████████▊                                                                          | 822/2865 [53:01<1:41:21,  2.98s/it]                                                                                                                                                  {'loss': 11.0433, 'grad_norm': 1.1171875, 'learning_rate': 4.487624131643848e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21327.94, 'epoch': 0.86}
 29%|█████████████████████████████▊                                                                          | 822/2865 [53:01<1:41:21,  2.98s/it] 29%|█████████████████████████████▉                                                                          | 823/2865 [53:04<1:41:00,  2.97s/it]                                                                                                                                                  {'loss': 11.0298, 'grad_norm': 1.4921875, 'learning_rate': 4.485775511928636e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19959.62, 'epoch': 0.86}
 29%|█████████████████████████████▉                                                                          | 823/2865 [53:04<1:41:00,  2.97s/it] 29%|█████████████████████████████▉                                                                          | 824/2865 [53:07<1:40:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0419, 'grad_norm': 1.2421875, 'learning_rate': 4.4839239455728956e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20463.33, 'epoch': 0.86}
 29%|█████████████████████████████▉                                                                          | 824/2865 [53:07<1:40:49,  2.96s/it] 29%|█████████████████████████████▉                                                                          | 825/2865 [53:10<1:40:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0336, 'grad_norm': 1.109375, 'learning_rate': 4.4820694353241145e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20842.43, 'epoch': 0.86}
 29%|█████████████████████████████▉                                                                          | 825/2865 [53:10<1:40:37,  2.96s/it] 29%|█████████████████████████████▉                                                                          | 826/2865 [53:13<1:40:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0536, 'grad_norm': 1.0859375, 'learning_rate': 4.480211983934153e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21308.84, 'epoch': 0.86}
 29%|█████████████████████████████▉                                                                          | 826/2865 [53:13<1:40:33,  2.96s/it] 29%|██████████████████████████████                                                                          | 827/2865 [53:16<1:40:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0348, 'grad_norm': 1.1328125, 'learning_rate': 4.478351594159236e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20979.57, 'epoch': 0.87}
 29%|██████████████████████████████                                                                          | 827/2865 [53:16<1:40:26,  2.96s/it] 29%|██████████████████████████████                                                                          | 828/2865 [53:19<1:40:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0576, 'grad_norm': 1.2578125, 'learning_rate': 4.4764882687599466e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22571.88, 'epoch': 0.87}
 29%|██████████████████████████████                                                                          | 828/2865 [53:19<1:40:25,  2.96s/it] 29%|██████████████████████████████                                                                          | 829/2865 [53:22<1:40:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0075, 'grad_norm': 1.1875, 'learning_rate': 4.474622010501225e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22051.63, 'epoch': 0.87}
 29%|██████████████████████████████                                                                          | 829/2865 [53:22<1:40:22,  2.96s/it] 29%|██████████████████████████████▏                                                                         | 830/2865 [53:25<1:40:18,  2.96s/it]                                                                                                                                                  {'loss': 11.033, 'grad_norm': 1.09375, 'learning_rate': 4.472752822152363e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20742.56, 'epoch': 0.87}
 29%|██████████████████████████████▏                                                                         | 830/2865 [53:25<1:40:18,  2.96s/it] 29%|██████████████████████████████▏                                                                         | 831/2865 [53:27<1:40:14,  2.96s/it]                                                                                                                                                  {'loss': 11.043, 'grad_norm': 1.09375, 'learning_rate': 4.470880706487e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22015.26, 'epoch': 0.87}
 29%|██████████████████████████████▏                                                                         | 831/2865 [53:27<1:40:14,  2.96s/it] 29%|██████████████████████████████▏                                                                         | 832/2865 [53:30<1:40:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0352, 'grad_norm': 1.078125, 'learning_rate': 4.469005666283121e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21661.61, 'epoch': 0.87}
 29%|██████████████████████████████▏                                                                         | 832/2865 [53:30<1:40:08,  2.96s/it] 29%|██████████████████████████████▏                                                                         | 833/2865 [53:33<1:40:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0183, 'grad_norm': 1.0703125, 'learning_rate': 4.467127704323047e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19992.56, 'epoch': 0.87}
 29%|██████████████████████████████▏                                                                         | 833/2865 [53:33<1:40:06,  2.96s/it] 29%|██████████████████████████████▎                                                                         | 834/2865 [53:36<1:40:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0474, 'grad_norm': 1.0703125, 'learning_rate': 4.4652468233934385e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22070.26, 'epoch': 0.87}
 29%|██████████████████████████████▎                                                                         | 834/2865 [53:36<1:40:04,  2.96s/it] 29%|██████████████████████████████▎                                                                         | 835/2865 [53:39<1:39:58,  2.95s/it]                                                                                                                                                  {'loss': 11.028, 'grad_norm': 1.046875, 'learning_rate': 4.4633630262852865e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21073.61, 'epoch': 0.87}
 29%|██████████████████████████████▎                                                                         | 835/2865 [53:39<1:39:58,  2.95s/it] 29%|██████████████████████████████▎                                                                         | 836/2865 [53:42<1:39:54,  2.95s/it]                                                                                                                                                  {'loss': 11.0321, 'grad_norm': 1.0703125, 'learning_rate': 4.461476315793907e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21481.77, 'epoch': 0.88}
 29%|██████████████████████████████▎                                                                         | 836/2865 [53:42<1:39:54,  2.95s/it] 29%|██████████████████████████████▍                                                                         | 837/2865 [53:45<1:39:51,  2.95s/it]                                                                                                                                                  {'loss': 11.0512, 'grad_norm': 1.0703125, 'learning_rate': 4.45958669471894e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21769.87, 'epoch': 0.88}
 29%|██████████████████████████████▍                                                                         | 837/2865 [53:45<1:39:51,  2.95s/it] 29%|██████████████████████████████▍                                                                         | 838/2865 [53:48<1:39:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0637, 'grad_norm': 1.1875, 'learning_rate': 4.4576941658643464e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21354.35, 'epoch': 0.88}
 29%|██████████████████████████████▍                                                                         | 838/2865 [53:48<1:39:53,  2.96s/it] 29%|██████████████████████████████▍                                                                         | 839/2865 [53:51<1:39:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0337, 'grad_norm': 1.0859375, 'learning_rate': 4.455798732038401e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20952.29, 'epoch': 0.88}
 29%|██████████████████████████████▍                                                                         | 839/2865 [53:51<1:39:53,  2.96s/it] 29%|██████████████████████████████▍                                                                         | 840/2865 [53:54<1:40:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0541, 'grad_norm': 1.125, 'learning_rate': 4.453900396053686e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21144.25, 'epoch': 0.88}
 29%|██████████████████████████████▍                                                                         | 840/2865 [53:54<1:40:02,  2.96s/it] 29%|██████████████████████████████▌                                                                         | 841/2865 [53:57<1:39:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0405, 'grad_norm': 1.390625, 'learning_rate': 4.451999160727095e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20400.0, 'epoch': 0.88}
 29%|██████████████████████████████▌                                                                         | 841/2865 [53:57<1:39:54,  2.96s/it] 29%|██████████████████████████████▌                                                                         | 842/2865 [54:00<1:39:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0289, 'grad_norm': 1.1171875, 'learning_rate': 4.450095028879821e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21900.11, 'epoch': 0.88}
 29%|██████████████████████████████▌                                                                         | 842/2865 [54:00<1:39:47,  2.96s/it] 29%|██████████████████████████████▌                                                                         | 843/2865 [54:03<1:39:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0182, 'grad_norm': 1.4296875, 'learning_rate': 4.448188003337355e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20323.17, 'epoch': 0.88}
 29%|██████████████████████████████▌                                                                         | 843/2865 [54:03<1:39:34,  2.95s/it] 29%|██████████████████████████████▋                                                                         | 844/2865 [54:06<1:39:29,  2.95s/it]                                                                                                                                                  {'loss': 11.0443, 'grad_norm': 1.1015625, 'learning_rate': 4.4462780869294826e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20639.41, 'epoch': 0.88}
 29%|██████████████████████████████▋                                                                         | 844/2865 [54:06<1:39:29,  2.95s/it] 29%|██████████████████████████████▋                                                                         | 845/2865 [54:09<1:39:25,  2.95s/it]                                                                                                                                                  {'loss': 11.0292, 'grad_norm': 1.109375, 'learning_rate': 4.444365282490281e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21272.38, 'epoch': 0.88}
 29%|██████████████████████████████▋                                                                         | 845/2865 [54:09<1:39:25,  2.95s/it] 30%|██████████████████████████████▋                                                                         | 846/2865 [54:12<1:39:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0179, 'grad_norm': 1.0859375, 'learning_rate': 4.442449592858108e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21040.06, 'epoch': 0.89}
 30%|██████████████████████████████▋                                                                         | 846/2865 [54:12<1:39:23,  2.95s/it] 30%|██████████████████████████████▋                                                                         | 847/2865 [54:15<1:39:20,  2.95s/it]                                                                                                                                                  {'loss': 11.0344, 'grad_norm': 1.140625, 'learning_rate': 4.440531020875606e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22052.73, 'epoch': 0.89}
 30%|██████████████████████████████▋                                                                         | 847/2865 [54:15<1:39:20,  2.95s/it] 30%|██████████████████████████████▊                                                                         | 848/2865 [54:18<1:39:18,  2.95s/it]                                                                                                                                                  {'loss': 11.0539, 'grad_norm': 1.125, 'learning_rate': 4.438609569389696e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21994.95, 'epoch': 0.89}
 30%|██████████████████████████████▊                                                                         | 848/2865 [54:18<1:39:18,  2.95s/it] 30%|██████████████████████████████▊                                                                         | 849/2865 [54:21<1:39:12,  2.95s/it]                                                                                                                                                  {'loss': 11.0335, 'grad_norm': 1.0859375, 'learning_rate': 4.4366852412515676e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21585.78, 'epoch': 0.89}
 30%|██████████████████████████████▊                                                                         | 849/2865 [54:21<1:39:12,  2.95s/it] 30%|██████████████████████████████▊                                                                         | 850/2865 [54:24<1:39:05,  2.95s/it]                                                                                                                                                  {'loss': 11.0324, 'grad_norm': 1.125, 'learning_rate': 4.434758039316682e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20798.54, 'epoch': 0.89}
 30%|██████████████████████████████▊                                                                         | 850/2865 [54:24<1:39:05,  2.95s/it] 30%|██████████████████████████████▉                                                                         | 851/2865 [54:27<1:39:06,  2.95s/it]                                                                                                                                                  {'loss': 11.0399, 'grad_norm': 1.140625, 'learning_rate': 4.4328279664447646e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20569.81, 'epoch': 0.89}
 30%|██████████████████████████████▉                                                                         | 851/2865 [54:27<1:39:06,  2.95s/it] 30%|██████████████████████████████▉                                                                         | 852/2865 [54:30<1:39:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0557, 'grad_norm': 1.34375, 'learning_rate': 4.430895025499799e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22181.03, 'epoch': 0.89}
 30%|██████████████████████████████▉                                                                         | 852/2865 [54:30<1:39:12,  2.96s/it] 30%|██████████████████████████████▉                                                                         | 853/2865 [54:33<1:39:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0587, 'grad_norm': 1.640625, 'learning_rate': 4.428959219350027e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21443.89, 'epoch': 0.89}
 30%|██████████████████████████████▉                                                                         | 853/2865 [54:33<1:39:20,  2.96s/it] 30%|███████████████████████████████                                                                         | 854/2865 [54:35<1:39:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0473, 'grad_norm': 1.40625, 'learning_rate': 4.42702055086794e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21111.14, 'epoch': 0.89}
 30%|███████████████████████████████                                                                         | 854/2865 [54:35<1:39:17,  2.96s/it] 30%|███████████████████████████████                                                                         | 855/2865 [54:38<1:39:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0278, 'grad_norm': 1.421875, 'learning_rate': 4.4250790229302775e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21902.07, 'epoch': 0.9}
 30%|███████████████████████████████                                                                         | 855/2865 [54:38<1:39:08,  2.96s/it] 30%|███████████████████████████████                                                                         | 856/2865 [54:41<1:39:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0311, 'grad_norm': 1.2734375, 'learning_rate': 4.423134638418024e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21916.22, 'epoch': 0.9}
 30%|███████████████████████████████                                                                         | 856/2865 [54:41<1:39:04,  2.96s/it] 30%|███████████████████████████████                                                                         | 857/2865 [54:44<1:38:56,  2.96s/it]                                                                                                                                                  {'loss': 11.034, 'grad_norm': 1.421875, 'learning_rate': 4.421187400216399e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20625.78, 'epoch': 0.9}
 30%|███████████████████████████████                                                                         | 857/2865 [54:44<1:38:56,  2.96s/it] 30%|███████████████████████████████▏                                                                        | 858/2865 [54:47<1:38:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0421, 'grad_norm': 1.2421875, 'learning_rate': 4.4192373112148585e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20161.52, 'epoch': 0.9}
 30%|███████████████████████████████▏                                                                        | 858/2865 [54:47<1:38:53,  2.96s/it] 30%|███████████████████████████████▏                                                                        | 859/2865 [54:50<1:38:46,  2.95s/it]                                                                                                                                                  {'loss': 11.0374, 'grad_norm': 1.203125, 'learning_rate': 4.4172843743070904e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21734.16, 'epoch': 0.9}
 30%|███████████████████████████████▏                                                                        | 859/2865 [54:50<1:38:46,  2.95s/it] 30%|███████████████████████████████▏                                                                        | 860/2865 [54:53<1:38:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0355, 'grad_norm': 1.1875, 'learning_rate': 4.415328592391006e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20440.79, 'epoch': 0.9}
 30%|███████████████████████████████▏                                                                        | 860/2865 [54:53<1:38:50,  2.96s/it] 30%|███████████████████████████████▎                                                                        | 861/2865 [54:56<1:38:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0337, 'grad_norm': 1.453125, 'learning_rate': 4.413369968368739e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20958.5, 'epoch': 0.9}
 30%|███████████████████████████████▎                                                                        | 861/2865 [54:56<1:38:43,  2.96s/it] 30%|███████████████████████████████▎                                                                        | 862/2865 [54:59<1:38:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0414, 'grad_norm': 1.171875, 'learning_rate': 4.4114085051466404e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21553.19, 'epoch': 0.9}
 30%|███████████████████████████████▎                                                                        | 862/2865 [54:59<1:38:40,  2.96s/it] 30%|███████████████████████████████▎                                                                        | 863/2865 [55:02<1:38:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0394, 'grad_norm': 1.15625, 'learning_rate': 4.409444205635275e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21271.5, 'epoch': 0.9}
 30%|███████████████████████████████▎                                                                        | 863/2865 [55:02<1:38:36,  2.96s/it] 30%|███████████████████████████████▎                                                                        | 864/2865 [55:05<1:38:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0165, 'grad_norm': 1.140625, 'learning_rate': 4.4074770727494154e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22615.79, 'epoch': 0.9}
 30%|███████████████████████████████▎                                                                        | 864/2865 [55:05<1:38:34,  2.96s/it] 30%|███████████████████████████████▍                                                                        | 865/2865 [55:08<1:38:29,  2.95s/it]                                                                                                                                                  {'loss': 11.056, 'grad_norm': 1.2109375, 'learning_rate': 4.405507109408038e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20371.03, 'epoch': 0.91}
 30%|███████████████████████████████▍                                                                        | 865/2865 [55:08<1:38:29,  2.95s/it] 30%|███████████████████████████████▍                                                                        | 866/2865 [55:11<1:38:25,  2.95s/it]                                                                                                                                                  {'loss': 11.0336, 'grad_norm': 1.2890625, 'learning_rate': 4.4035343185343216e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22222.18, 'epoch': 0.91}
 30%|███████████████████████████████▍                                                                        | 866/2865 [55:11<1:38:25,  2.95s/it] 30%|███████████████████████████████▍                                                                        | 867/2865 [55:14<1:38:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0317, 'grad_norm': 1.1796875, 'learning_rate': 4.401558703055637e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20690.99, 'epoch': 0.91}
 30%|███████████████████████████████▍                                                                        | 867/2865 [55:14<1:38:26,  2.96s/it] 30%|███████████████████████████████▌                                                                        | 868/2865 [55:17<1:38:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0398, 'grad_norm': 1.1796875, 'learning_rate': 4.3995802659035504e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21826.15, 'epoch': 0.91}
 30%|███████████████████████████████▌                                                                        | 868/2865 [55:17<1:38:27,  2.96s/it] 30%|███████████████████████████████▌                                                                        | 869/2865 [55:20<1:38:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0365, 'grad_norm': 1.1484375, 'learning_rate': 4.397599010013813e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21866.61, 'epoch': 0.91}
 30%|███████████████████████████████▌                                                                        | 869/2865 [55:20<1:38:22,  2.96s/it] 30%|███████████████████████████████▌                                                                        | 870/2865 [55:23<1:38:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0425, 'grad_norm': 1.1484375, 'learning_rate': 4.3956149383263576e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22219.43, 'epoch': 0.91}
 30%|███████████████████████████████▌                                                                        | 870/2865 [55:23<1:38:21,  2.96s/it] 30%|███████████████████████████████▌                                                                        | 871/2865 [55:26<1:38:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0065, 'grad_norm': 1.484375, 'learning_rate': 4.393628053785298e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20998.71, 'epoch': 0.91}
 30%|███████████████████████████████▌                                                                        | 871/2865 [55:26<1:38:12,  2.96s/it] 30%|███████████████████████████████▋                                                                        | 872/2865 [55:29<1:38:05,  2.95s/it]                                                                                                                                                  {'loss': 11.0464, 'grad_norm': 1.2890625, 'learning_rate': 4.391638359338919e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20214.35, 'epoch': 0.91}
 30%|███████████████████████████████▋                                                                        | 872/2865 [55:29<1:38:05,  2.95s/it] 30%|███████████████████████████████▋                                                                        | 873/2865 [55:32<1:38:02,  2.95s/it]                                                                                                                                                  {'loss': 11.0319, 'grad_norm': 1.3515625, 'learning_rate': 4.389645857939677e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21803.75, 'epoch': 0.91}
 30%|███████████████████████████████▋                                                                        | 873/2865 [55:32<1:38:02,  2.95s/it] 31%|███████████████████████████████▋                                                                        | 874/2865 [55:35<1:37:57,  2.95s/it]                                                                                                                                                  {'loss': 11.0345, 'grad_norm': 1.296875, 'learning_rate': 4.387650552544193e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21389.02, 'epoch': 0.92}
 31%|███████████████████████████████▋                                                                        | 874/2865 [55:35<1:37:57,  2.95s/it] 31%|███████████████████████████████▊                                                                        | 875/2865 [55:38<1:37:57,  2.95s/it]                                                                                                                                                  {'loss': 11.042, 'grad_norm': 1.59375, 'learning_rate': 4.3856524461132483e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21214.81, 'epoch': 0.92}
 31%|███████████████████████████████▊                                                                        | 875/2865 [55:38<1:37:57,  2.95s/it] 31%|███████████████████████████████▊                                                                        | 876/2865 [55:40<1:37:57,  2.95s/it]                                                                                                                                                  {'loss': 11.0226, 'grad_norm': 1.25, 'learning_rate': 4.383651541611782e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21544.29, 'epoch': 0.92}
 31%|███████████████████████████████▊                                                                        | 876/2865 [55:40<1:37:57,  2.95s/it] 31%|███████████████████████████████▊                                                                        | 877/2865 [55:43<1:37:58,  2.96s/it]                                                                                                                                                  {'loss': 11.02, 'grad_norm': 1.1640625, 'learning_rate': 4.3816478420088826e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22068.82, 'epoch': 0.92}
 31%|███████████████████████████████▊                                                                        | 877/2865 [55:43<1:37:58,  2.96s/it] 31%|███████████████████████████████▊                                                                        | 878/2865 [55:46<1:37:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0454, 'grad_norm': 1.2265625, 'learning_rate': 4.3796413502777875e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21222.62, 'epoch': 0.92}
 31%|███████████████████████████████▊                                                                        | 878/2865 [55:46<1:37:56,  2.96s/it] 31%|███████████████████████████████▉                                                                        | 879/2865 [55:49<1:37:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0492, 'grad_norm': 1.25, 'learning_rate': 4.37763206939588e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21535.79, 'epoch': 0.92}
 31%|███████████████████████████████▉                                                                        | 879/2865 [55:49<1:37:54,  2.96s/it] 31%|███████████████████████████████▉                                                                        | 880/2865 [55:52<1:37:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0363, 'grad_norm': 1.2421875, 'learning_rate': 4.375620002344677e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22536.09, 'epoch': 0.92}
 31%|███████████████████████████████▉                                                                        | 880/2865 [55:52<1:37:52,  2.96s/it] 31%|███████████████████████████████▉                                                                        | 881/2865 [55:55<1:37:43,  2.96s/it]                                                                                                                                                  {'loss': 11.039, 'grad_norm': 1.2578125, 'learning_rate': 4.3736051521098344e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20526.84, 'epoch': 0.92}
 31%|███████████████████████████████▉                                                                        | 881/2865 [55:55<1:37:43,  2.96s/it] 31%|████████████████████████████████                                                                        | 882/2865 [55:58<1:37:38,  2.95s/it]                                                                                                                                                  {'loss': 11.0293, 'grad_norm': 1.5, 'learning_rate': 4.371587521681134e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21054.82, 'epoch': 0.92}
 31%|████████████████████████████████                                                                        | 882/2865 [55:58<1:37:38,  2.95s/it] 31%|████████████████████████████████                                                                        | 883/2865 [56:01<1:37:31,  2.95s/it]                                                                                                                                                  {'loss': 11.0325, 'grad_norm': 1.1875, 'learning_rate': 4.369567114052486e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21443.9, 'epoch': 0.92}
 31%|████████████████████████████████                                                                        | 883/2865 [56:01<1:37:31,  2.95s/it] 31%|████████████████████████████████                                                                        | 884/2865 [56:04<1:37:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0213, 'grad_norm': 1.2109375, 'learning_rate': 4.3675439322219206e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22908.91, 'epoch': 0.93}
 31%|████████████████████████████████                                                                        | 884/2865 [56:04<1:37:40,  2.96s/it] 31%|████████████████████████████████▏                                                                       | 885/2865 [56:07<1:37:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0492, 'grad_norm': 1.171875, 'learning_rate': 4.3655179791915854e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20587.86, 'epoch': 0.93}
 31%|████████████████████████████████▏                                                                       | 885/2865 [56:07<1:37:43,  2.96s/it] 31%|████████████████████████████████▏                                                                       | 886/2865 [56:10<1:37:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0369, 'grad_norm': 1.140625, 'learning_rate': 4.3634892579677375e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22435.93, 'epoch': 0.93}
 31%|████████████████████████████████▏                                                                       | 886/2865 [56:10<1:37:37,  2.96s/it] 31%|████████████████████████████████▏                                                                       | 887/2865 [56:13<1:37:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0246, 'grad_norm': 1.2109375, 'learning_rate': 4.3614577715607455e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20656.38, 'epoch': 0.93}
 31%|████████████████████████████████▏                                                                       | 887/2865 [56:13<1:37:30,  2.96s/it] 31%|████████████████████████████████▏                                                                       | 888/2865 [56:16<1:37:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0434, 'grad_norm': 1.3671875, 'learning_rate': 4.359423522985078e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21874.62, 'epoch': 0.93}
 31%|████████████████████████████████▏                                                                       | 888/2865 [56:16<1:37:23,  2.96s/it] 31%|████████████████████████████████▎                                                                       | 889/2865 [56:19<1:37:18,  2.95s/it]                                                                                                                                                  {'loss': 11.0263, 'grad_norm': 1.21875, 'learning_rate': 4.357386515259302e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20857.8, 'epoch': 0.93}
 31%|████████████████████████████████▎                                                                       | 889/2865 [56:19<1:37:18,  2.95s/it] 31%|████████████████████████████████▎                                                                       | 890/2865 [56:22<1:37:15,  2.95s/it]                                                                                                                                                  {'loss': 11.0353, 'grad_norm': 1.171875, 'learning_rate': 4.355346751406083e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21975.35, 'epoch': 0.93}
 31%|████████████████████████████████▎                                                                       | 890/2865 [56:22<1:37:15,  2.95s/it] 31%|████████████████████████████████▎                                                                       | 891/2865 [56:25<1:37:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0553, 'grad_norm': 1.1640625, 'learning_rate': 4.353304234452172e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20486.43, 'epoch': 0.93}
 31%|████████████████████████████████▎                                                                       | 891/2865 [56:25<1:37:15,  2.96s/it] 31%|████████████████████████████████▍                                                                       | 892/2865 [56:28<1:37:05,  2.95s/it]                                                                                                                                                  {'loss': 11.029, 'grad_norm': 1.3671875, 'learning_rate': 4.3512589674284065e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20343.41, 'epoch': 0.93}
 31%|████████████████████████████████▍                                                                       | 892/2865 [56:28<1:37:05,  2.95s/it] 31%|████████████████████████████████▍                                                                       | 893/2865 [56:31<1:37:02,  2.95s/it]                                                                                                                                                  {'loss': 11.0384, 'grad_norm': 1.109375, 'learning_rate': 4.349210953369706e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20183.4, 'epoch': 0.94}
 31%|████████████████████████████████▍                                                                       | 893/2865 [56:31<1:37:02,  2.95s/it] 31%|████████████████████████████████▍                                                                       | 894/2865 [56:34<1:37:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0601, 'grad_norm': 1.1328125, 'learning_rate': 4.347160195315063e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21783.46, 'epoch': 0.94}
 31%|████████████████████████████████▍                                                                       | 894/2865 [56:34<1:37:04,  2.96s/it] 31%|████████████████████████████████▍                                                                       | 895/2865 [56:37<1:37:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0274, 'grad_norm': 1.203125, 'learning_rate': 4.3451066963075473e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23186.31, 'epoch': 0.94}
 31%|████████████████████████████████▍                                                                       | 895/2865 [56:37<1:37:14,  2.96s/it] 31%|████████████████████████████████▌                                                                       | 896/2865 [56:40<1:37:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0434, 'grad_norm': 1.0859375, 'learning_rate': 4.343050459394289e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21626.74, 'epoch': 0.94}
 31%|████████████████████████████████▌                                                                       | 896/2865 [56:40<1:37:09,  2.96s/it] 31%|████████████████████████████████▌                                                                       | 897/2865 [56:43<1:37:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0212, 'grad_norm': 1.15625, 'learning_rate': 4.3409914876264865e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21772.17, 'epoch': 0.94}
 31%|████████████████████████████████▌                                                                       | 897/2865 [56:43<1:37:02,  2.96s/it] 31%|████████████████████████████████▌                                                                       | 898/2865 [56:46<1:36:58,  2.96s/it]                                                                                                                                                  {'loss': 11.025, 'grad_norm': 1.0859375, 'learning_rate': 4.3389297840593945e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20267.86, 'epoch': 0.94}
 31%|████████████████████████████████▌                                                                       | 898/2865 [56:46<1:36:58,  2.96s/it] 31%|████████████████████████████████▋                                                                       | 899/2865 [56:48<1:36:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0266, 'grad_norm': 1.3671875, 'learning_rate': 4.33686535175232e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21009.64, 'epoch': 0.94}
 31%|████████████████████████████████▋                                                                       | 899/2865 [56:49<1:36:52,  2.96s/it] 31%|████████████████████████████████▋                                                                       | 900/2865 [56:51<1:36:44,  2.95s/it]                                                                                                                                                  {'loss': 11.0556, 'grad_norm': 1.1953125, 'learning_rate': 4.334798193768621e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21282.3, 'epoch': 0.94}
 31%|████████████████████████████████▋                                                                       | 900/2865 [56:51<1:36:44,  2.95s/it][2025-10-12 04:05:44,270] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<04:19,  1.42s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:01,  1.00it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:21,  1.28it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<01:55,  1.56it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:40,  1.79it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:29,  1.98it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:23,  2.12it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:19,  2.23it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:15,  2.33it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.37it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:11,  2.43it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:08,  2.50it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:07,  2.53it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.52it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:03,  2.64it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.52it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:04,  2.58it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:06,  2.50it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:05,  2.53it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:04,  2.55it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:03,  2.56it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:03,  2.56it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.55it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:01,  2.58it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:02,  2.55it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:01,  2.55it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:01,  2.54it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:01,  2.55it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.57it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<00:59,  2.57it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<00:58,  2.61it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<01:00,  2.50it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:59,  2.53it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:59,  2.53it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:58,  2.55it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.54it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:56,  2.58it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:57,  2.55it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:55,  2.62it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.53it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:52,  2.72it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:55,  2.54it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:56,  2.50it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:54,  2.56it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.57it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.52it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.55it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:53,  2.52it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.53it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:51,  2.58it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.53it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:52,  2.53it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.55it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:50,  2.55it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:49,  2.62it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.53it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:50,  2.52it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:49,  2.56it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.54it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:47,  2.63it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:49,  2.49it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:48,  2.54it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.52it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:46,  2.57it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:47,  2.52it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:47,  2.51it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:45,  2.55it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.52it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.54it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.56it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.53it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.55it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:41,  2.63it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.58it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:41,  2.58it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:41,  2.55it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.55it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.56it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.58it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.54it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:39,  2.58it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:39,  2.54it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:38,  2.58it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.60it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.53it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:37,  2.56it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.54it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.54it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.57it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:36,  2.55it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:35,  2.58it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.53it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:34,  2.60it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:35,  2.51it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.56it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.50it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.59it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:34,  2.45it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:33,  2.48it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:32,  2.52it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:32,  2.51it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:32,  2.53it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:30,  2.65it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.52it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.53it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.60it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.54it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.51it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.61it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:29,  2.51it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.55it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:28,  2.53it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.56it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:26,  2.57it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.53it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.57it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:24,  2.62it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.55it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.55it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.54it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:23,  2.56it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:22,  2.62it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.54it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.54it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:22,  2.53it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.60it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.53it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.55it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.56it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:20,  2.53it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.56it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.52it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.55it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.53it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:17,  2.62it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:18,  2.49it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.52it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.56it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.55it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.54it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.54it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:14,  2.62it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.62it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.51it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.56it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.57it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.53it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.54it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.56it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.57it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.57it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.53it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.59it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.56it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.52it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.55it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.54it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:08,  2.57it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.61it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.52it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.53it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.53it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:06,  2.58it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.66it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.52it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.54it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.57it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.56it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.57it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.57it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.52it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.52it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.56it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.57it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.55it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.54it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.55it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.54it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.58it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.96it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.012481689453125, 'eval_runtime': 77.9688, 'eval_samples_per_second': 152.074, 'eval_steps_per_second': 2.386, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 0.94}
 31%|████████████████████████████████▋                                                                       | 900/2865 [58:09<1:36:44,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  1.96it/s][A
                                                                                                                                                  [A[2025-10-12 04:07:02,259] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-900
 31%|████████████████████████████████▍                                                                      | 901/2865 [58:19<15:22:40, 28.19s/it]                                                                                                                                                  {'loss': 11.0404, 'grad_norm': 1.2265625, 'learning_rate': 4.332728313175699e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19045.26, 'epoch': 0.94}
 31%|████████████████████████████████▍                                                                      | 901/2865 [58:19<15:22:40, 28.19s/it] 31%|████████████████████████████████▍                                                                      | 902/2865 [58:21<11:14:37, 20.62s/it]                                                                                                                                                  {'loss': 11.031, 'grad_norm': 1.0859375, 'learning_rate': 4.330655713044997e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23022.21, 'epoch': 0.94}
 31%|████████████████████████████████▍                                                                      | 902/2865 [58:21<11:14:37, 20.62s/it] 32%|████████████████████████████████▊                                                                       | 903/2865 [58:24<8:20:57, 15.32s/it]                                                                                                                                                  {'loss': 11.0461, 'grad_norm': 1.1171875, 'learning_rate': 4.328580396451991e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20267.45, 'epoch': 0.95}
 32%|████████████████████████████████▊                                                                       | 903/2865 [58:24<8:20:57, 15.32s/it] 32%|████████████████████████████████▊                                                                       | 904/2865 [58:27<6:19:30, 11.61s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.2109375, 'learning_rate': 4.32650236647619e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21093.41, 'epoch': 0.95}
 32%|████████████████████████████████▊                                                                       | 904/2865 [58:27<6:19:30, 11.61s/it] 32%|████████████████████████████████▊                                                                       | 905/2865 [58:30<4:54:24,  9.01s/it]                                                                                                                                                  {'loss': 11.0387, 'grad_norm': 1.109375, 'learning_rate': 4.324421626201128e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21662.87, 'epoch': 0.95}
 32%|████████████████████████████████▊                                                                       | 905/2865 [58:30<4:54:24,  9.01s/it] 32%|████████████████████████████████▉                                                                       | 906/2865 [58:33<3:54:52,  7.19s/it]                                                                                                                                                  {'loss': 11.0381, 'grad_norm': 1.109375, 'learning_rate': 4.3223381787143616e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21089.94, 'epoch': 0.95}
 32%|████████████████████████████████▉                                                                       | 906/2865 [58:33<3:54:52,  7.19s/it] 32%|████████████████████████████████▉                                                                       | 907/2865 [58:36<3:13:19,  5.92s/it]                                                                                                                                                  {'loss': 11.0305, 'grad_norm': 1.28125, 'learning_rate': 4.320252027107464e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21521.59, 'epoch': 0.95}
 32%|████████████████████████████████▉                                                                       | 907/2865 [58:36<3:13:19,  5.92s/it] 32%|████████████████████████████████▉                                                                       | 908/2865 [58:39<2:44:17,  5.04s/it]                                                                                                                                                  {'loss': 11.0518, 'grad_norm': 1.5234375, 'learning_rate': 4.318163174476021e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21506.38, 'epoch': 0.95}
 32%|████████████████████████████████▉                                                                       | 908/2865 [58:39<2:44:17,  5.04s/it] 32%|████████████████████████████████▉                                                                       | 909/2865 [58:42<2:23:51,  4.41s/it]                                                                                                                                                  {'loss': 11.0523, 'grad_norm': 1.1796875, 'learning_rate': 4.316071623919627e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22725.45, 'epoch': 0.95}
 32%|████████████████████████████████▉                                                                       | 909/2865 [58:42<2:23:51,  4.41s/it] 32%|█████████████████████████████████                                                                       | 910/2865 [58:45<2:09:35,  3.98s/it]                                                                                                                                                  {'loss': 11.0108, 'grad_norm': 1.3828125, 'learning_rate': 4.313977378541879e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20885.37, 'epoch': 0.95}
 32%|█████████████████████████████████                                                                       | 910/2865 [58:45<2:09:35,  3.98s/it] 32%|█████████████████████████████████                                                                       | 911/2865 [58:48<1:59:34,  3.67s/it]                                                                                                                                                  {'loss': 11.0175, 'grad_norm': 1.2578125, 'learning_rate': 4.311880441450375e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20638.07, 'epoch': 0.95}
 32%|█████████████████████████████████                                                                       | 911/2865 [58:48<1:59:34,  3.67s/it] 32%|█████████████████████████████████                                                                       | 912/2865 [58:51<1:52:31,  3.46s/it]                                                                                                                                                  {'loss': 11.0316, 'grad_norm': 1.21875, 'learning_rate': 4.3097808157567015e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21131.54, 'epoch': 0.95}
 32%|█████████████████████████████████                                                                       | 912/2865 [58:51<1:52:31,  3.46s/it] 32%|█████████████████████████████████▏                                                                      | 913/2865 [58:54<1:47:36,  3.31s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.21875, 'learning_rate': 4.307678504576442e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21534.6, 'epoch': 0.96}
 32%|█████████████████████████████████▏                                                                      | 913/2865 [58:54<1:47:36,  3.31s/it] 32%|█████████████████████████████████▏                                                                      | 914/2865 [58:57<1:44:07,  3.20s/it]                                                                                                                                                  {'loss': 11.0254, 'grad_norm': 1.1875, 'learning_rate': 4.305573511029159e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22151.46, 'epoch': 0.96}
 32%|█████████████████████████████████▏                                                                      | 914/2865 [58:57<1:44:07,  3.20s/it] 32%|█████████████████████████████████▏                                                                      | 915/2865 [59:00<1:41:53,  3.13s/it]                                                                                                                                                  {'loss': 11.027, 'grad_norm': 1.1953125, 'learning_rate': 4.3034658382383986e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20818.19, 'epoch': 0.96}
 32%|█████████████████████████████████▏                                                                      | 915/2865 [59:00<1:41:53,  3.13s/it] 32%|█████████████████████████████████▎                                                                      | 916/2865 [59:03<1:40:02,  3.08s/it]                                                                                                                                                  {'loss': 11.0324, 'grad_norm': 1.5078125, 'learning_rate': 4.301355489331682e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21427.87, 'epoch': 0.96}
 32%|█████████████████████████████████▎                                                                      | 916/2865 [59:03<1:40:02,  3.08s/it] 32%|█████████████████████████████████▎                                                                      | 917/2865 [59:06<1:38:51,  3.05s/it]                                                                                                                                                  {'loss': 11.0428, 'grad_norm': 1.1875, 'learning_rate': 4.2992424674404994e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22152.41, 'epoch': 0.96}
 32%|█████████████████████████████████▎                                                                      | 917/2865 [59:06<1:38:51,  3.05s/it] 32%|█████████████████████████████████▎                                                                      | 918/2865 [59:09<1:37:57,  3.02s/it]                                                                                                                                                  {'loss': 11.0259, 'grad_norm': 1.09375, 'learning_rate': 4.29712677570031e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20859.49, 'epoch': 0.96}
 32%|█████████████████████████████████▎                                                                      | 918/2865 [59:09<1:37:57,  3.02s/it] 32%|█████████████████████████████████▎                                                                      | 919/2865 [59:12<1:37:18,  3.00s/it]                                                                                                                                                  {'loss': 11.029, 'grad_norm': 1.203125, 'learning_rate': 4.295008417250533e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21438.4, 'epoch': 0.96}
 32%|█████████████████████████████████▎                                                                      | 919/2865 [59:12<1:37:18,  3.00s/it] 32%|█████████████████████████████████▍                                                                      | 920/2865 [59:15<1:36:48,  2.99s/it]                                                                                                                                                  {'loss': 11.0285, 'grad_norm': 1.1796875, 'learning_rate': 4.292887395234546e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21704.06, 'epoch': 0.96}
 32%|█████████████████████████████████▍                                                                      | 920/2865 [59:15<1:36:48,  2.99s/it] 32%|█████████████████████████████████▍                                                                      | 921/2865 [59:18<1:36:26,  2.98s/it]                                                                                                                                                  {'loss': 11.0523, 'grad_norm': 1.1640625, 'learning_rate': 4.290763712799678e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21767.26, 'epoch': 0.96}
 32%|█████████████████████████████████▍                                                                      | 921/2865 [59:18<1:36:26,  2.98s/it] 32%|█████████████████████████████████▍                                                                      | 922/2865 [59:21<1:36:19,  2.97s/it]                                                                                                                                                  {'loss': 11.0301, 'grad_norm': 1.15625, 'learning_rate': 4.288637373097206e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21741.18, 'epoch': 0.97}
 32%|█████████████████████████████████▍                                                                      | 922/2865 [59:21<1:36:19,  2.97s/it] 32%|█████████████████████████████████▌                                                                      | 923/2865 [59:24<1:36:05,  2.97s/it]                                                                                                                                                  {'loss': 11.0264, 'grad_norm': 1.21875, 'learning_rate': 4.28650837928235e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21009.2, 'epoch': 0.97}
 32%|█████████████████████████████████▌                                                                      | 923/2865 [59:24<1:36:05,  2.97s/it] 32%|█████████████████████████████████▌                                                                      | 924/2865 [59:27<1:35:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0527, 'grad_norm': 1.078125, 'learning_rate': 4.284376734514269e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22095.75, 'epoch': 0.97}
 32%|█████████████████████████████████▌                                                                      | 924/2865 [59:27<1:35:54,  2.96s/it] 32%|█████████████████████████████████▌                                                                      | 925/2865 [59:30<1:35:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0185, 'grad_norm': 1.1171875, 'learning_rate': 4.282242441956055e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21565.23, 'epoch': 0.97}
 32%|█████████████████████████████████▌                                                                      | 925/2865 [59:30<1:35:51,  2.96s/it] 32%|█████████████████████████████████▌                                                                      | 926/2865 [59:32<1:35:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0476, 'grad_norm': 1.1171875, 'learning_rate': 4.280105504774728e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21906.59, 'epoch': 0.97}
 32%|█████████████████████████████████▌                                                                      | 926/2865 [59:32<1:35:41,  2.96s/it] 32%|█████████████████████████████████▋                                                                      | 927/2865 [59:35<1:35:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0508, 'grad_norm': 1.0859375, 'learning_rate': 4.277965926141234e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21665.04, 'epoch': 0.97}
 32%|█████████████████████████████████▋                                                                      | 927/2865 [59:35<1:35:32,  2.96s/it] 32%|█████████████████████████████████▋                                                                      | 928/2865 [59:38<1:35:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0371, 'grad_norm': 1.25, 'learning_rate': 4.275823709230438e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22658.63, 'epoch': 0.97}
 32%|█████████████████████████████████▋                                                                      | 928/2865 [59:38<1:35:33,  2.96s/it] 32%|█████████████████████████████████▋                                                                      | 929/2865 [59:41<1:35:31,  2.96s/it]                                                                                                                                                  {'loss': 11.019, 'grad_norm': 1.1953125, 'learning_rate': 4.2736788572211204e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21391.23, 'epoch': 0.97}
 32%|█████████████████████████████████▋                                                                      | 929/2865 [59:41<1:35:31,  2.96s/it] 32%|█████████████████████████████████▊                                                                      | 930/2865 [59:44<1:35:31,  2.96s/it]                                                                                                                                                  {'loss': 11.02, 'grad_norm': 1.0859375, 'learning_rate': 4.27153137329597e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21916.65, 'epoch': 0.97}
 32%|█████████████████████████████████▊                                                                      | 930/2865 [59:44<1:35:31,  2.96s/it] 32%|█████████████████████████████████▊                                                                      | 931/2865 [59:47<1:35:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0297, 'grad_norm': 1.140625, 'learning_rate': 4.269381260641584e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21220.88, 'epoch': 0.97}
 32%|█████████████████████████████████▊                                                                      | 931/2865 [59:47<1:35:26,  2.96s/it] 33%|█████████████████████████████████▊                                                                      | 932/2865 [59:50<1:35:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0301, 'grad_norm': 1.2265625, 'learning_rate': 4.267228522448457e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21271.91, 'epoch': 0.98}
 33%|█████████████████████████████████▊                                                                      | 932/2865 [59:50<1:35:20,  2.96s/it] 33%|█████████████████████████████████▊                                                                      | 933/2865 [59:53<1:35:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0238, 'grad_norm': 1.078125, 'learning_rate': 4.265073161910982e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21872.44, 'epoch': 0.98}
 33%|█████████████████████████████████▊                                                                      | 933/2865 [59:53<1:35:17,  2.96s/it] 33%|█████████████████████████████████▉                                                                      | 934/2865 [59:56<1:35:07,  2.96s/it]                                                                                                                                                  {'loss': 11.0453, 'grad_norm': 1.234375, 'learning_rate': 4.262915182227441e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20768.64, 'epoch': 0.98}
 33%|█████████████████████████████████▉                                                                      | 934/2865 [59:56<1:35:07,  2.96s/it] 33%|█████████████████████████████████▉                                                                      | 935/2865 [59:59<1:35:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0435, 'grad_norm': 1.15625, 'learning_rate': 4.260754586600006e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21026.66, 'epoch': 0.98}
 33%|█████████████████████████████████▉                                                                      | 935/2865 [59:59<1:35:03,  2.96s/it] 33%|█████████████████████████████████▎                                                                    | 936/2865 [1:00:02<1:34:58,  2.95s/it]                                                                                                                                                  {'loss': 11.0175, 'grad_norm': 1.0859375, 'learning_rate': 4.258591378234727e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21851.28, 'epoch': 0.98}
 33%|█████████████████████████████████▎                                                                    | 936/2865 [1:00:02<1:34:58,  2.95s/it] 33%|█████████████████████████████████▎                                                                    | 937/2865 [1:00:05<1:34:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0519, 'grad_norm': 1.0625, 'learning_rate': 4.256425560341532e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20440.72, 'epoch': 0.98}
 33%|█████████████████████████████████▎                                                                    | 937/2865 [1:00:05<1:34:59,  2.96s/it] 33%|█████████████████████████████████▍                                                                    | 938/2865 [1:00:08<1:34:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0079, 'grad_norm': 1.0625, 'learning_rate': 4.254257136134223e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21643.28, 'epoch': 0.98}
 33%|█████████████████████████████████▍                                                                    | 938/2865 [1:00:08<1:34:54,  2.96s/it] 33%|█████████████████████████████████▍                                                                    | 939/2865 [1:00:11<1:34:45,  2.95s/it]                                                                                                                                                  {'loss': 11.0424, 'grad_norm': 1.0546875, 'learning_rate': 4.2520861088304684e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21129.98, 'epoch': 0.98}
 33%|█████████████████████████████████▍                                                                    | 939/2865 [1:00:11<1:34:45,  2.95s/it] 33%|█████████████████████████████████▍                                                                    | 940/2865 [1:00:14<1:34:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0321, 'grad_norm': 1.1015625, 'learning_rate': 4.2499124816517976e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19571.6, 'epoch': 0.98}
 33%|█████████████████████████████████▍                                                                    | 940/2865 [1:00:14<1:34:49,  2.96s/it] 33%|█████████████████████████████████▌                                                                    | 941/2865 [1:00:17<1:34:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0321, 'grad_norm': 1.0703125, 'learning_rate': 4.2477362578236e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22563.87, 'epoch': 0.99}
 33%|█████████████████████████████████▌                                                                    | 941/2865 [1:00:17<1:34:51,  2.96s/it] 33%|█████████████████████████████████▌                                                                    | 942/2865 [1:00:20<1:34:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0217, 'grad_norm': 1.1171875, 'learning_rate': 4.245557440575117e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21203.62, 'epoch': 0.99}
 33%|█████████████████████████████████▌                                                                    | 942/2865 [1:00:20<1:34:45,  2.96s/it] 33%|█████████████████████████████████▌                                                                    | 943/2865 [1:00:23<1:34:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.171875, 'learning_rate': 4.2433760331394415e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20869.09, 'epoch': 0.99}
 33%|█████████████████████████████████▌                                                                    | 943/2865 [1:00:23<1:34:43,  2.96s/it] 33%|█████████████████████████████████▌                                                                    | 944/2865 [1:00:26<1:34:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0227, 'grad_norm': 1.0703125, 'learning_rate': 4.241192038753503e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22528.48, 'epoch': 0.99}
 33%|█████████████████████████████████▌                                                                    | 944/2865 [1:00:26<1:34:47,  2.96s/it] 33%|█████████████████████████████████▋                                                                    | 945/2865 [1:00:29<1:34:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0263, 'grad_norm': 1.140625, 'learning_rate': 4.239005460658075e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20554.43, 'epoch': 0.99}
 33%|█████████████████████████████████▋                                                                    | 945/2865 [1:00:29<1:34:42,  2.96s/it] 33%|█████████████████████████████████▋                                                                    | 946/2865 [1:00:32<1:34:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0176, 'grad_norm': 1.078125, 'learning_rate': 4.2368163020977656e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20804.92, 'epoch': 0.99}
 33%|█████████████████████████████████▋                                                                    | 946/2865 [1:00:32<1:34:43,  2.96s/it] 33%|█████████████████████████████████▋                                                                    | 947/2865 [1:00:35<1:34:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0073, 'grad_norm': 1.109375, 'learning_rate': 4.2346245663210095e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20786.64, 'epoch': 0.99}
 33%|█████████████████████████████████▋                                                                    | 947/2865 [1:00:35<1:34:40,  2.96s/it] 33%|█████████████████████████████████▊                                                                    | 948/2865 [1:00:38<1:34:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0225, 'grad_norm': 1.1328125, 'learning_rate': 4.232430256580066e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21611.31, 'epoch': 0.99}
 33%|█████████████████████████████████▊                                                                    | 948/2865 [1:00:38<1:34:36,  2.96s/it] 33%|█████████████████████████████████▊                                                                    | 949/2865 [1:00:41<1:34:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0765, 'grad_norm': 1.46875, 'learning_rate': 4.230233376131012e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21780.14, 'epoch': 0.99}
 33%|█████████████████████████████████▊                                                                    | 949/2865 [1:00:41<1:34:36,  2.96s/it] 33%|█████████████████████████████████▊                                                                    | 950/2865 [1:00:43<1:34:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.1875, 'learning_rate': 4.228033928233744e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20651.71, 'epoch': 0.99}
 33%|█████████████████████████████████▊                                                                    | 950/2865 [1:00:43<1:34:26,  2.96s/it] 33%|█████████████████████████████████▊                                                                    | 951/2865 [1:00:46<1:34:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0177, 'grad_norm': 1.1328125, 'learning_rate': 4.2258319161519656e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21515.83, 'epoch': 1.0}
 33%|█████████████████████████████████▊                                                                    | 951/2865 [1:00:46<1:34:25,  2.96s/it] 33%|█████████████████████████████████▉                                                                    | 952/2865 [1:00:49<1:34:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.09375, 'learning_rate': 4.223627343153184e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20971.72, 'epoch': 1.0}
 33%|█████████████████████████████████▉                                                                    | 952/2865 [1:00:49<1:34:15,  2.96s/it] 33%|█████████████████████████████████▉                                                                    | 953/2865 [1:00:52<1:34:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0324, 'grad_norm': 1.265625, 'learning_rate': 4.2214202125087066e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20720.98, 'epoch': 1.0}
 33%|█████████████████████████████████▉                                                                    | 953/2865 [1:00:52<1:34:14,  2.96s/it] 33%|█████████████████████████████████▉                                                                    | 954/2865 [1:00:55<1:34:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0245, 'grad_norm': 1.109375, 'learning_rate': 4.2192105274936384e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21707.1, 'epoch': 1.0}
 33%|█████████████████████████████████▉                                                                    | 954/2865 [1:00:55<1:34:13,  2.96s/it] 33%|██████████████████████████████████                                                                    | 955/2865 [1:00:59<1:44:29,  3.28s/it]                                                                                                                                                  {'loss': 11.0388, 'grad_norm': 1.1796875, 'learning_rate': 4.2169982913868734e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21728.0, 'epoch': 1.0}
 33%|██████████████████████████████████                                                                    | 955/2865 [1:00:59<1:44:29,  3.28s/it] 33%|██████████████████████████████████                                                                    | 956/2865 [1:01:08<2:33:31,  4.83s/it]                                                                                                                                                  {'loss': 11.0298, 'grad_norm': 1.3515625, 'learning_rate': 4.21478350747109e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15533.13, 'epoch': 1.0}
 33%|██████████████████████████████████                                                                    | 956/2865 [1:01:08<2:33:31,  4.83s/it] 33%|██████████████████████████████████                                                                    | 957/2865 [1:01:11<2:15:46,  4.27s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.2578125, 'learning_rate': 4.2125661790327495e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22379.46, 'epoch': 1.0}
 33%|██████████████████████████████████                                                                    | 957/2865 [1:01:11<2:15:46,  4.27s/it] 33%|██████████████████████████████████                                                                    | 958/2865 [1:01:14<2:03:14,  3.88s/it]                                                                                                                                                  {'loss': 11.0306, 'grad_norm': 1.15625, 'learning_rate': 4.210346309362088e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20317.96, 'epoch': 1.0}
 33%|██████████████████████████████████                                                                    | 958/2865 [1:01:14<2:03:14,  3.88s/it] 33%|██████████████████████████████████▏                                                                   | 959/2865 [1:01:17<1:54:29,  3.60s/it]                                                                                                                                                  {'loss': 11.028, 'grad_norm': 1.140625, 'learning_rate': 4.2081239017531115e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20726.34, 'epoch': 1.0}
 33%|██████████████████████████████████▏                                                                   | 959/2865 [1:01:17<1:54:29,  3.60s/it] 34%|██████████████████████████████████▏                                                                   | 960/2865 [1:01:20<1:48:21,  3.41s/it]                                                                                                                                                  {'loss': 11.039, 'grad_norm': 1.203125, 'learning_rate': 4.205898959503593e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21279.7, 'epoch': 1.01}
 34%|██████████████████████████████████▏                                                                   | 960/2865 [1:01:20<1:48:21,  3.41s/it] 34%|██████████████████████████████████▏                                                                   | 961/2865 [1:01:23<1:44:03,  3.28s/it]                                                                                                                                                  {'loss': 11.0285, 'grad_norm': 1.0703125, 'learning_rate': 4.2036714859150663e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20930.3, 'epoch': 1.01}
 34%|██████████████████████████████████▏                                                                   | 961/2865 [1:01:23<1:44:03,  3.28s/it] 34%|██████████████████████████████████▏                                                                   | 962/2865 [1:01:26<1:40:58,  3.18s/it]                                                                                                                                                  {'loss': 11.0286, 'grad_norm': 1.09375, 'learning_rate': 4.2014414842928206e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21528.86, 'epoch': 1.01}
 34%|██████████████████████████████████▏                                                                   | 962/2865 [1:01:26<1:40:58,  3.18s/it] 34%|██████████████████████████████████▎                                                                   | 963/2865 [1:01:29<1:38:53,  3.12s/it]                                                                                                                                                  {'loss': 11.0268, 'grad_norm': 1.234375, 'learning_rate': 4.199208957945899e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22520.9, 'epoch': 1.01}
 34%|██████████████████████████████████▎                                                                   | 963/2865 [1:01:29<1:38:53,  3.12s/it] 34%|██████████████████████████████████▎                                                                   | 964/2865 [1:01:31<1:37:21,  3.07s/it]                                                                                                                                                  {'loss': 11.0275, 'grad_norm': 1.0859375, 'learning_rate': 4.1969739101870876e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21666.88, 'epoch': 1.01}
 34%|██████████████████████████████████▎                                                                   | 964/2865 [1:01:32<1:37:21,  3.07s/it] 34%|██████████████████████████████████▎                                                                   | 965/2865 [1:01:34<1:36:16,  3.04s/it]                                                                                                                                                  {'loss': 11.0371, 'grad_norm': 1.1171875, 'learning_rate': 4.194736344332916e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21214.94, 'epoch': 1.01}
 34%|██████████████████████████████████▎                                                                   | 965/2865 [1:01:34<1:36:16,  3.04s/it] 34%|██████████████████████████████████▍                                                                   | 966/2865 [1:01:37<1:35:30,  3.02s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.265625, 'learning_rate': 4.19249626370365e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21301.42, 'epoch': 1.01}
 34%|██████████████████████████████████▍                                                                   | 966/2865 [1:01:37<1:35:30,  3.02s/it] 34%|██████████████████████████████████▍                                                                   | 967/2865 [1:01:40<1:35:04,  3.01s/it]                                                                                                                                                  {'loss': 11.0341, 'grad_norm': 1.109375, 'learning_rate': 4.1902536716232865e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21540.66, 'epoch': 1.01}
 34%|██████████████████████████████████▍                                                                   | 967/2865 [1:01:40<1:35:04,  3.01s/it] 34%|██████████████████████████████████▍                                                                   | 968/2865 [1:01:43<1:34:37,  2.99s/it]                                                                                                                                                  {'loss': 11.0095, 'grad_norm': 1.078125, 'learning_rate': 4.18800857141955e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20564.8, 'epoch': 1.01}
 34%|██████████████████████████████████▍                                                                   | 968/2865 [1:01:43<1:34:37,  2.99s/it] 34%|██████████████████████████████████▍                                                                   | 969/2865 [1:01:46<1:34:24,  2.99s/it]                                                                                                                                                  {'loss': 11.0126, 'grad_norm': 1.15625, 'learning_rate': 4.185760966423886e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21396.09, 'epoch': 1.01}
 34%|██████████████████████████████████▍                                                                   | 969/2865 [1:01:46<1:34:24,  2.99s/it] 34%|██████████████████████████████████▌                                                                   | 970/2865 [1:01:49<1:34:22,  2.99s/it]                                                                                                                                                  {'loss': 11.0341, 'grad_norm': 1.1640625, 'learning_rate': 4.183510859971457e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23379.4, 'epoch': 1.02}
 34%|██████████████████████████████████▌                                                                   | 970/2865 [1:01:49<1:34:22,  2.99s/it] 34%|██████████████████████████████████▌                                                                   | 971/2865 [1:01:52<1:34:11,  2.98s/it]                                                                                                                                                  {'loss': 11.0093, 'grad_norm': 1.0859375, 'learning_rate': 4.1812582554011356e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22257.05, 'epoch': 1.02}
 34%|██████████████████████████████████▌                                                                   | 971/2865 [1:01:52<1:34:11,  2.98s/it] 34%|██████████████████████████████████▌                                                                   | 972/2865 [1:01:55<1:33:59,  2.98s/it]                                                                                                                                                  {'loss': 11.0334, 'grad_norm': 1.234375, 'learning_rate': 4.1790031560555064e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22343.56, 'epoch': 1.02}
 34%|██████████████████████████████████▌                                                                   | 972/2865 [1:01:55<1:33:59,  2.98s/it] 34%|██████████████████████████████████▋                                                                   | 973/2865 [1:01:58<1:33:52,  2.98s/it]                                                                                                                                                  {'loss': 11.033, 'grad_norm': 1.1328125, 'learning_rate': 4.17674556528085e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21066.31, 'epoch': 1.02}
 34%|██████████████████████████████████▋                                                                   | 973/2865 [1:01:58<1:33:52,  2.98s/it] 34%|██████████████████████████████████▋                                                                   | 974/2865 [1:02:01<1:33:39,  2.97s/it]                                                                                                                                                  {'loss': 11.0074, 'grad_norm': 1.125, 'learning_rate': 4.174485486427148e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20618.01, 'epoch': 1.02}
 34%|██████████████████████████████████▋                                                                   | 974/2865 [1:02:01<1:33:39,  2.97s/it] 34%|██████████████████████████████████▋                                                                   | 975/2865 [1:02:04<1:33:31,  2.97s/it]                                                                                                                                                  {'loss': 11.0102, 'grad_norm': 1.140625, 'learning_rate': 4.1722229228480705e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20574.8, 'epoch': 1.02}
 34%|██████████████████████████████████▋                                                                   | 975/2865 [1:02:04<1:33:31,  2.97s/it] 34%|██████████████████████████████████▋                                                                   | 976/2865 [1:02:07<1:33:22,  2.97s/it]                                                                                                                                                  {'loss': 11.0427, 'grad_norm': 1.1328125, 'learning_rate': 4.169957877900979e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21760.17, 'epoch': 1.02}
 34%|██████████████████████████████████▋                                                                   | 976/2865 [1:02:07<1:33:22,  2.97s/it] 34%|██████████████████████████████████▊                                                                   | 977/2865 [1:02:10<1:33:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0585, 'grad_norm': 1.140625, 'learning_rate': 4.167690354946912e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21856.2, 'epoch': 1.02}
 34%|██████████████████████████████████▊                                                                   | 977/2865 [1:02:10<1:33:14,  2.96s/it] 34%|██████████████████████████████████▊                                                                   | 978/2865 [1:02:13<1:33:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0495, 'grad_norm': 1.09375, 'learning_rate': 4.165420357350591e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22086.36, 'epoch': 1.02}
 34%|██████████████████████████████████▊                                                                   | 978/2865 [1:02:13<1:33:13,  2.96s/it] 34%|██████████████████████████████████▊                                                                   | 979/2865 [1:02:16<1:33:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0424, 'grad_norm': 1.2109375, 'learning_rate': 4.163147888480404e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22124.24, 'epoch': 1.03}
 34%|██████████████████████████████████▊                                                                   | 979/2865 [1:02:16<1:33:10,  2.96s/it] 34%|██████████████████████████████████▉                                                                   | 980/2865 [1:02:19<1:33:10,  2.97s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.1640625, 'learning_rate': 4.1608729517084096e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21571.14, 'epoch': 1.03}
 34%|██████████████████████████████████▉                                                                   | 980/2865 [1:02:19<1:33:10,  2.97s/it] 34%|██████████████████████████████████▉                                                                   | 981/2865 [1:02:22<1:33:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0086, 'grad_norm': 1.4296875, 'learning_rate': 4.158595550410326e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22311.36, 'epoch': 1.03}
 34%|██████████████████████████████████▉                                                                   | 981/2865 [1:02:22<1:33:03,  2.96s/it] 34%|██████████████████████████████████▉                                                                   | 982/2865 [1:02:25<1:32:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0332, 'grad_norm': 1.1328125, 'learning_rate': 4.15631568796553e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22031.78, 'epoch': 1.03}
 34%|██████████████████████████████████▉                                                                   | 982/2865 [1:02:25<1:32:59,  2.96s/it] 34%|██████████████████████████████████▉                                                                   | 983/2865 [1:02:28<1:32:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0251, 'grad_norm': 1.1953125, 'learning_rate': 4.15403336775705e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21412.22, 'epoch': 1.03}
 34%|██████████████████████████████████▉                                                                   | 983/2865 [1:02:28<1:32:51,  2.96s/it] 34%|███████████████████████████████████                                                                   | 984/2865 [1:02:31<1:32:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0217, 'grad_norm': 1.09375, 'learning_rate': 4.151748593171562e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19162.08, 'epoch': 1.03}
 34%|███████████████████████████████████                                                                   | 984/2865 [1:02:31<1:32:46,  2.96s/it] 34%|███████████████████████████████████                                                                   | 985/2865 [1:02:34<1:32:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0305, 'grad_norm': 1.28125, 'learning_rate': 4.1494613675993823e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21253.41, 'epoch': 1.03}
 34%|███████████████████████████████████                                                                   | 985/2865 [1:02:34<1:32:38,  2.96s/it] 34%|███████████████████████████████████                                                                   | 986/2865 [1:02:37<1:32:32,  2.95s/it]                                                                                                                                                  {'loss': 11.0396, 'grad_norm': 1.1953125, 'learning_rate': 4.147171694434466e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21138.83, 'epoch': 1.03}
 34%|███████████████████████████████████                                                                   | 986/2865 [1:02:37<1:32:32,  2.95s/it] 34%|███████████████████████████████████▏                                                                  | 987/2865 [1:02:40<1:32:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0165, 'grad_norm': 1.1015625, 'learning_rate': 4.144879577074401e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20675.12, 'epoch': 1.03}
 34%|███████████████████████████████████▏                                                                  | 987/2865 [1:02:40<1:32:23,  2.95s/it] 34%|███████████████████████████████████▏                                                                  | 988/2865 [1:02:43<1:32:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0224, 'grad_norm': 1.0625, 'learning_rate': 4.142585018920399e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20651.69, 'epoch': 1.03}
 34%|███████████████████████████████████▏                                                                  | 988/2865 [1:02:43<1:32:19,  2.95s/it] 35%|███████████████████████████████████▏                                                                  | 989/2865 [1:02:46<1:32:17,  2.95s/it]                                                                                                                                                  {'loss': 11.0256, 'grad_norm': 1.0703125, 'learning_rate': 4.1402880233772936e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21292.12, 'epoch': 1.04}
 35%|███████████████████████████████████▏                                                                  | 989/2865 [1:02:46<1:32:17,  2.95s/it] 35%|███████████████████████████████████▏                                                                  | 990/2865 [1:02:49<1:32:17,  2.95s/it]                                                                                                                                                  {'loss': 11.0299, 'grad_norm': 1.0859375, 'learning_rate': 4.137988593853539e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21526.35, 'epoch': 1.04}
 35%|███████████████████████████████████▏                                                                  | 990/2865 [1:02:49<1:32:17,  2.95s/it] 35%|███████████████████████████████████▎                                                                  | 991/2865 [1:02:51<1:32:14,  2.95s/it]                                                                                                                                                  {'loss': 11.0336, 'grad_norm': 1.0625, 'learning_rate': 4.1356867337611985e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21748.86, 'epoch': 1.04}
 35%|███████████████████████████████████▎                                                                  | 991/2865 [1:02:51<1:32:14,  2.95s/it] 35%|███████████████████████████████████▎                                                                  | 992/2865 [1:02:54<1:32:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0438, 'grad_norm': 1.3828125, 'learning_rate': 4.133382446515941e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21164.5, 'epoch': 1.04}
 35%|███████████████████████████████████▎                                                                  | 992/2865 [1:02:54<1:32:17,  2.96s/it] 35%|███████████████████████████████████▎                                                                  | 993/2865 [1:02:57<1:32:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0131, 'grad_norm': 1.1640625, 'learning_rate': 4.1310757355370396e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20943.98, 'epoch': 1.04}
 35%|███████████████████████████████████▎                                                                  | 993/2865 [1:02:57<1:32:14,  2.96s/it] 35%|███████████████████████████████████▍                                                                  | 994/2865 [1:03:00<1:32:08,  2.95s/it]                                                                                                                                                  {'loss': 11.0298, 'grad_norm': 1.265625, 'learning_rate': 4.1287666042473615e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21842.64, 'epoch': 1.04}
 35%|███████████████████████████████████▍                                                                  | 994/2865 [1:03:00<1:32:08,  2.95s/it] 35%|███████████████████████████████████▍                                                                  | 995/2865 [1:03:03<1:32:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0287, 'grad_norm': 1.15625, 'learning_rate': 4.126455056073367e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21819.2, 'epoch': 1.04}
 35%|███████████████████████████████████▍                                                                  | 995/2865 [1:03:03<1:32:06,  2.96s/it] 35%|███████████████████████████████████▍                                                                  | 996/2865 [1:03:06<1:32:07,  2.96s/it]                                                                                                                                                  {'loss': 11.0462, 'grad_norm': 1.171875, 'learning_rate': 4.124141094445102e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20076.92, 'epoch': 1.04}
 35%|███████████████████████████████████▍                                                                  | 996/2865 [1:03:06<1:32:07,  2.96s/it] 35%|███████████████████████████████████▍                                                                  | 997/2865 [1:03:09<1:31:58,  2.95s/it]                                                                                                                                                  {'loss': 11.0197, 'grad_norm': 1.125, 'learning_rate': 4.121824722796195e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21035.11, 'epoch': 1.04}
 35%|███████████████████████████████████▍                                                                  | 997/2865 [1:03:09<1:31:58,  2.95s/it] 35%|███████████████████████████████████▌                                                                  | 998/2865 [1:03:12<1:31:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0408, 'grad_norm': 1.2109375, 'learning_rate': 4.1195059445638476e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21826.82, 'epoch': 1.05}
 35%|███████████████████████████████████▌                                                                  | 998/2865 [1:03:12<1:31:58,  2.96s/it] 35%|███████████████████████████████████▌                                                                  | 999/2865 [1:03:15<1:31:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0306, 'grad_norm': 1.2265625, 'learning_rate': 4.117184763188835e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21456.51, 'epoch': 1.05}
 35%|███████████████████████████████████▌                                                                  | 999/2865 [1:03:15<1:31:56,  2.96s/it] 35%|███████████████████████████████████▎                                                                 | 1000/2865 [1:03:18<1:31:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0208, 'grad_norm': 1.1953125, 'learning_rate': 4.1148611821154984e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21658.08, 'epoch': 1.05}
 35%|███████████████████████████████████▎                                                                 | 1000/2865 [1:03:18<1:31:53,  2.96s/it][2025-10-12 04:12:10,903] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:03<05:09,  1.69s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:29,  1.15s/it][A
  2%|██▎                                                                                                          | 4/185 [00:04<02:36,  1.15it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<02:06,  1.42it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:47,  1.67it/s][A
  4%|████                                                                                                         | 7/185 [00:05<01:34,  1.88it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:26,  2.05it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:06<01:19,  2.22it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:16,  2.29it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.38it/s][A
  6%|███████                                                                                                     | 12/185 [00:07<01:11,  2.42it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:08,  2.50it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:08<01:07,  2.52it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:06,  2.56it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:05,  2.59it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:09<01:07,  2.50it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:05,  2.56it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:05,  2.54it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:10<01:05,  2.52it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:04,  2.55it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:11<01:03,  2.57it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:02,  2.58it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:02,  2.56it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:12<01:02,  2.57it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:01,  2.57it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:13<01:01,  2.55it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:02,  2.52it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:00,  2.57it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:14<00:59,  2.60it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.54it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:15<01:00,  2.53it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.55it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:58,  2.57it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:16<00:58,  2.56it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:57,  2.60it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:17<00:57,  2.56it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:54,  2.70it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:57,  2.55it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:18<00:57,  2.51it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:57,  2.53it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.53it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:19<00:55,  2.55it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:55,  2.53it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:20<00:55,  2.54it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:53,  2.60it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.55it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:21<00:54,  2.53it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:53,  2.56it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:22<00:53,  2.54it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:52,  2.56it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:51,  2.56it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:23<00:50,  2.61it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:50,  2.59it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:24<00:49,  2.65it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:50,  2.54it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:49,  2.57it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:25<00:48,  2.61it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:50,  2.51it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:48,  2.56it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:48,  2.53it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.56it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:27<00:47,  2.59it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:48,  2.52it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.54it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:28<00:45,  2.61it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:45,  2.60it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:29<00:45,  2.56it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.55it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.53it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:30<00:45,  2.52it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.53it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:31<00:43,  2.57it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.57it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:42,  2.60it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:32<00:43,  2.49it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.55it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:33<00:41,  2.56it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.54it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:40,  2.56it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:34<00:41,  2.51it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.54it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:35<00:40,  2.55it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:35<00:40,  2.52it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:39,  2.54it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:36<00:38,  2.54it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:37,  2.59it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.53it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:37<00:38,  2.53it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:36,  2.58it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:38<00:37,  2.52it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:36,  2.56it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:34,  2.66it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:39<00:36,  2.53it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.55it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:40<00:35,  2.52it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.53it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.53it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:41<00:33,  2.59it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.57it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:42<00:32,  2.55it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:32,  2.54it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:31,  2.57it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:43<00:31,  2.58it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.58it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:44<00:30,  2.58it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:29,  2.60it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.59it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:45<00:29,  2.55it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:28,  2.63it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.52it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:46<00:28,  2.54it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.55it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:47<00:27,  2.54it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.54it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:26,  2.58it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:48<00:26,  2.57it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.56it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:49<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.54it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.55it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:50<00:24,  2.56it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.57it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:51<00:23,  2.62it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.52it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:52<00:22,  2.52it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.58it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:53<00:22,  2.54it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.58it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.56it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:54<00:20,  2.57it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.58it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.57it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:55<00:19,  2.54it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.54it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:56<00:18,  2.57it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.59it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:17,  2.57it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:57<00:17,  2.59it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.56it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:58<00:16,  2.55it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.56it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:15,  2.61it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:59<00:15,  2.58it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.55it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [01:00<00:15,  2.51it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:13,  2.65it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:01<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.56it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.62it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.56it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:03<00:11,  2.60it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.54it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.58it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:04<00:10,  2.54it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.57it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:05<00:09,  2.64it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.54it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:08,  2.58it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:06<00:08,  2.54it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.53it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:07<00:07,  2.55it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.53it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.52it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:08<00:06,  2.55it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.55it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.51it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:10<00:04,  2.53it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.57it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.59it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.56it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.52it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:12<00:02,  2.51it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.52it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.53it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:13<00:01,  2.59it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.53it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:14<00:00,  2.54it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.55it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.08it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.007079124450684, 'eval_runtime': 78.5745, 'eval_samples_per_second': 150.901, 'eval_steps_per_second': 2.367, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.05}
 35%|███████████████████████████████████▎                                                                 | 1000/2865 [1:04:37<1:31:53,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.08it/s][A
                                                                                                                                                  [A[2025-10-12 04:13:29,502] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1000
 35%|██████████████████████████████████▉                                                                 | 1001/2865 [1:04:45<14:38:30, 28.28s/it]                                                                                                                                                  {'loss': 11.0386, 'grad_norm': 1.1015625, 'learning_rate': 4.112535204791739e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19889.62, 'epoch': 1.05}
 35%|██████████████████████████████████▉                                                                 | 1001/2865 [1:04:45<14:38:30, 28.28s/it] 35%|██████████████████████████████████▉                                                                 | 1002/2865 [1:04:48<10:41:59, 20.68s/it]                                                                                                                                                  {'loss': 11.0309, 'grad_norm': 1.1171875, 'learning_rate': 4.110206834669014e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20929.14, 'epoch': 1.05}
 35%|██████████████████████████████████▉                                                                 | 1002/2865 [1:04:48<10:41:59, 20.68s/it] 35%|███████████████████████████████████▎                                                                 | 1003/2865 [1:04:51<7:56:45, 15.36s/it]                                                                                                                                                  {'loss': 11.0283, 'grad_norm': 1.2421875, 'learning_rate': 4.10787607520233e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21534.22, 'epoch': 1.05}
 35%|███████████████████████████████████▎                                                                 | 1003/2865 [1:04:51<7:56:45, 15.36s/it] 35%|███████████████████████████████████▍                                                                 | 1004/2865 [1:04:54<6:00:58, 11.64s/it]                                                                                                                                                  {'loss': 11.0238, 'grad_norm': 1.125, 'learning_rate': 4.1055429298502426e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20675.63, 'epoch': 1.05}
 35%|███████████████████████████████████▍                                                                 | 1004/2865 [1:04:54<6:00:58, 11.64s/it] 35%|███████████████████████████████████▍                                                                 | 1005/2865 [1:04:57<4:40:00,  9.03s/it]                                                                                                                                                  {'loss': 11.041, 'grad_norm': 1.171875, 'learning_rate': 4.1032074020748437e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21276.56, 'epoch': 1.05}
 35%|███████████████████████████████████▍                                                                 | 1005/2865 [1:04:57<4:40:00,  9.03s/it] 35%|███████████████████████████████████▍                                                                 | 1006/2865 [1:05:00<3:43:19,  7.21s/it]                                                                                                                                                  {'loss': 11.0341, 'grad_norm': 1.3671875, 'learning_rate': 4.100869495341761e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20728.49, 'epoch': 1.05}
 35%|███████████████████████████████████▍                                                                 | 1006/2865 [1:05:00<3:43:19,  7.21s/it] 35%|███████████████████████████████████▍                                                                 | 1007/2865 [1:05:03<3:03:42,  5.93s/it]                                                                                                                                                  {'loss': 11.026, 'grad_norm': 1.1484375, 'learning_rate': 4.0985292131201555e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21426.13, 'epoch': 1.05}
 35%|███████████████████████████████████▍                                                                 | 1007/2865 [1:05:03<3:03:42,  5.93s/it] 35%|███████████████████████████████████▌                                                                 | 1008/2865 [1:05:06<2:35:58,  5.04s/it]                                                                                                                                                  {'loss': 11.0188, 'grad_norm': 1.1328125, 'learning_rate': 4.0961865588827106e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21868.24, 'epoch': 1.06}
 35%|███████████████████████████████████▌                                                                 | 1008/2865 [1:05:06<2:35:58,  5.04s/it] 35%|███████████████████████████████████▌                                                                 | 1009/2865 [1:05:09<2:16:33,  4.41s/it]                                                                                                                                                  {'loss': 11.0149, 'grad_norm': 1.28125, 'learning_rate': 4.09384153610563e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20558.69, 'epoch': 1.06}
 35%|███████████████████████████████████▌                                                                 | 1009/2865 [1:05:09<2:16:33,  4.41s/it] 35%|███████████████████████████████████▌                                                                 | 1010/2865 [1:05:12<2:02:55,  3.98s/it]                                                                                                                                                  {'loss': 11.0332, 'grad_norm': 1.1328125, 'learning_rate': 4.09149414826863e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20568.69, 'epoch': 1.06}
 35%|███████████████████████████████████▌                                                                 | 1010/2865 [1:05:12<2:02:55,  3.98s/it] 35%|███████████████████████████████████▋                                                                 | 1011/2865 [1:05:15<1:53:23,  3.67s/it]                                                                                                                                                  {'loss': 11.0298, 'grad_norm': 1.0859375, 'learning_rate': 4.08914439885494e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21784.13, 'epoch': 1.06}
 35%|███████████████████████████████████▋                                                                 | 1011/2865 [1:05:15<1:53:23,  3.67s/it] 35%|███████████████████████████████████▋                                                                 | 1012/2865 [1:05:18<1:46:44,  3.46s/it]                                                                                                                                                  {'loss': 11.0117, 'grad_norm': 1.125, 'learning_rate': 4.086792291351293e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21869.67, 'epoch': 1.06}
 35%|███████████████████████████████████▋                                                                 | 1012/2865 [1:05:18<1:46:44,  3.46s/it] 35%|███████████████████████████████████▋                                                                 | 1013/2865 [1:05:21<1:42:03,  3.31s/it]                                                                                                                                                  {'loss': 11.037, 'grad_norm': 1.09375, 'learning_rate': 4.084437829247917e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21693.15, 'epoch': 1.06}
 35%|███████████████████████████████████▋                                                                 | 1013/2865 [1:05:21<1:42:03,  3.31s/it] 35%|███████████████████████████████████▋                                                                 | 1014/2865 [1:05:24<1:38:43,  3.20s/it]                                                                                                                                                  {'loss': 11.0224, 'grad_norm': 1.078125, 'learning_rate': 4.082081016038538e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21323.19, 'epoch': 1.06}
 35%|███████████████████████████████████▋                                                                 | 1014/2865 [1:05:24<1:38:43,  3.20s/it] 35%|███████████████████████████████████▊                                                                 | 1015/2865 [1:05:27<1:36:17,  3.12s/it]                                                                                                                                                  {'loss': 11.017, 'grad_norm': 1.2890625, 'learning_rate': 4.0797218552203715e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20336.36, 'epoch': 1.06}
 35%|███████████████████████████████████▊                                                                 | 1015/2865 [1:05:27<1:36:17,  3.12s/it] 35%|███████████████████████████████████▊                                                                 | 1016/2865 [1:05:30<1:34:43,  3.07s/it]                                                                                                                                                  {'loss': 11.0351, 'grad_norm': 1.0703125, 'learning_rate': 4.077360350294113e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21132.77, 'epoch': 1.06}
 35%|███████████████████████████████████▊                                                                 | 1016/2865 [1:05:30<1:34:43,  3.07s/it] 35%|███████████████████████████████████▊                                                                 | 1017/2865 [1:05:33<1:33:32,  3.04s/it]                                                                                                                                                  {'loss': 11.0693, 'grad_norm': 1.0703125, 'learning_rate': 4.074996504763938e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21068.58, 'epoch': 1.06}
 35%|███████████████████████████████████▊                                                                 | 1017/2865 [1:05:33<1:33:32,  3.04s/it] 36%|███████████████████████████████████▉                                                                 | 1018/2865 [1:05:36<1:32:37,  3.01s/it]                                                                                                                                                  {'loss': 11.0469, 'grad_norm': 1.0625, 'learning_rate': 4.072630322137497e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21400.68, 'epoch': 1.07}
 36%|███████████████████████████████████▉                                                                 | 1018/2865 [1:05:36<1:32:37,  3.01s/it] 36%|███████████████████████████████████▉                                                                 | 1019/2865 [1:05:39<1:32:02,  2.99s/it]                                                                                                                                                  {'loss': 11.0243, 'grad_norm': 1.0625, 'learning_rate': 4.070261805925906e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21483.28, 'epoch': 1.07}
 36%|███████████████████████████████████▉                                                                 | 1019/2865 [1:05:39<1:32:02,  2.99s/it] 36%|███████████████████████████████████▉                                                                 | 1020/2865 [1:05:42<1:31:38,  2.98s/it]                                                                                                                                                  {'loss': 11.0359, 'grad_norm': 1.1015625, 'learning_rate': 4.067890959643742e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21501.67, 'epoch': 1.07}
 36%|███████████████████████████████████▉                                                                 | 1020/2865 [1:05:42<1:31:38,  2.98s/it] 36%|███████████████████████████████████▉                                                                 | 1021/2865 [1:05:44<1:31:16,  2.97s/it]                                                                                                                                                  {'loss': 11.0107, 'grad_norm': 1.046875, 'learning_rate': 4.065517786809046e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21399.63, 'epoch': 1.07}
 36%|███████████████████████████████████▉                                                                 | 1021/2865 [1:05:44<1:31:16,  2.97s/it] 36%|████████████████████████████████████                                                                 | 1022/2865 [1:05:47<1:31:05,  2.97s/it]                                                                                                                                                  {'loss': 11.0334, 'grad_norm': 1.0546875, 'learning_rate': 4.063142290943304e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20507.96, 'epoch': 1.07}
 36%|████████████████████████████████████                                                                 | 1022/2865 [1:05:47<1:31:05,  2.97s/it] 36%|████████████████████████████████████                                                                 | 1023/2865 [1:05:50<1:30:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0263, 'grad_norm': 1.140625, 'learning_rate': 4.060764475571455e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21283.06, 'epoch': 1.07}
 36%|████████████████████████████████████                                                                 | 1023/2865 [1:05:50<1:30:52,  2.96s/it] 36%|████████████████████████████████████                                                                 | 1024/2865 [1:05:53<1:30:45,  2.96s/it]                                                                                                                                                  {'loss': 11.017, 'grad_norm': 1.0546875, 'learning_rate': 4.058384344221875e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21583.21, 'epoch': 1.07}
 36%|████████████████████████████████████                                                                 | 1024/2865 [1:05:53<1:30:45,  2.96s/it] 36%|████████████████████████████████████▏                                                                | 1025/2865 [1:05:56<1:30:35,  2.95s/it]                                                                                                                                                  {'loss': 11.0078, 'grad_norm': 1.1484375, 'learning_rate': 4.0560019004263805e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21199.64, 'epoch': 1.07}
 36%|████████████████████████████████████▏                                                                | 1025/2865 [1:05:56<1:30:35,  2.95s/it] 36%|████████████████████████████████████▏                                                                | 1026/2865 [1:05:59<1:30:28,  2.95s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.078125, 'learning_rate': 4.053617147720218e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20989.47, 'epoch': 1.07}
 36%|████████████████████████████████████▏                                                                | 1026/2865 [1:05:59<1:30:28,  2.95s/it] 36%|████████████████████████████████████▏                                                                | 1027/2865 [1:06:02<1:30:24,  2.95s/it]                                                                                                                                                  {'loss': 11.0409, 'grad_norm': 1.0703125, 'learning_rate': 4.051230089642058e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21512.86, 'epoch': 1.08}
 36%|████████████████████████████████████▏                                                                | 1027/2865 [1:06:02<1:30:24,  2.95s/it] 36%|████████████████████████████████████▏                                                                | 1028/2865 [1:06:05<1:30:20,  2.95s/it]                                                                                                                                                  {'loss': 11.0203, 'grad_norm': 1.09375, 'learning_rate': 4.048840729733995e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20270.39, 'epoch': 1.08}
 36%|████████████████████████████████████▏                                                                | 1028/2865 [1:06:05<1:30:20,  2.95s/it] 36%|████████████████████████████████████▎                                                                | 1029/2865 [1:06:08<1:30:22,  2.95s/it]                                                                                                                                                  {'loss': 11.0143, 'grad_norm': 1.0546875, 'learning_rate': 4.046449071541538e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21005.78, 'epoch': 1.08}
 36%|████████████████████████████████████▎                                                                | 1029/2865 [1:06:08<1:30:22,  2.95s/it] 36%|████████████████████████████████████▎                                                                | 1030/2865 [1:06:11<1:30:16,  2.95s/it]                                                                                                                                                  {'loss': 11.0332, 'grad_norm': 1.0859375, 'learning_rate': 4.044055118613605e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20999.97, 'epoch': 1.08}
 36%|████████████████████████████████████▎                                                                | 1030/2865 [1:06:11<1:30:16,  2.95s/it] 36%|████████████████████████████████████▎                                                                | 1031/2865 [1:06:14<1:30:12,  2.95s/it]                                                                                                                                                  {'loss': 11.0143, 'grad_norm': 1.046875, 'learning_rate': 4.041658874502523e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21085.4, 'epoch': 1.08}
 36%|████████████████████████████████████▎                                                                | 1031/2865 [1:06:14<1:30:12,  2.95s/it] 36%|████████████████████████████████████▍                                                                | 1032/2865 [1:06:17<1:30:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0293, 'grad_norm': 1.0703125, 'learning_rate': 4.039260342764014e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21453.38, 'epoch': 1.08}
 36%|████████████████████████████████████▍                                                                | 1032/2865 [1:06:17<1:30:22,  2.96s/it] 36%|████████████████████████████████████▍                                                                | 1033/2865 [1:06:20<1:30:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0199, 'grad_norm': 1.078125, 'learning_rate': 4.0368595269571974e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20946.25, 'epoch': 1.08}
 36%|████████████████████████████████████▍                                                                | 1033/2865 [1:06:20<1:30:14,  2.96s/it] 36%|████████████████████████████████████▍                                                                | 1034/2865 [1:06:23<1:30:05,  2.95s/it]                                                                                                                                                  {'loss': 11.021, 'grad_norm': 1.1015625, 'learning_rate': 4.0344564306445815e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20464.86, 'epoch': 1.08}
 36%|████████████████████████████████████▍                                                                | 1034/2865 [1:06:23<1:30:05,  2.95s/it] 36%|████████████████████████████████████▍                                                                | 1035/2865 [1:06:26<1:30:01,  2.95s/it]                                                                                                                                                  {'loss': 11.028, 'grad_norm': 1.265625, 'learning_rate': 4.032051057392058e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21230.98, 'epoch': 1.08}
 36%|████████████████████████████████████▍                                                                | 1035/2865 [1:06:26<1:30:01,  2.95s/it] 36%|████████████████████████████████████▌                                                                | 1036/2865 [1:06:29<1:30:02,  2.95s/it]                                                                                                                                                  {'loss': 11.0359, 'grad_norm': 1.09375, 'learning_rate': 4.0296434107688966e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20196.61, 'epoch': 1.08}
 36%|████████████████████████████████████▌                                                                | 1036/2865 [1:06:29<1:30:02,  2.95s/it] 36%|████████████████████████████████████▌                                                                | 1037/2865 [1:06:32<1:29:58,  2.95s/it]                                                                                                                                                  {'loss': 11.0372, 'grad_norm': 1.1953125, 'learning_rate': 4.027233494347743e-05, 'memory/max_active (GiB)': 15.76, 'memory/max_allocated (GiB)': 15.76, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 18211.6, 'epoch': 1.09}
 36%|████████████████████████████████████▌                                                                | 1037/2865 [1:06:32<1:29:58,  2.95s/it] 36%|████████████████████████████████████▌                                                                | 1038/2865 [1:06:35<1:29:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0218, 'grad_norm': 1.0546875, 'learning_rate': 4.0248213117046076e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20473.27, 'epoch': 1.09}
 36%|████████████████████████████████████▌                                                                | 1038/2865 [1:06:35<1:29:59,  2.96s/it] 36%|████████████████████████████████████▋                                                                | 1039/2865 [1:06:38<1:29:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0102, 'grad_norm': 1.0703125, 'learning_rate': 4.0224068664188674e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20860.27, 'epoch': 1.09}
 36%|████████████████████████████████████▋                                                                | 1039/2865 [1:06:38<1:29:55,  2.96s/it] 36%|████████████████████████████████████▋                                                                | 1040/2865 [1:06:41<1:29:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0334, 'grad_norm': 1.1796875, 'learning_rate': 4.019990162073254e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21776.96, 'epoch': 1.09}
 36%|████████████████████████████████████▋                                                                | 1040/2865 [1:06:41<1:29:55,  2.96s/it] 36%|████████████████████████████████████▋                                                                | 1041/2865 [1:06:44<1:29:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0227, 'grad_norm': 1.2578125, 'learning_rate': 4.017571202253851e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21179.28, 'epoch': 1.09}
 36%|████████████████████████████████████▋                                                                | 1041/2865 [1:06:44<1:29:51,  2.96s/it] 36%|████████████████████████████████████▋                                                                | 1042/2865 [1:06:47<1:29:49,  2.96s/it]                                                                                                                                                  {'loss': 11.006, 'grad_norm': 1.0625, 'learning_rate': 4.015149990550091e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22069.73, 'epoch': 1.09}
 36%|████████████████████████████████████▋                                                                | 1042/2865 [1:06:47<1:29:49,  2.96s/it] 36%|████████████████████████████████████▊                                                                | 1043/2865 [1:06:49<1:29:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0165, 'grad_norm': 1.171875, 'learning_rate': 4.0127265305547466e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21610.21, 'epoch': 1.09}
 36%|████████████████████████████████████▊                                                                | 1043/2865 [1:06:49<1:29:43,  2.95s/it] 36%|████████████████████████████████████▊                                                                | 1044/2865 [1:06:52<1:29:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0324, 'grad_norm': 1.203125, 'learning_rate': 4.0103008258639275e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21664.92, 'epoch': 1.09}
 36%|████████████████████████████████████▊                                                                | 1044/2865 [1:06:52<1:29:41,  2.96s/it] 36%|████████████████████████████████████▊                                                                | 1045/2865 [1:06:55<1:29:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0235, 'grad_norm': 1.0859375, 'learning_rate': 4.007872880077073e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21006.04, 'epoch': 1.09}
 36%|████████████████████████████████████▊                                                                | 1045/2865 [1:06:55<1:29:48,  2.96s/it] 37%|████████████████████████████████████▊                                                                | 1046/2865 [1:06:58<1:29:40,  2.96s/it]                                                                                                                                                  {'loss': 11.01, 'grad_norm': 1.4296875, 'learning_rate': 4.0054426967969484e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20568.25, 'epoch': 1.1}
 37%|████████████████████████████████████▊                                                                | 1046/2865 [1:06:58<1:29:40,  2.96s/it] 37%|████████████████████████████████████▉                                                                | 1047/2865 [1:07:01<1:29:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0298, 'grad_norm': 1.046875, 'learning_rate': 4.00301027962964e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21330.79, 'epoch': 1.1}
 37%|████████████████████████████████████▉                                                                | 1047/2865 [1:07:01<1:29:36,  2.96s/it] 37%|████████████████████████████████████▉                                                                | 1048/2865 [1:07:04<1:29:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0155, 'grad_norm': 1.1171875, 'learning_rate': 4.000575632184547e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22382.9, 'epoch': 1.1}
 37%|████████████████████████████████████▉                                                                | 1048/2865 [1:07:04<1:29:33,  2.96s/it] 37%|████████████████████████████████████▉                                                                | 1049/2865 [1:07:07<1:29:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.25, 'learning_rate': 3.9981387580743814e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22011.28, 'epoch': 1.1}
 37%|████████████████████████████████████▉                                                                | 1049/2865 [1:07:07<1:29:29,  2.96s/it] 37%|█████████████████████████████████████                                                                | 1050/2865 [1:07:10<1:29:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0268, 'grad_norm': 1.1015625, 'learning_rate': 3.9956996609151557e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20075.12, 'epoch': 1.1}
 37%|█████████████████████████████████████                                                                | 1050/2865 [1:07:10<1:29:28,  2.96s/it] 37%|█████████████████████████████████████                                                                | 1051/2865 [1:07:13<1:29:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0353, 'grad_norm': 1.15625, 'learning_rate': 3.9932583443261826e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22058.36, 'epoch': 1.1}
 37%|█████████████████████████████████████                                                                | 1051/2865 [1:07:13<1:29:26,  2.96s/it] 37%|█████████████████████████████████████                                                                | 1052/2865 [1:07:16<1:29:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0142, 'grad_norm': 1.0703125, 'learning_rate': 3.9908148119300684e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20546.54, 'epoch': 1.1}
 37%|█████████████████████████████████████                                                                | 1052/2865 [1:07:16<1:29:21,  2.96s/it] 37%|█████████████████████████████████████                                                                | 1053/2865 [1:07:19<1:29:13,  2.95s/it]                                                                                                                                                  {'loss': 11.0417, 'grad_norm': 1.0625, 'learning_rate': 3.988369067352706e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22132.24, 'epoch': 1.1}
 37%|█████████████████████████████████████                                                                | 1053/2865 [1:07:19<1:29:13,  2.95s/it] 37%|█████████████████████████████████████▏                                                               | 1054/2865 [1:07:22<1:29:09,  2.95s/it]                                                                                                                                                  {'loss': 11.0081, 'grad_norm': 1.140625, 'learning_rate': 3.985921114223275e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20670.76, 'epoch': 1.1}
 37%|█████████████████████████████████████▏                                                               | 1054/2865 [1:07:22<1:29:09,  2.95s/it] 37%|█████████████████████████████████████▏                                                               | 1055/2865 [1:07:25<1:29:07,  2.95s/it]                                                                                                                                                  {'loss': 11.0291, 'grad_norm': 1.0625, 'learning_rate': 3.983470956174227e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22274.21, 'epoch': 1.1}
 37%|█████████████████████████████████████▏                                                               | 1055/2865 [1:07:25<1:29:07,  2.95s/it] 37%|█████████████████████████████████████▏                                                               | 1056/2865 [1:07:28<1:29:02,  2.95s/it]                                                                                                                                                  {'loss': 11.0213, 'grad_norm': 1.046875, 'learning_rate': 3.981018596841288e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21208.58, 'epoch': 1.11}
 37%|█████████████████████████████████████▏                                                               | 1056/2865 [1:07:28<1:29:02,  2.95s/it] 37%|█████████████████████████████████████▎                                                               | 1057/2865 [1:07:31<1:29:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0145, 'grad_norm': 1.0390625, 'learning_rate': 3.9785640398634505e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22238.94, 'epoch': 1.11}
 37%|█████████████████████████████████████▎                                                               | 1057/2865 [1:07:31<1:29:05,  2.96s/it] 37%|█████████████████████████████████████▎                                                               | 1058/2865 [1:07:34<1:29:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0516, 'grad_norm': 1.203125, 'learning_rate': 3.976107288882967e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21462.74, 'epoch': 1.11}
 37%|█████████████████████████████████████▎                                                               | 1058/2865 [1:07:34<1:29:05,  2.96s/it] 37%|█████████████████████████████████████▎                                                               | 1059/2865 [1:07:37<1:29:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.0546875, 'learning_rate': 3.9736483475453466e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22231.94, 'epoch': 1.11}
 37%|█████████████████████████████████████▎                                                               | 1059/2865 [1:07:37<1:29:03,  2.96s/it] 37%|█████████████████████████████████████▎                                                               | 1060/2865 [1:07:40<1:29:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0523, 'grad_norm': 1.0859375, 'learning_rate': 3.971187219499349e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21986.01, 'epoch': 1.11}
 37%|█████████████████████████████████████▎                                                               | 1060/2865 [1:07:40<1:29:06,  2.96s/it] 37%|█████████████████████████████████████▍                                                               | 1061/2865 [1:07:43<1:28:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0252, 'grad_norm': 1.0703125, 'learning_rate': 3.9687239083969766e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20948.26, 'epoch': 1.11}
 37%|█████████████████████████████████████▍                                                               | 1061/2865 [1:07:43<1:28:59,  2.96s/it] 37%|█████████████████████████████████████▍                                                               | 1062/2865 [1:07:46<1:28:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0408, 'grad_norm': 1.1796875, 'learning_rate': 3.966258417893474e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22463.69, 'epoch': 1.11}
 37%|█████████████████████████████████████▍                                                               | 1062/2865 [1:07:46<1:28:57,  2.96s/it] 37%|█████████████████████████████████████▍                                                               | 1063/2865 [1:07:49<1:28:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0014, 'grad_norm': 1.1484375, 'learning_rate': 3.9637907516473164e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20892.32, 'epoch': 1.11}
 37%|█████████████████████████████████████▍                                                               | 1063/2865 [1:07:49<1:28:51,  2.96s/it] 37%|█████████████████████████████████████▌                                                               | 1064/2865 [1:07:52<1:28:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0337, 'grad_norm': 1.09375, 'learning_rate': 3.961320913320211e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21436.51, 'epoch': 1.11}
 37%|█████████████████████████████████████▌                                                               | 1064/2865 [1:07:52<1:28:44,  2.96s/it] 37%|█████████████████████████████████████▌                                                               | 1065/2865 [1:07:55<1:28:38,  2.95s/it]                                                                                                                                                  {'loss': 11.0222, 'grad_norm': 1.0859375, 'learning_rate': 3.958848906577086e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21431.12, 'epoch': 1.12}
 37%|█████████████████████████████████████▌                                                               | 1065/2865 [1:07:55<1:28:38,  2.95s/it] 37%|█████████████████████████████████████▌                                                               | 1066/2865 [1:07:57<1:28:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0174, 'grad_norm': 1.09375, 'learning_rate': 3.956374735086088e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22043.8, 'epoch': 1.12}
 37%|█████████████████████████████████████▌                                                               | 1066/2865 [1:07:57<1:28:34,  2.95s/it] 37%|█████████████████████████████████████▌                                                               | 1067/2865 [1:08:00<1:28:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0343, 'grad_norm': 1.2265625, 'learning_rate': 3.953898402518576e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21402.2, 'epoch': 1.12}
 37%|█████████████████████████████████████▌                                                               | 1067/2865 [1:08:00<1:28:35,  2.96s/it] 37%|█████████████████████████████████████▋                                                               | 1068/2865 [1:08:03<1:28:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0333, 'grad_norm': 1.140625, 'learning_rate': 3.951419912549114e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22245.72, 'epoch': 1.12}
 37%|█████████████████████████████████████▋                                                               | 1068/2865 [1:08:03<1:28:31,  2.96s/it] 37%|█████████████████████████████████████▋                                                               | 1069/2865 [1:08:06<1:28:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0336, 'grad_norm': 1.125, 'learning_rate': 3.94893926885547e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21769.44, 'epoch': 1.12}
 37%|█████████████████████████████████████▋                                                               | 1069/2865 [1:08:06<1:28:23,  2.95s/it] 37%|█████████████████████████████████████▋                                                               | 1070/2865 [1:08:09<1:28:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0386, 'grad_norm': 1.046875, 'learning_rate': 3.946456475118606e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21721.66, 'epoch': 1.12}
 37%|█████████████████████████████████████▋                                                               | 1070/2865 [1:08:09<1:28:19,  2.95s/it] 37%|█████████████████████████████████████▊                                                               | 1071/2865 [1:08:12<1:28:17,  2.95s/it]                                                                                                                                                  {'loss': 11.0234, 'grad_norm': 1.078125, 'learning_rate': 3.943971535022675e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20090.78, 'epoch': 1.12}
 37%|█████████████████████████████████████▊                                                               | 1071/2865 [1:08:12<1:28:17,  2.95s/it] 37%|█████████████████████████████████████▊                                                               | 1072/2865 [1:08:15<1:28:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0289, 'grad_norm': 1.1015625, 'learning_rate': 3.9414844522550144e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22065.85, 'epoch': 1.12}
 37%|█████████████████████████████████████▊                                                               | 1072/2865 [1:08:15<1:28:19,  2.96s/it] 37%|█████████████████████████████████████▊                                                               | 1073/2865 [1:08:18<1:28:11,  2.95s/it]                                                                                                                                                  {'loss': 11.0132, 'grad_norm': 1.171875, 'learning_rate': 3.938995230506142e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21371.85, 'epoch': 1.12}
 37%|█████████████████████████████████████▊                                                               | 1073/2865 [1:08:18<1:28:11,  2.95s/it] 37%|█████████████████████████████████████▊                                                               | 1074/2865 [1:08:21<1:28:10,  2.95s/it]                                                                                                                                                  {'loss': 11.0475, 'grad_norm': 1.109375, 'learning_rate': 3.936503873469749e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20445.95, 'epoch': 1.12}
 37%|█████████████████████████████████████▊                                                               | 1074/2865 [1:08:21<1:28:10,  2.95s/it] 38%|█████████████████████████████████████▉                                                               | 1075/2865 [1:08:24<1:28:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0136, 'grad_norm': 1.171875, 'learning_rate': 3.9340103848426955e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20194.07, 'epoch': 1.13}
 38%|█████████████████████████████████████▉                                                               | 1075/2865 [1:08:24<1:28:11,  2.96s/it] 38%|█████████████████████████████████████▉                                                               | 1076/2865 [1:08:27<1:28:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0235, 'grad_norm': 1.078125, 'learning_rate': 3.9315147683250034e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20385.68, 'epoch': 1.13}
 38%|█████████████████████████████████████▉                                                               | 1076/2865 [1:08:27<1:28:06,  2.96s/it] 38%|█████████████████████████████████████▉                                                               | 1077/2865 [1:08:30<1:28:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0252, 'grad_norm': 1.1484375, 'learning_rate': 3.929017027619854e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22513.05, 'epoch': 1.13}
 38%|█████████████████████████████████████▉                                                               | 1077/2865 [1:08:30<1:28:04,  2.96s/it] 38%|██████████████████████████████████████                                                               | 1078/2865 [1:08:33<1:28:06,  2.96s/it]                                                                                                                                                  {'loss': 11.008, 'grad_norm': 1.109375, 'learning_rate': 3.9265171664335786e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21207.37, 'epoch': 1.13}
 38%|██████████████████████████████████████                                                               | 1078/2865 [1:08:33<1:28:06,  2.96s/it] 38%|██████████████████████████████████████                                                               | 1079/2865 [1:08:36<1:27:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0218, 'grad_norm': 1.0859375, 'learning_rate': 3.924015188475657e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21535.07, 'epoch': 1.13}
 38%|██████████████████████████████████████                                                               | 1079/2865 [1:08:36<1:27:57,  2.96s/it] 38%|██████████████████████████████████████                                                               | 1080/2865 [1:08:39<1:27:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0423, 'grad_norm': 1.1640625, 'learning_rate': 3.9215110974587094e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21155.58, 'epoch': 1.13}
 38%|██████████████████████████████████████                                                               | 1080/2865 [1:08:39<1:27:59,  2.96s/it] 38%|██████████████████████████████████████                                                               | 1081/2865 [1:08:42<1:28:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0233, 'grad_norm': 1.0859375, 'learning_rate': 3.9190048970984896e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21132.57, 'epoch': 1.13}
 38%|██████████████████████████████████████                                                               | 1081/2865 [1:08:42<1:28:01,  2.96s/it] 38%|██████████████████████████████████████▏                                                              | 1082/2865 [1:08:45<1:27:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0261, 'grad_norm': 1.0546875, 'learning_rate': 3.9164965911138846e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22166.92, 'epoch': 1.13}
 38%|██████████████████████████████████████▏                                                              | 1082/2865 [1:08:45<1:27:57,  2.96s/it] 38%|██████████████████████████████████████▏                                                              | 1083/2865 [1:08:48<1:27:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0228, 'grad_norm': 1.0703125, 'learning_rate': 3.913986183226903e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20627.93, 'epoch': 1.13}
 38%|██████████████████████████████████████▏                                                              | 1083/2865 [1:08:48<1:27:52,  2.96s/it] 38%|██████████████████████████████████████▏                                                              | 1084/2865 [1:08:51<1:27:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0272, 'grad_norm': 1.0546875, 'learning_rate': 3.9114736771626746e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21933.62, 'epoch': 1.14}
 38%|██████████████████████████████████████▏                                                              | 1084/2865 [1:08:51<1:27:51,  2.96s/it] 38%|██████████████████████████████████████▏                                                              | 1085/2865 [1:08:54<1:27:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0296, 'grad_norm': 1.046875, 'learning_rate': 3.9089590766494424e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21582.95, 'epoch': 1.14}
 38%|██████████████████████████████████████▏                                                              | 1085/2865 [1:08:54<1:27:50,  2.96s/it] 38%|██████████████████████████████████████▎                                                              | 1086/2865 [1:08:57<1:27:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0097, 'grad_norm': 1.0546875, 'learning_rate': 3.906442385418554e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22870.73, 'epoch': 1.14}
 38%|██████████████████████████████████████▎                                                              | 1086/2865 [1:08:57<1:27:51,  2.96s/it] 38%|██████████████████████████████████████▎                                                              | 1087/2865 [1:09:00<1:27:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0271, 'grad_norm': 1.1015625, 'learning_rate': 3.903923607204464e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21773.41, 'epoch': 1.14}
 38%|██████████████████████████████████████▎                                                              | 1087/2865 [1:09:00<1:27:47,  2.96s/it] 38%|██████████████████████████████████████▎                                                              | 1088/2865 [1:09:03<1:27:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0181, 'grad_norm': 1.140625, 'learning_rate': 3.9014027457447214e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22041.74, 'epoch': 1.14}
 38%|██████████████████████████████████████▎                                                              | 1088/2865 [1:09:03<1:27:44,  2.96s/it] 38%|██████████████████████████████████████▍                                                              | 1089/2865 [1:09:05<1:27:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0101, 'grad_norm': 1.203125, 'learning_rate': 3.898879804779966e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20946.98, 'epoch': 1.14}
 38%|██████████████████████████████████████▍                                                              | 1089/2865 [1:09:06<1:27:32,  2.96s/it] 38%|██████████████████████████████████████▍                                                              | 1090/2865 [1:09:08<1:27:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0299, 'grad_norm': 1.2265625, 'learning_rate': 3.8963547880539256e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21462.64, 'epoch': 1.14}
 38%|██████████████████████████████████████▍                                                              | 1090/2865 [1:09:08<1:27:25,  2.96s/it] 38%|██████████████████████████████████████▍                                                              | 1091/2865 [1:09:11<1:27:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0258, 'grad_norm': 1.1171875, 'learning_rate': 3.893827699313405e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21582.58, 'epoch': 1.14}
 38%|██████████████████████████████████████▍                                                              | 1091/2865 [1:09:11<1:27:23,  2.96s/it] 38%|██████████████████████████████████████▍                                                              | 1092/2865 [1:09:14<1:27:16,  2.95s/it]                                                                                                                                                  {'loss': 11.0424, 'grad_norm': 1.09375, 'learning_rate': 3.891298542308286e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21088.1, 'epoch': 1.14}
 38%|██████████████████████████████████████▍                                                              | 1092/2865 [1:09:14<1:27:16,  2.95s/it] 38%|██████████████████████████████████████▌                                                              | 1093/2865 [1:09:17<1:27:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0363, 'grad_norm': 1.078125, 'learning_rate': 3.8887673207915204e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22270.95, 'epoch': 1.14}
 38%|██████████████████████████████████████▌                                                              | 1093/2865 [1:09:17<1:27:16,  2.96s/it] 38%|██████████████████████████████████████▌                                                              | 1094/2865 [1:09:20<1:27:11,  2.95s/it]                                                                                                                                                  {'loss': 11.0254, 'grad_norm': 1.078125, 'learning_rate': 3.886234038519119e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21723.51, 'epoch': 1.15}
 38%|██████████████████████████████████████▌                                                              | 1094/2865 [1:09:20<1:27:11,  2.95s/it] 38%|██████████████████████████████████████▌                                                              | 1095/2865 [1:09:23<1:27:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0097, 'grad_norm': 1.09375, 'learning_rate': 3.8836986992501555e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20193.54, 'epoch': 1.15}
 38%|██████████████████████████████████████▌                                                              | 1095/2865 [1:09:23<1:27:11,  2.96s/it] 38%|██████████████████████████████████████▋                                                              | 1096/2865 [1:09:26<1:27:07,  2.96s/it]                                                                                                                                                  {'loss': 11.0095, 'grad_norm': 1.0546875, 'learning_rate': 3.8811613067467525e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21015.5, 'epoch': 1.15}
 38%|██████████████████████████████████████▋                                                              | 1096/2865 [1:09:26<1:27:07,  2.96s/it] 38%|██████████████████████████████████████▋                                                              | 1097/2865 [1:09:29<1:26:56,  2.95s/it]                                                                                                                                                  {'loss': 11.0004, 'grad_norm': 1.3515625, 'learning_rate': 3.8786218647740813e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20361.84, 'epoch': 1.15}
 38%|██████████████████████████████████████▋                                                              | 1097/2865 [1:09:29<1:26:56,  2.95s/it] 38%|██████████████████████████████████████▋                                                              | 1098/2865 [1:09:32<1:27:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0245, 'grad_norm': 1.3125, 'learning_rate': 3.876080377100354e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22983.6, 'epoch': 1.15}
 38%|██████████████████████████████████████▋                                                              | 1098/2865 [1:09:32<1:27:02,  2.96s/it] 38%|██████████████████████████████████████▋                                                              | 1099/2865 [1:09:35<1:27:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0494, 'grad_norm': 1.0859375, 'learning_rate': 3.873536847496817e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21032.93, 'epoch': 1.15}
 38%|██████████████████████████████████████▋                                                              | 1099/2865 [1:09:35<1:27:05,  2.96s/it] 38%|██████████████████████████████████████▊                                                              | 1100/2865 [1:09:38<1:27:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0205, 'grad_norm': 1.0546875, 'learning_rate': 3.870991279737748e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20757.8, 'epoch': 1.15}
 38%|██████████████████████████████████████▊                                                              | 1100/2865 [1:09:38<1:27:01,  2.96s/it][2025-10-12 04:18:30,829] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:58,  1.30s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:45,  1.10it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:10,  1.38it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:47,  1.67it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:34,  1.89it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:27,  2.02it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:21,  2.16it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:16,  2.29it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:14,  2.35it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:11,  2.44it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:10,  2.44it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:09,  2.48it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:08,  2.51it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.52it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:06,  2.54it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:05,  2.58it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:04,  2.59it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:06,  2.51it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:03,  2.62it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:05,  2.51it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.54it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:03,  2.54it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.52it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.57it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:02,  2.56it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:01,  2.55it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:01,  2.57it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:00,  2.58it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.55it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<01:00,  2.53it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<00:57,  2.64it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:59,  2.54it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:58,  2.57it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<01:00,  2.47it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:59,  2.49it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.53it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:58,  2.52it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:57,  2.53it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:56,  2.58it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:55,  2.58it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.52it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:54,  2.59it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:55,  2.54it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:54,  2.58it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:54,  2.57it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:53,  2.58it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:54,  2.51it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:53,  2.55it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:52,  2.55it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:52,  2.56it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:51,  2.59it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:51,  2.56it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:50,  2.58it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.53it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:50,  2.57it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.55it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:46,  2.71it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:49,  2.53it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.53it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:49,  2.49it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:49,  2.50it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:48,  2.52it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:48,  2.51it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:46,  2.58it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:47,  2.53it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:44,  2.64it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:46,  2.51it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.54it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.54it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.58it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:45,  2.51it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.51it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:44,  2.51it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.53it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.54it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:42,  2.54it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:41,  2.56it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.56it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.55it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.57it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:40,  2.53it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:39,  2.58it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:38,  2.61it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:38,  2.58it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.55it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:38,  2.53it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:37,  2.61it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.53it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.54it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.54it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:35,  2.59it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:35,  2.56it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.56it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.56it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.61it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:34,  2.57it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.54it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.54it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:33,  2.55it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.58it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.58it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:31,  2.58it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.55it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.58it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.55it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.58it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.57it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.59it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.54it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.58it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.54it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:27,  2.60it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:28,  2.52it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.54it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.55it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:26,  2.55it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.57it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.59it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:24,  2.56it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.57it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.53it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:23,  2.57it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.51it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.54it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.55it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:22,  2.54it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.58it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.55it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.57it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.58it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:20,  2.57it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.56it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.55it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:18,  2.60it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.54it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.56it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.53it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.60it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:17,  2.56it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.53it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.57it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:15,  2.57it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.52it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.57it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.57it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.57it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.52it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.53it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.57it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.51it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.54it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.55it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.55it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.58it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.57it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.57it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.57it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.53it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:08,  2.58it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.53it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.52it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.54it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.54it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.55it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.60it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.53it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.54it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.64it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.54it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.54it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.64it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:04,  2.49it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.49it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.50it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.54it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.52it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.52it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.55it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.55it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.53it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.91it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 11.001690864562988, 'eval_runtime': 77.8669, 'eval_samples_per_second': 152.273, 'eval_steps_per_second': 2.389, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.15}
 38%|██████████████████████████████████████▊                                                              | 1100/2865 [1:10:56<1:27:01,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.91it/s][A
                                                                                                                                                  [A[2025-10-12 04:19:48,716] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1100
 38%|██████████████████████████████████████▍                                                             | 1101/2865 [1:11:05<13:49:50, 28.23s/it]                                                                                                                                                  {'loss': 11.0189, 'grad_norm': 1.1484375, 'learning_rate': 3.868443677600449e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19611.92, 'epoch': 1.15}
 38%|██████████████████████████████████████▍                                                             | 1101/2865 [1:11:05<13:49:50, 28.23s/it] 38%|██████████████████████████████████████▍                                                             | 1102/2865 [1:11:08<10:06:33, 20.64s/it]                                                                                                                                                  {'loss': 11.0436, 'grad_norm': 1.203125, 'learning_rate': 3.86589404486524e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21349.84, 'epoch': 1.15}
 38%|██████████████████████████████████████▍                                                             | 1102/2865 [1:11:08<10:06:33, 20.64s/it] 38%|██████████████████████████████████████▉                                                              | 1103/2865 [1:11:11<7:30:28, 15.34s/it]                                                                                                                                                  {'loss': 11.0257, 'grad_norm': 1.078125, 'learning_rate': 3.863342385315454e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23756.18, 'epoch': 1.15}
 38%|██████████████████████████████████████▉                                                              | 1103/2865 [1:11:11<7:30:28, 15.34s/it] 39%|██████████████████████████████████████▉                                                              | 1104/2865 [1:11:14<5:41:05, 11.62s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.0546875, 'learning_rate': 3.8607887027374334e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22251.29, 'epoch': 1.16}
 39%|██████████████████████████████████████▉                                                              | 1104/2865 [1:11:14<5:41:05, 11.62s/it] 39%|██████████████████████████████████████▉                                                              | 1105/2865 [1:11:17<4:24:36,  9.02s/it]                                                                                                                                                  {'loss': 11.0233, 'grad_norm': 1.1171875, 'learning_rate': 3.85823300092052e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22731.95, 'epoch': 1.16}
 39%|██████████████████████████████████████▉                                                              | 1105/2865 [1:11:17<4:24:36,  9.02s/it] 39%|██████████████████████████████████████▉                                                              | 1106/2865 [1:11:20<3:30:58,  7.20s/it]                                                                                                                                                  {'loss': 11.0058, 'grad_norm': 1.3515625, 'learning_rate': 3.8556752836570544e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21192.39, 'epoch': 1.16}
 39%|██████████████████████████████████████▉                                                              | 1106/2865 [1:11:20<3:30:58,  7.20s/it] 39%|███████████████████████████████████████                                                              | 1107/2865 [1:11:23<2:53:32,  5.92s/it]                                                                                                                                                  {'loss': 11.0307, 'grad_norm': 1.0703125, 'learning_rate': 3.853115554742365e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21238.85, 'epoch': 1.16}
 39%|███████████████████████████████████████                                                              | 1107/2865 [1:11:23<2:53:32,  5.92s/it] 39%|███████████████████████████████████████                                                              | 1108/2865 [1:11:26<2:27:27,  5.04s/it]                                                                                                                                                  {'loss': 11.0184, 'grad_norm': 1.0703125, 'learning_rate': 3.850553817974768e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20260.38, 'epoch': 1.16}
 39%|███████████████████████████████████████                                                              | 1108/2865 [1:11:26<2:27:27,  5.04s/it] 39%|███████████████████████████████████████                                                              | 1109/2865 [1:11:29<2:09:08,  4.41s/it]                                                                                                                                                  {'loss': 11.0203, 'grad_norm': 1.078125, 'learning_rate': 3.847990077155558e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20748.64, 'epoch': 1.16}
 39%|███████████████████████████████████████                                                              | 1109/2865 [1:11:29<2:09:08,  4.41s/it] 39%|███████████████████████████████████████▏                                                             | 1110/2865 [1:11:32<1:56:19,  3.98s/it]                                                                                                                                                  {'loss': 11.0187, 'grad_norm': 1.2734375, 'learning_rate': 3.845424336089003e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21256.23, 'epoch': 1.16}
 39%|███████████████████████████████████████▏                                                             | 1110/2865 [1:11:32<1:56:19,  3.98s/it] 39%|███████████████████████████████████████▏                                                             | 1111/2865 [1:11:35<1:47:14,  3.67s/it]                                                                                                                                                  {'loss': 11.0166, 'grad_norm': 1.0703125, 'learning_rate': 3.8428565985823386e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20856.64, 'epoch': 1.16}
 39%|███████████████████████████████████████▏                                                             | 1111/2865 [1:11:35<1:47:14,  3.67s/it] 39%|███████████████████████████████████████▏                                                             | 1112/2865 [1:11:38<1:40:56,  3.45s/it]                                                                                                                                                  {'loss': 11.0009, 'grad_norm': 1.125, 'learning_rate': 3.8402868684457635e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20448.88, 'epoch': 1.16}
 39%|███████████████████████████████████████▏                                                             | 1112/2865 [1:11:38<1:40:56,  3.45s/it] 39%|███████████████████████████████████████▏                                                             | 1113/2865 [1:11:41<1:36:36,  3.31s/it]                                                                                                                                                  {'loss': 11.0185, 'grad_norm': 1.3203125, 'learning_rate': 3.837715149492435e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22902.74, 'epoch': 1.17}
 39%|███████████████████████████████████████▏                                                             | 1113/2865 [1:11:41<1:36:36,  3.31s/it] 39%|███████████████████████████████████████▎                                                             | 1114/2865 [1:11:44<1:33:26,  3.20s/it]                                                                                                                                                  {'loss': 11.0201, 'grad_norm': 1.2265625, 'learning_rate': 3.835141445538457e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21520.02, 'epoch': 1.17}
 39%|███████████████████████████████████████▎                                                             | 1114/2865 [1:11:44<1:33:26,  3.20s/it] 39%|███████████████████████████████████████▎                                                             | 1115/2865 [1:11:47<1:31:15,  3.13s/it]                                                                                                                                                  {'loss': 11.0327, 'grad_norm': 1.125, 'learning_rate': 3.8325657604028844e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22416.3, 'epoch': 1.17}
 39%|███████████████████████████████████████▎                                                             | 1115/2865 [1:11:47<1:31:15,  3.13s/it] 39%|███████████████████████████████████████▎                                                             | 1116/2865 [1:11:50<1:29:40,  3.08s/it]                                                                                                                                                  {'loss': 11.0196, 'grad_norm': 1.1484375, 'learning_rate': 3.8299880979077084e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21345.98, 'epoch': 1.17}
 39%|███████████████████████████████████████▎                                                             | 1116/2865 [1:11:50<1:29:40,  3.08s/it] 39%|███████████████████████████████████████▍                                                             | 1117/2865 [1:11:52<1:28:33,  3.04s/it]                                                                                                                                                  {'loss': 11.0219, 'grad_norm': 1.140625, 'learning_rate': 3.8274084618778543e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21548.63, 'epoch': 1.17}
 39%|███████████████████████████████████████▍                                                             | 1117/2865 [1:11:52<1:28:33,  3.04s/it] 39%|███████████████████████████████████████▍                                                             | 1118/2865 [1:11:55<1:27:47,  3.02s/it]                                                                                                                                                  {'loss': 11.0227, 'grad_norm': 1.1171875, 'learning_rate': 3.8248268561411774e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22252.8, 'epoch': 1.17}
 39%|███████████████████████████████████████▍                                                             | 1118/2865 [1:11:55<1:27:47,  3.02s/it] 39%|███████████████████████████████████████▍                                                             | 1119/2865 [1:11:58<1:27:12,  3.00s/it]                                                                                                                                                  {'loss': 11.0392, 'grad_norm': 1.0703125, 'learning_rate': 3.822243284528456e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21601.21, 'epoch': 1.17}
 39%|███████████████████████████████████████▍                                                             | 1119/2865 [1:11:58<1:27:12,  3.00s/it] 39%|███████████████████████████████████████▍                                                             | 1120/2865 [1:12:01<1:26:45,  2.98s/it]                                                                                                                                                  {'loss': 10.9999, 'grad_norm': 1.2265625, 'learning_rate': 3.819657750873383e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21280.75, 'epoch': 1.17}
 39%|███████████████████████████████████████▍                                                             | 1120/2865 [1:12:01<1:26:45,  2.98s/it] 39%|███████████████████████████████████████▌                                                             | 1121/2865 [1:12:04<1:26:27,  2.97s/it]                                                                                                                                                  {'loss': 11.0197, 'grad_norm': 1.0859375, 'learning_rate': 3.817070259012566e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21493.81, 'epoch': 1.17}
 39%|███████████████████████████████████████▌                                                             | 1121/2865 [1:12:04<1:26:27,  2.97s/it] 39%|███████████████████████████████████████▌                                                             | 1122/2865 [1:12:07<1:26:11,  2.97s/it]                                                                                                                                                  {'loss': 11.0122, 'grad_norm': 1.0859375, 'learning_rate': 3.814480812785516e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21413.22, 'epoch': 1.17}
 39%|███████████████████████████████████████▌                                                             | 1122/2865 [1:12:07<1:26:11,  2.97s/it] 39%|███████████████████████████████████████▌                                                             | 1123/2865 [1:12:10<1:26:06,  2.97s/it]                                                                                                                                                  {'loss': 11.0472, 'grad_norm': 1.078125, 'learning_rate': 3.811889416034645e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22633.22, 'epoch': 1.18}
 39%|███████████████████████████████████████▌                                                             | 1123/2865 [1:12:10<1:26:06,  2.97s/it] 39%|███████████████████████████████████████▌                                                             | 1124/2865 [1:12:13<1:25:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0117, 'grad_norm': 1.1171875, 'learning_rate': 3.8092960726052587e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22434.04, 'epoch': 1.18}
 39%|███████████████████████████████████████▌                                                             | 1124/2865 [1:12:13<1:25:58,  2.96s/it] 39%|███████████████████████████████████████▋                                                             | 1125/2865 [1:12:16<1:25:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0267, 'grad_norm': 1.2421875, 'learning_rate': 3.806700786345552e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22173.71, 'epoch': 1.18}
 39%|███████████████████████████████████████▋                                                             | 1125/2865 [1:12:16<1:25:51,  2.96s/it] 39%|███████████████████████████████████████▋                                                             | 1126/2865 [1:12:19<1:25:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0111, 'grad_norm': 1.0625, 'learning_rate': 3.804103561106603e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21081.63, 'epoch': 1.18}
 39%|███████████████████████████████████████▋                                                             | 1126/2865 [1:12:19<1:25:46,  2.96s/it] 39%|███████████████████████████████████████▋                                                             | 1127/2865 [1:12:22<1:25:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0143, 'grad_norm': 1.125, 'learning_rate': 3.8015044007423656e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21654.97, 'epoch': 1.18}
 39%|███████████████████████████████████████▋                                                             | 1127/2865 [1:12:22<1:25:38,  2.96s/it] 39%|███████████████████████████████████████▊                                                             | 1128/2865 [1:12:25<1:25:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0135, 'grad_norm': 1.0625, 'learning_rate': 3.798903309109667e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21614.14, 'epoch': 1.18}
 39%|███████████████████████████████████████▊                                                             | 1128/2865 [1:12:25<1:25:37,  2.96s/it] 39%|███████████████████████████████████████▊                                                             | 1129/2865 [1:12:28<1:25:28,  2.95s/it]                                                                                                                                                  {'loss': 11.0088, 'grad_norm': 1.1640625, 'learning_rate': 3.796300290068199e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19994.67, 'epoch': 1.18}
 39%|███████████████████████████████████████▊                                                             | 1129/2865 [1:12:28<1:25:28,  2.95s/it] 39%|███████████████████████████████████████▊                                                             | 1130/2865 [1:12:31<1:25:28,  2.96s/it]                                                                                                                                                  {'loss': 11.032, 'grad_norm': 1.0625, 'learning_rate': 3.7936953474805136e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21162.25, 'epoch': 1.18}
 39%|███████████████████████████████████████▊                                                             | 1130/2865 [1:12:31<1:25:28,  2.96s/it] 39%|███████████████████████████████████████▊                                                             | 1131/2865 [1:12:34<1:25:18,  2.95s/it]                                                                                                                                                  {'loss': 11.0395, 'grad_norm': 1.2109375, 'learning_rate': 3.791088485212017e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21703.91, 'epoch': 1.18}
 39%|███████████████████████████████████████▊                                                             | 1131/2865 [1:12:34<1:25:18,  2.95s/it] 40%|███████████████████████████████████████▉                                                             | 1132/2865 [1:12:37<1:25:18,  2.95s/it]                                                                                                                                                  {'loss': 11.0358, 'grad_norm': 1.0546875, 'learning_rate': 3.788479707130965e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21026.3, 'epoch': 1.19}
 40%|███████████████████████████████████████▉                                                             | 1132/2865 [1:12:37<1:25:18,  2.95s/it] 40%|███████████████████████████████████████▉                                                             | 1133/2865 [1:12:40<1:25:13,  2.95s/it]                                                                                                                                                  {'loss': 11.0505, 'grad_norm': 1.078125, 'learning_rate': 3.7858690171084545e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20862.0, 'epoch': 1.19}
 40%|███████████████████████████████████████▉                                                             | 1133/2865 [1:12:40<1:25:13,  2.95s/it] 40%|███████████████████████████████████████▉                                                             | 1134/2865 [1:12:43<1:25:12,  2.95s/it]                                                                                                                                                  {'loss': 11.0198, 'grad_norm': 1.1015625, 'learning_rate': 3.783256419018421e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21891.56, 'epoch': 1.19}
 40%|███████████████████████████████████████▉                                                             | 1134/2865 [1:12:43<1:25:12,  2.95s/it] 40%|████████████████████████████████████████                                                             | 1135/2865 [1:12:46<1:25:10,  2.95s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.046875, 'learning_rate': 3.780641916737631e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21926.86, 'epoch': 1.19}
 40%|████████████████████████████████████████                                                             | 1135/2865 [1:12:46<1:25:10,  2.95s/it] 40%|████████████████████████████████████████                                                             | 1136/2865 [1:12:49<1:25:04,  2.95s/it]                                                                                                                                                  {'loss': 11.004, 'grad_norm': 1.0390625, 'learning_rate': 3.778025514145676e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21337.4, 'epoch': 1.19}
 40%|████████████████████████████████████████                                                             | 1136/2865 [1:12:49<1:25:04,  2.95s/it] 40%|████████████████████████████████████████                                                             | 1137/2865 [1:12:52<1:25:02,  2.95s/it]                                                                                                                                                  {'loss': 11.0168, 'grad_norm': 1.0390625, 'learning_rate': 3.7754072151249654e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21072.56, 'epoch': 1.19}
 40%|████████████████████████████████████████                                                             | 1137/2865 [1:12:52<1:25:02,  2.95s/it] 40%|████████████████████████████████████████                                                             | 1138/2865 [1:12:54<1:25:00,  2.95s/it]                                                                                                                                                  {'loss': 11.0414, 'grad_norm': 1.078125, 'learning_rate': 3.772787023560728e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20824.46, 'epoch': 1.19}
 40%|████████████████████████████████████████                                                             | 1138/2865 [1:12:55<1:25:00,  2.95s/it] 40%|████████████████████████████████████████▏                                                            | 1139/2865 [1:12:57<1:24:55,  2.95s/it]                                                                                                                                                  {'loss': 11.0345, 'grad_norm': 1.1015625, 'learning_rate': 3.7701649433409967e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21372.23, 'epoch': 1.19}
 40%|████████████████████████████████████████▏                                                            | 1139/2865 [1:12:57<1:24:55,  2.95s/it] 40%|████████████████████████████████████████▏                                                            | 1140/2865 [1:13:00<1:24:55,  2.95s/it]                                                                                                                                                  {'loss': 11.0098, 'grad_norm': 1.1796875, 'learning_rate': 3.767540978356608e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20609.26, 'epoch': 1.19}
 40%|████████████████████████████████████████▏                                                            | 1140/2865 [1:13:00<1:24:55,  2.95s/it] 40%|████████████████████████████████████████▏                                                            | 1141/2865 [1:13:03<1:24:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0446, 'grad_norm': 1.0859375, 'learning_rate': 3.7649151325011954e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21092.52, 'epoch': 1.19}
 40%|████████████████████████████████████████▏                                                            | 1141/2865 [1:13:03<1:24:53,  2.95s/it] 40%|████████████████████████████████████████▎                                                            | 1142/2865 [1:13:06<1:24:49,  2.95s/it]                                                                                                                                                  {'loss': 11.031, 'grad_norm': 1.046875, 'learning_rate': 3.7622874096711834e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22091.45, 'epoch': 1.2}
 40%|████████████████████████████████████████▎                                                            | 1142/2865 [1:13:06<1:24:49,  2.95s/it] 40%|████████████████████████████████████████▎                                                            | 1143/2865 [1:13:09<1:24:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0481, 'grad_norm': 1.046875, 'learning_rate': 3.759657813765781e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20775.75, 'epoch': 1.2}
 40%|████████████████████████████████████████▎                                                            | 1143/2865 [1:13:09<1:24:43,  2.95s/it] 40%|████████████████████████████████████████▎                                                            | 1144/2865 [1:13:12<1:24:38,  2.95s/it]                                                                                                                                                  {'loss': 11.0095, 'grad_norm': 1.140625, 'learning_rate': 3.757026348686976e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21281.79, 'epoch': 1.2}
 40%|████████████████████████████████████████▎                                                            | 1144/2865 [1:13:12<1:24:38,  2.95s/it] 40%|████████████████████████████████████████▎                                                            | 1145/2865 [1:13:15<1:24:37,  2.95s/it]                                                                                                                                                  {'loss': 11.0349, 'grad_norm': 1.0859375, 'learning_rate': 3.754393018339531e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21991.48, 'epoch': 1.2}
 40%|████████████████████████████████████████▎                                                            | 1145/2865 [1:13:15<1:24:37,  2.95s/it] 40%|████████████████████████████████████████▍                                                            | 1146/2865 [1:13:18<1:24:36,  2.95s/it]                                                                                                                                                  {'loss': 11.0274, 'grad_norm': 1.0390625, 'learning_rate': 3.751757826630979e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20900.17, 'epoch': 1.2}
 40%|████████████████████████████████████████▍                                                            | 1146/2865 [1:13:18<1:24:36,  2.95s/it] 40%|████████████████████████████████████████▍                                                            | 1147/2865 [1:13:21<1:24:35,  2.95s/it]                                                                                                                                                  {'loss': 11.0172, 'grad_norm': 1.0390625, 'learning_rate': 3.749120777471609e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21662.49, 'epoch': 1.2}
 40%|████████████████████████████████████████▍                                                            | 1147/2865 [1:13:21<1:24:35,  2.95s/it] 40%|████████████████████████████████████████▍                                                            | 1148/2865 [1:13:24<1:24:37,  2.96s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.1484375, 'learning_rate': 3.746481874774471e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22543.34, 'epoch': 1.2}
 40%|████████████████████████████████████████▍                                                            | 1148/2865 [1:13:24<1:24:37,  2.96s/it] 40%|████████████████████████████████████████▌                                                            | 1149/2865 [1:13:27<1:24:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0277, 'grad_norm': 1.09375, 'learning_rate': 3.7438411224553646e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22533.41, 'epoch': 1.2}
 40%|████████████████████████████████████████▌                                                            | 1149/2865 [1:13:27<1:24:36,  2.96s/it] 40%|████████████████████████████████████████▌                                                            | 1150/2865 [1:13:30<1:24:31,  2.96s/it]                                                                                                                                                  {'loss': 11.014, 'grad_norm': 1.03125, 'learning_rate': 3.741198524432832e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21752.25, 'epoch': 1.2}
 40%|████████████████████████████████████████▌                                                            | 1150/2865 [1:13:30<1:24:31,  2.96s/it] 40%|████████████████████████████████████████▌                                                            | 1151/2865 [1:13:33<1:24:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0361, 'grad_norm': 1.0546875, 'learning_rate': 3.738554084628157e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21413.31, 'epoch': 1.21}
 40%|████████████████████████████████████████▌                                                            | 1151/2865 [1:13:33<1:24:30,  2.96s/it] 40%|████████████████████████████████████████▌                                                            | 1152/2865 [1:13:36<1:24:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0273, 'grad_norm': 1.078125, 'learning_rate': 3.735907806965353e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21387.46, 'epoch': 1.21}
 40%|████████████████████████████████████████▌                                                            | 1152/2865 [1:13:36<1:24:26,  2.96s/it] 40%|████████████████████████████████████████▋                                                            | 1153/2865 [1:13:39<1:24:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0084, 'grad_norm': 1.03125, 'learning_rate': 3.7332596953711636e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20475.2, 'epoch': 1.21}
 40%|████████████████████████████████████████▋                                                            | 1153/2865 [1:13:39<1:24:24,  2.96s/it] 40%|████████████████████████████████████████▋                                                            | 1154/2865 [1:13:42<1:24:26,  2.96s/it]                                                                                                                                                  {'loss': 11.02, 'grad_norm': 1.046875, 'learning_rate': 3.7306097537750525e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22923.06, 'epoch': 1.21}
 40%|████████████████████████████████████████▋                                                            | 1154/2865 [1:13:42<1:24:26,  2.96s/it] 40%|████████████████████████████████████████▋                                                            | 1155/2865 [1:13:45<1:24:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0274, 'grad_norm': 1.0546875, 'learning_rate': 3.727957986109199e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22366.12, 'epoch': 1.21}
 40%|████████████████████████████████████████▋                                                            | 1155/2865 [1:13:45<1:24:25,  2.96s/it] 40%|████████████████████████████████████████▊                                                            | 1156/2865 [1:13:48<1:24:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0197, 'grad_norm': 1.03125, 'learning_rate': 3.725304396308492e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21115.21, 'epoch': 1.21}
 40%|████████████████████████████████████████▊                                                            | 1156/2865 [1:13:48<1:24:23,  2.96s/it] 40%|████████████████████████████████████████▊                                                            | 1157/2865 [1:13:51<1:24:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.046875, 'learning_rate': 3.722648988310524e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22762.52, 'epoch': 1.21}
 40%|████████████████████████████████████████▊                                                            | 1157/2865 [1:13:51<1:24:21,  2.96s/it] 40%|████████████████████████████████████████▊                                                            | 1158/2865 [1:13:54<1:24:15,  2.96s/it]                                                                                                                                                  {'loss': 11.014, 'grad_norm': 1.0390625, 'learning_rate': 3.7199917660555855e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20049.75, 'epoch': 1.21}
 40%|████████████████████████████████████████▊                                                            | 1158/2865 [1:13:54<1:24:15,  2.96s/it] 40%|████████████████████████████████████████▊                                                            | 1159/2865 [1:13:57<1:24:07,  2.96s/it]                                                                                                                                                  {'loss': 11.0202, 'grad_norm': 1.1171875, 'learning_rate': 3.71733273348666e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21751.36, 'epoch': 1.21}
 40%|████████████████████████████████████████▊                                                            | 1159/2865 [1:13:57<1:24:07,  2.96s/it] 40%|████████████████████████████████████████▉                                                            | 1160/2865 [1:14:00<1:24:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0251, 'grad_norm': 1.0546875, 'learning_rate': 3.7146718945494175e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22228.59, 'epoch': 1.21}
 40%|████████████████████████████████████████▉                                                            | 1160/2865 [1:14:00<1:24:04,  2.96s/it] 41%|████████████████████████████████████████▉                                                            | 1161/2865 [1:14:03<1:24:01,  2.96s/it]                                                                                                                                                  {'loss': 10.9987, 'grad_norm': 1.2734375, 'learning_rate': 3.7120092531922056e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20561.14, 'epoch': 1.22}
 41%|████████████████████████████████████████▉                                                            | 1161/2865 [1:14:03<1:24:01,  2.96s/it] 41%|████████████████████████████████████████▉                                                            | 1162/2865 [1:14:05<1:23:58,  2.96s/it]                                                                                                                                                  {'loss': 11.026, 'grad_norm': 1.078125, 'learning_rate': 3.7093448133660496e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20661.94, 'epoch': 1.22}
 41%|████████████████████████████████████████▉                                                            | 1162/2865 [1:14:05<1:23:58,  2.96s/it] 41%|████████████████████████████████████████▉                                                            | 1163/2865 [1:14:08<1:23:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0115, 'grad_norm': 1.0390625, 'learning_rate': 3.7066785790246416e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22162.19, 'epoch': 1.22}
 41%|████████████████████████████████████████▉                                                            | 1163/2865 [1:14:08<1:23:57,  2.96s/it] 41%|█████████████████████████████████████████                                                            | 1164/2865 [1:14:11<1:23:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0219, 'grad_norm': 1.0703125, 'learning_rate': 3.7040105541243386e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21617.4, 'epoch': 1.22}
 41%|█████████████████████████████████████████                                                            | 1164/2865 [1:14:11<1:23:50,  2.96s/it] 41%|█████████████████████████████████████████                                                            | 1165/2865 [1:14:14<1:23:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0396, 'grad_norm': 1.0390625, 'learning_rate': 3.7013407426241514e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21640.8, 'epoch': 1.22}
 41%|█████████████████████████████████████████                                                            | 1165/2865 [1:14:14<1:23:45,  2.96s/it] 41%|█████████████████████████████████████████                                                            | 1166/2865 [1:14:17<1:23:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0187, 'grad_norm': 1.046875, 'learning_rate': 3.6986691484857446e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21327.37, 'epoch': 1.22}
 41%|█████████████████████████████████████████                                                            | 1166/2865 [1:14:17<1:23:41,  2.96s/it] 41%|█████████████████████████████████████████▏                                                           | 1167/2865 [1:14:20<1:23:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0088, 'grad_norm': 1.046875, 'learning_rate': 3.6959957756734276e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20744.98, 'epoch': 1.22}
 41%|█████████████████████████████████████████▏                                                           | 1167/2865 [1:14:20<1:23:39,  2.96s/it] 41%|█████████████████████████████████████████▏                                                           | 1168/2865 [1:14:23<1:23:28,  2.95s/it]                                                                                                                                                  {'loss': 11.0027, 'grad_norm': 1.34375, 'learning_rate': 3.693320628154148e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20901.85, 'epoch': 1.22}
 41%|█████████████████████████████████████████▏                                                           | 1168/2865 [1:14:23<1:23:28,  2.95s/it] 41%|█████████████████████████████████████████▏                                                           | 1169/2865 [1:14:26<1:23:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0225, 'grad_norm': 1.171875, 'learning_rate': 3.6906437098974876e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21084.29, 'epoch': 1.22}
 41%|█████████████████████████████████████████▏                                                           | 1169/2865 [1:14:26<1:23:23,  2.95s/it] 41%|█████████████████████████████████████████▏                                                           | 1170/2865 [1:14:29<1:23:24,  2.95s/it]                                                                                                                                                  {'loss': 11.0469, 'grad_norm': 1.2578125, 'learning_rate': 3.6879650248756557e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22612.48, 'epoch': 1.23}
 41%|█████████████████████████████████████████▏                                                           | 1170/2865 [1:14:29<1:23:24,  2.95s/it] 41%|█████████████████████████████████████████▎                                                           | 1171/2865 [1:14:32<1:23:22,  2.95s/it]                                                                                                                                                  {'loss': 11.0329, 'grad_norm': 1.0546875, 'learning_rate': 3.685284577063483e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19880.42, 'epoch': 1.23}
 41%|█████████████████████████████████████████▎                                                           | 1171/2865 [1:14:32<1:23:22,  2.95s/it] 41%|█████████████████████████████████████████▎                                                           | 1172/2865 [1:14:35<1:23:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0267, 'grad_norm': 1.171875, 'learning_rate': 3.682602370438416e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22024.77, 'epoch': 1.23}
 41%|█████████████████████████████████████████▎                                                           | 1172/2865 [1:14:35<1:23:19,  2.95s/it] 41%|█████████████████████████████████████████▎                                                           | 1173/2865 [1:14:38<1:23:18,  2.95s/it]                                                                                                                                                  {'loss': 11.0305, 'grad_norm': 1.1015625, 'learning_rate': 3.679918408980512e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21905.87, 'epoch': 1.23}
 41%|█████████████████████████████████████████▎                                                           | 1173/2865 [1:14:38<1:23:18,  2.95s/it] 41%|█████████████████████████████████████████▍                                                           | 1174/2865 [1:14:41<1:23:16,  2.95s/it]                                                                                                                                                  {'loss': 11.0208, 'grad_norm': 1.09375, 'learning_rate': 3.6772326966724305e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20794.42, 'epoch': 1.23}
 41%|█████████████████████████████████████████▍                                                           | 1174/2865 [1:14:41<1:23:16,  2.95s/it] 41%|█████████████████████████████████████████▍                                                           | 1175/2865 [1:14:44<1:23:12,  2.95s/it]                                                                                                                                                  {'loss': 11.0148, 'grad_norm': 1.0859375, 'learning_rate': 3.674545237499431e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21511.22, 'epoch': 1.23}
 41%|█████████████████████████████████████████▍                                                           | 1175/2865 [1:14:44<1:23:12,  2.95s/it] 41%|█████████████████████████████████████████▍                                                           | 1176/2865 [1:14:47<1:23:05,  2.95s/it]                                                                                                                                                  {'loss': 11.0185, 'grad_norm': 1.1640625, 'learning_rate': 3.671856035449364e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21186.97, 'epoch': 1.23}
 41%|█████████████████████████████████████████▍                                                           | 1176/2865 [1:14:47<1:23:05,  2.95s/it] 41%|█████████████████████████████████████████▍                                                           | 1177/2865 [1:14:50<1:23:05,  2.95s/it]                                                                                                                                                  {'loss': 11.0359, 'grad_norm': 1.0625, 'learning_rate': 3.669165094512665e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21810.13, 'epoch': 1.23}
 41%|█████████████████████████████████████████▍                                                           | 1177/2865 [1:14:50<1:23:05,  2.95s/it] 41%|█████████████████████████████████████████▌                                                           | 1178/2865 [1:14:53<1:23:01,  2.95s/it]                                                                                                                                                  {'loss': 11.0146, 'grad_norm': 1.1015625, 'learning_rate': 3.6664724186823525e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21700.68, 'epoch': 1.23}
 41%|█████████████████████████████████████████▌                                                           | 1178/2865 [1:14:53<1:23:01,  2.95s/it] 41%|█████████████████████████████████████████▌                                                           | 1179/2865 [1:14:56<1:22:56,  2.95s/it]                                                                                                                                                  {'loss': 11.0213, 'grad_norm': 1.0546875, 'learning_rate': 3.6637780119540176e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21687.42, 'epoch': 1.23}
 41%|█████████████████████████████████████████▌                                                           | 1179/2865 [1:14:56<1:22:56,  2.95s/it] 41%|█████████████████████████████████████████▌                                                           | 1180/2865 [1:14:59<1:23:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0327, 'grad_norm': 1.0625, 'learning_rate': 3.66108187832582e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20896.7, 'epoch': 1.24}
 41%|█████████████████████████████████████████▌                                                           | 1180/2865 [1:14:59<1:23:02,  2.96s/it] 41%|█████████████████████████████████████████▋                                                           | 1181/2865 [1:15:02<1:22:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0306, 'grad_norm': 1.0546875, 'learning_rate': 3.658384021798482e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22212.81, 'epoch': 1.24}
 41%|█████████████████████████████████████████▋                                                           | 1181/2865 [1:15:02<1:22:59,  2.96s/it] 41%|█████████████████████████████████████████▋                                                           | 1182/2865 [1:15:05<1:22:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0228, 'grad_norm': 1.0859375, 'learning_rate': 3.655684446375284e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20050.49, 'epoch': 1.24}
 41%|█████████████████████████████████████████▋                                                           | 1182/2865 [1:15:05<1:22:55,  2.96s/it] 41%|█████████████████████████████████████████▋                                                           | 1183/2865 [1:15:08<1:22:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0162, 'grad_norm': 1.078125, 'learning_rate': 3.6529831560620535e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20651.48, 'epoch': 1.24}
 41%|█████████████████████████████████████████▋                                                           | 1183/2865 [1:15:08<1:22:57,  2.96s/it] 41%|█████████████████████████████████████████▋                                                           | 1184/2865 [1:15:10<1:22:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0358, 'grad_norm': 1.0390625, 'learning_rate': 3.6502801548671665e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20685.92, 'epoch': 1.24}
 41%|█████████████████████████████████████████▋                                                           | 1184/2865 [1:15:10<1:22:52,  2.96s/it] 41%|█████████████████████████████████████████▊                                                           | 1185/2865 [1:15:13<1:22:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0106, 'grad_norm': 1.171875, 'learning_rate': 3.647575446801536e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22012.28, 'epoch': 1.24}
 41%|█████████████████████████████████████████▊                                                           | 1185/2865 [1:15:13<1:22:50,  2.96s/it] 41%|█████████████████████████████████████████▊                                                           | 1186/2865 [1:15:16<1:22:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0355, 'grad_norm': 1.34375, 'learning_rate': 3.644869035878606e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20560.11, 'epoch': 1.24}
 41%|█████████████████████████████████████████▊                                                           | 1186/2865 [1:15:16<1:22:50,  2.96s/it] 41%|█████████████████████████████████████████▊                                                           | 1187/2865 [1:15:19<1:22:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0129, 'grad_norm': 1.09375, 'learning_rate': 3.6421609261143505e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21088.54, 'epoch': 1.24}
 41%|█████████████████████████████████████████▊                                                           | 1187/2865 [1:15:19<1:22:46,  2.96s/it] 41%|█████████████████████████████████████████▉                                                           | 1188/2865 [1:15:22<1:22:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0105, 'grad_norm': 1.0859375, 'learning_rate': 3.639451121527263e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21605.9, 'epoch': 1.24}
 41%|█████████████████████████████████████████▉                                                           | 1188/2865 [1:15:22<1:22:41,  2.96s/it] 42%|█████████████████████████████████████████▉                                                           | 1189/2865 [1:15:25<1:22:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0242, 'grad_norm': 1.21875, 'learning_rate': 3.636739626138352e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21130.54, 'epoch': 1.25}
 42%|█████████████████████████████████████████▉                                                           | 1189/2865 [1:15:25<1:22:34,  2.96s/it] 42%|█████████████████████████████████████████▉                                                           | 1190/2865 [1:15:28<1:22:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0196, 'grad_norm': 1.171875, 'learning_rate': 3.6340264439711333e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22789.82, 'epoch': 1.25}
 42%|█████████████████████████████████████████▉                                                           | 1190/2865 [1:15:28<1:22:33,  2.96s/it] 42%|█████████████████████████████████████████▉                                                           | 1191/2865 [1:15:31<1:22:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0257, 'grad_norm': 1.09375, 'learning_rate': 3.63131157905163e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20091.02, 'epoch': 1.25}
 42%|█████████████████████████████████████████▉                                                           | 1191/2865 [1:15:31<1:22:30,  2.96s/it] 42%|██████████████████████████████████████████                                                           | 1192/2865 [1:15:34<1:22:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0328, 'grad_norm': 1.0859375, 'learning_rate': 3.628595035408357e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21435.55, 'epoch': 1.25}
 42%|██████████████████████████████████████████                                                           | 1192/2865 [1:15:34<1:22:26,  2.96s/it] 42%|██████████████████████████████████████████                                                           | 1193/2865 [1:15:37<1:22:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0141, 'grad_norm': 1.15625, 'learning_rate': 3.625876817072324e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20186.33, 'epoch': 1.25}
 42%|██████████████████████████████████████████                                                           | 1193/2865 [1:15:37<1:22:27,  2.96s/it] 42%|██████████████████████████████████████████                                                           | 1194/2865 [1:15:40<1:22:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0358, 'grad_norm': 1.0703125, 'learning_rate': 3.6231569280770235e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20153.52, 'epoch': 1.25}
 42%|██████████████████████████████████████████                                                           | 1194/2865 [1:15:40<1:22:23,  2.96s/it] 42%|██████████████████████████████████████████▏                                                          | 1195/2865 [1:15:43<1:22:19,  2.96s/it]                                                                                                                                                  {'loss': 10.9993, 'grad_norm': 1.0703125, 'learning_rate': 3.6204353724584285e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22379.28, 'epoch': 1.25}
 42%|██████████████████████████████████████████▏                                                          | 1195/2865 [1:15:43<1:22:19,  2.96s/it] 42%|██████████████████████████████████████████▏                                                          | 1196/2865 [1:15:46<1:22:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0341, 'grad_norm': 1.0859375, 'learning_rate': 3.617712154254984e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20953.23, 'epoch': 1.25}
 42%|██████████████████████████████████████████▏                                                          | 1196/2865 [1:15:46<1:22:15,  2.96s/it] 42%|██████████████████████████████████████████▏                                                          | 1197/2865 [1:15:49<1:22:06,  2.95s/it]                                                                                                                                                  {'loss': 10.9912, 'grad_norm': 1.0546875, 'learning_rate': 3.614987277507602e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21492.55, 'epoch': 1.25}
 42%|██████████████████████████████████████████▏                                                          | 1197/2865 [1:15:49<1:22:06,  2.95s/it] 42%|██████████████████████████████████████████▏                                                          | 1198/2865 [1:15:52<1:22:03,  2.95s/it]                                                                                                                                                  {'loss': 11.0274, 'grad_norm': 1.0703125, 'learning_rate': 3.612260746259658e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21572.54, 'epoch': 1.25}
 42%|██████████████████████████████████████████▏                                                          | 1198/2865 [1:15:52<1:22:03,  2.95s/it] 42%|██████████████████████████████████████████▎                                                          | 1199/2865 [1:15:55<1:22:00,  2.95s/it]                                                                                                                                                  {'loss': 10.9865, 'grad_norm': 1.09375, 'learning_rate': 3.609532564556979e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21718.55, 'epoch': 1.26}
 42%|██████████████████████████████████████████▎                                                          | 1199/2865 [1:15:55<1:22:00,  2.95s/it] 42%|██████████████████████████████████████████▎                                                          | 1200/2865 [1:15:58<1:21:58,  2.95s/it]                                                                                                                                                  {'loss': 11.0231, 'grad_norm': 1.09375, 'learning_rate': 3.606802736447843e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22062.04, 'epoch': 1.26}
 42%|██████████████████████████████████████████▎                                                          | 1200/2865 [1:15:58<1:21:58,  2.95s/it][2025-10-12 04:24:50,612] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<04:02,  1.32s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<02:49,  1.07it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:11,  1.37it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:49,  1.64it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:36,  1.86it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:26,  2.05it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:22,  2.15it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:17,  2.28it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:14,  2.36it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:12,  2.41it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:10,  2.45it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:08,  2.50it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:08,  2.51it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.51it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:07,  2.50it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:05,  2.57it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:04,  2.60it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:05,  2.52it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:04,  2.55it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:02,  2.63it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:02,  2.59it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:04,  2.51it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.53it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:03,  2.54it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:01,  2.59it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:01,  2.58it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:02,  2.53it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:01,  2.54it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:01,  2.53it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<00:59,  2.60it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<00:59,  2.58it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<01:00,  2.51it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<01:00,  2.50it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<01:00,  2.49it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:58,  2.54it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:59,  2.51it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.57it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:56,  2.57it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:56,  2.55it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:55,  2.58it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.55it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:55,  2.58it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:55,  2.55it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:52,  2.65it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:53,  2.58it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.51it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.54it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:53,  2.55it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.52it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:52,  2.56it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.54it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:51,  2.59it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:50,  2.59it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:49,  2.62it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:52,  2.48it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:51,  2.51it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:48,  2.61it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:49,  2.55it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.52it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:49,  2.52it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:47,  2.60it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:48,  2.53it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:47,  2.55it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.53it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.57it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.55it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:45,  2.58it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.54it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:44,  2.57it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.57it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.56it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:43,  2.56it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:43,  2.56it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:42,  2.56it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.57it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:41,  2.61it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:42,  2.53it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.56it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.52it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.55it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:39,  2.61it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:39,  2.56it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:40,  2.51it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:39,  2.53it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:39,  2.50it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:38,  2.54it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.52it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:38,  2.52it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.54it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.55it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:35,  2.59it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:35,  2.58it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:34,  2.61it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.52it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.60it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:34,  2.55it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.54it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.55it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.54it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.57it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:31,  2.60it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:32,  2.54it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.56it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.57it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:30,  2.57it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.58it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.57it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:30,  2.52it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.54it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.55it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.56it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:27,  2.58it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.57it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.57it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:26,  2.56it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.57it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.60it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.54it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.54it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.54it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.56it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:24,  2.52it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.59it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.53it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.56it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:22,  2.58it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.55it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.55it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:20,  2.59it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.56it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:19,  2.66it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:20,  2.53it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.51it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.54it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:19,  2.52it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.51it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.53it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.53it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.54it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.58it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.52it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.51it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.54it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.58it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.55it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.61it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:13,  2.59it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.56it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.57it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.63it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.54it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.53it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.59it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.68it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.53it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.50it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.51it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.53it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.51it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.56it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.60it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.55it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.62it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.53it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.55it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.65it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.52it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.57it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.53it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.55it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.55it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.58it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.56it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.59it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.55it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.52it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.55it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.54it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.57it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.92it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.99924087524414, 'eval_runtime': 77.997, 'eval_samples_per_second': 152.019, 'eval_steps_per_second': 2.385, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.26}
 42%|██████████████████████████████████████████▎                                                          | 1200/2865 [1:17:16<1:21:58,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.92it/s][A
                                                                                                                                                  [A[2025-10-12 04:26:08,652] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1200
 42%|█████████████████████████████████████████▉                                                          | 1201/2865 [1:17:26<13:07:55, 28.41s/it]                                                                                                                                                  {'loss': 11.0086, 'grad_norm': 1.0703125, 'learning_rate': 3.6040712659829716e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 20032.26, 'epoch': 1.26}
 42%|█████████████████████████████████████████▉                                                          | 1201/2865 [1:17:26<13:07:55, 28.41s/it] 42%|██████████████████████████████████████████▎                                                          | 1202/2865 [1:17:29<9:35:46, 20.77s/it]                                                                                                                                                  {'loss': 11.0278, 'grad_norm': 1.2578125, 'learning_rate': 3.6013381572155216e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21397.91, 'epoch': 1.26}
 42%|██████████████████████████████████████████▎                                                          | 1202/2865 [1:17:29<9:35:46, 20.77s/it] 42%|██████████████████████████████████████████▍                                                          | 1203/2865 [1:17:31<7:07:18, 15.43s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.2421875, 'learning_rate': 3.5986034142010824e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22037.79, 'epoch': 1.26}
 42%|██████████████████████████████████████████▍                                                          | 1203/2865 [1:17:32<7:07:18, 15.43s/it] 42%|██████████████████████████████████████████▍                                                          | 1204/2865 [1:17:34<5:23:22, 11.68s/it]                                                                                                                                                  {'loss': 11.0173, 'grad_norm': 1.125, 'learning_rate': 3.5958670409976675e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21048.44, 'epoch': 1.26}
 42%|██████████████████████████████████████████▍                                                          | 1204/2865 [1:17:34<5:23:22, 11.68s/it] 42%|██████████████████████████████████████████▍                                                          | 1205/2865 [1:17:37<4:10:46,  9.06s/it]                                                                                                                                                  {'loss': 11.0535, 'grad_norm': 1.125, 'learning_rate': 3.59312904166571e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20741.59, 'epoch': 1.26}
 42%|██████████████████████████████████████████▍                                                          | 1205/2865 [1:17:37<4:10:46,  9.06s/it] 42%|██████████████████████████████████████████▌                                                          | 1206/2865 [1:17:40<3:19:53,  7.23s/it]                                                                                                                                                  {'loss': 11.0153, 'grad_norm': 1.2421875, 'learning_rate': 3.590389420268056e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21551.19, 'epoch': 1.26}
 42%|██████████████████████████████████████████▌                                                          | 1206/2865 [1:17:40<3:19:53,  7.23s/it] 42%|██████████████████████████████████████████▌                                                          | 1207/2865 [1:17:43<2:44:25,  5.95s/it]                                                                                                                                                  {'loss': 11.0169, 'grad_norm': 1.2890625, 'learning_rate': 3.587648180869958e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21562.33, 'epoch': 1.26}
 42%|██████████████████████████████████████████▌                                                          | 1207/2865 [1:17:43<2:44:25,  5.95s/it] 42%|██████████████████████████████████████████▌                                                          | 1208/2865 [1:17:46<2:19:40,  5.06s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.0859375, 'learning_rate': 3.58490532753907e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21611.67, 'epoch': 1.26}
 42%|██████████████████████████████████████████▌                                                          | 1208/2865 [1:17:46<2:19:40,  5.06s/it] 42%|██████████████████████████████████████████▌                                                          | 1209/2865 [1:17:49<2:02:12,  4.43s/it]                                                                                                                                                  {'loss': 11.0047, 'grad_norm': 1.0703125, 'learning_rate': 3.5821608643454404e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20889.06, 'epoch': 1.27}
 42%|██████████████████████████████████████████▌                                                          | 1209/2865 [1:17:49<2:02:12,  4.43s/it] 42%|██████████████████████████████████████████▋                                                          | 1210/2865 [1:17:52<1:50:00,  3.99s/it]                                                                                                                                                  {'loss': 11.0301, 'grad_norm': 1.203125, 'learning_rate': 3.579414795361507e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21376.47, 'epoch': 1.27}
 42%|██████████████████████████████████████████▋                                                          | 1210/2865 [1:17:52<1:50:00,  3.99s/it] 42%|██████████████████████████████████████████▋                                                          | 1211/2865 [1:17:55<1:41:19,  3.68s/it]                                                                                                                                                  {'loss': 11.0108, 'grad_norm': 1.109375, 'learning_rate': 3.5766671246620885e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20946.29, 'epoch': 1.27}
 42%|██████████████████████████████████████████▋                                                          | 1211/2865 [1:17:55<1:41:19,  3.68s/it] 42%|██████████████████████████████████████████▋                                                          | 1212/2865 [1:17:58<1:35:18,  3.46s/it]                                                                                                                                                  {'loss': 11.0317, 'grad_norm': 1.0546875, 'learning_rate': 3.573917856324383e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22067.02, 'epoch': 1.27}
 42%|██████████████████████████████████████████▋                                                          | 1212/2865 [1:17:58<1:35:18,  3.46s/it] 42%|██████████████████████████████████████████▊                                                          | 1213/2865 [1:18:01<1:31:09,  3.31s/it]                                                                                                                                                  {'loss': 11.0375, 'grad_norm': 1.2109375, 'learning_rate': 3.571166994427959e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21601.4, 'epoch': 1.27}
 42%|██████████████████████████████████████████▊                                                          | 1213/2865 [1:18:01<1:31:09,  3.31s/it] 42%|██████████████████████████████████████████▊                                                          | 1214/2865 [1:18:04<1:28:09,  3.20s/it]                                                                                                                                                  {'loss': 11.0074, 'grad_norm': 1.234375, 'learning_rate': 3.568414543054748e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21940.11, 'epoch': 1.27}
 42%|██████████████████████████████████████████▊                                                          | 1214/2865 [1:18:04<1:28:09,  3.20s/it] 42%|██████████████████████████████████████████▊                                                          | 1215/2865 [1:18:07<1:26:07,  3.13s/it]                                                                                                                                                  {'loss': 11.0279, 'grad_norm': 1.15625, 'learning_rate': 3.5656605062890394e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21725.4, 'epoch': 1.27}
 42%|██████████████████████████████████████████▊                                                          | 1215/2865 [1:18:07<1:26:07,  3.13s/it] 42%|██████████████████████████████████████████▊                                                          | 1216/2865 [1:18:10<1:24:39,  3.08s/it]                                                                                                                                                  {'loss': 11.0192, 'grad_norm': 1.25, 'learning_rate': 3.5629048882174784e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21397.56, 'epoch': 1.27}
 42%|██████████████████████████████████████████▊                                                          | 1216/2865 [1:18:10<1:24:39,  3.08s/it] 42%|██████████████████████████████████████████▉                                                          | 1217/2865 [1:18:13<1:23:39,  3.05s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.0546875, 'learning_rate': 3.560147692929055e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21089.34, 'epoch': 1.27}
 42%|██████████████████████████████████████████▉                                                          | 1217/2865 [1:18:13<1:23:39,  3.05s/it] 43%|██████████████████████████████████████████▉                                                          | 1218/2865 [1:18:16<1:22:52,  3.02s/it]                                                                                                                                                  {'loss': 10.9977, 'grad_norm': 1.0859375, 'learning_rate': 3.557388924515099e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21425.18, 'epoch': 1.28}
 43%|██████████████████████████████████████████▉                                                          | 1218/2865 [1:18:16<1:22:52,  3.02s/it] 43%|██████████████████████████████████████████▉                                                          | 1219/2865 [1:18:19<1:22:17,  3.00s/it]                                                                                                                                                  {'loss': 11.0239, 'grad_norm': 1.0859375, 'learning_rate': 3.554628587069274e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21606.69, 'epoch': 1.28}
 43%|██████████████████████████████████████████▉                                                          | 1219/2865 [1:18:19<1:22:17,  3.00s/it] 43%|███████████████████████████████████████████                                                          | 1220/2865 [1:18:22<1:21:53,  2.99s/it]                                                                                                                                                  {'loss': 11.03, 'grad_norm': 1.25, 'learning_rate': 3.5518666846875734e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22417.59, 'epoch': 1.28}
 43%|███████████████████████████████████████████                                                          | 1220/2865 [1:18:22<1:21:53,  2.99s/it] 43%|███████████████████████████████████████████                                                          | 1221/2865 [1:18:25<1:21:33,  2.98s/it]                                                                                                                                                  {'loss': 11.0038, 'grad_norm': 1.0703125, 'learning_rate': 3.549103221468313e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20305.56, 'epoch': 1.28}
 43%|███████████████████████████████████████████                                                          | 1221/2865 [1:18:25<1:21:33,  2.98s/it] 43%|███████████████████████████████████████████                                                          | 1222/2865 [1:18:28<1:21:23,  2.97s/it]                                                                                                                                                  {'loss': 11.0552, 'grad_norm': 1.3671875, 'learning_rate': 3.5463382015121226e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22009.47, 'epoch': 1.28}
 43%|███████████████████████████████████████████                                                          | 1222/2865 [1:18:28<1:21:23,  2.97s/it] 43%|███████████████████████████████████████████                                                          | 1223/2865 [1:18:31<1:21:05,  2.96s/it]                                                                                                                                                  {'loss': 10.9999, 'grad_norm': 1.109375, 'learning_rate': 3.543571628921944e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20739.34, 'epoch': 1.28}
 43%|███████████████████████████████████████████                                                          | 1223/2865 [1:18:31<1:21:05,  2.96s/it] 43%|███████████████████████████████████████████▏                                                         | 1224/2865 [1:18:34<1:20:56,  2.96s/it]                                                                                                                                                  {'loss': 11.015, 'grad_norm': 1.1875, 'learning_rate': 3.540803507803021e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20971.17, 'epoch': 1.28}
 43%|███████████████████████████████████████████▏                                                         | 1224/2865 [1:18:34<1:20:56,  2.96s/it] 43%|███████████████████████████████████████████▏                                                         | 1225/2865 [1:18:37<1:20:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0236, 'grad_norm': 1.0625, 'learning_rate': 3.538033842262899e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21522.14, 'epoch': 1.28}
 43%|███████████████████████████████████████████▏                                                         | 1225/2865 [1:18:37<1:20:48,  2.96s/it] 43%|███████████████████████████████████████████▏                                                         | 1226/2865 [1:18:39<1:20:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0178, 'grad_norm': 1.0546875, 'learning_rate': 3.53526263641141e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22136.68, 'epoch': 1.28}
 43%|███████████████████████████████████████████▏                                                         | 1226/2865 [1:18:40<1:20:44,  2.96s/it] 43%|███████████████████████████████████████████▎                                                         | 1227/2865 [1:18:42<1:20:37,  2.95s/it]                                                                                                                                                  {'loss': 11.0256, 'grad_norm': 1.109375, 'learning_rate': 3.532489894360676e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20815.71, 'epoch': 1.28}
 43%|███████████████████████████████████████████▎                                                         | 1227/2865 [1:18:42<1:20:37,  2.95s/it] 43%|███████████████████████████████████████████▎                                                         | 1228/2865 [1:18:45<1:20:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0216, 'grad_norm': 1.125, 'learning_rate': 3.529715620225094e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21655.46, 'epoch': 1.29}
 43%|███████████████████████████████████████████▎                                                         | 1228/2865 [1:18:45<1:20:37,  2.96s/it] 43%|███████████████████████████████████████████▎                                                         | 1229/2865 [1:18:48<1:20:33,  2.95s/it]                                                                                                                                                  {'loss': 11.062, 'grad_norm': 1.3046875, 'learning_rate': 3.5269398181213395e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20830.4, 'epoch': 1.29}
 43%|███████████████████████████████████████████▎                                                         | 1229/2865 [1:18:48<1:20:33,  2.95s/it] 43%|███████████████████████████████████████████▎                                                         | 1230/2865 [1:18:51<1:20:30,  2.95s/it]                                                                                                                                                  {'loss': 11.0395, 'grad_norm': 1.1640625, 'learning_rate': 3.5241624921683517e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21374.28, 'epoch': 1.29}
 43%|███████████████████████████████████████████▎                                                         | 1230/2865 [1:18:51<1:20:30,  2.95s/it] 43%|███████████████████████████████████████████▍                                                         | 1231/2865 [1:18:54<1:20:26,  2.95s/it]                                                                                                                                                  {'loss': 11.0017, 'grad_norm': 1.1796875, 'learning_rate': 3.5213836464873335e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21920.86, 'epoch': 1.29}
 43%|███████████████████████████████████████████▍                                                         | 1231/2865 [1:18:54<1:20:26,  2.95s/it] 43%|███████████████████████████████████████████▍                                                         | 1232/2865 [1:18:57<1:20:21,  2.95s/it]                                                                                                                                                  {'loss': 11.0218, 'grad_norm': 1.2578125, 'learning_rate': 3.5186032852017396e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21920.54, 'epoch': 1.29}
 43%|███████████████████████████████████████████▍                                                         | 1232/2865 [1:18:57<1:20:21,  2.95s/it] 43%|███████████████████████████████████████████▍                                                         | 1233/2865 [1:19:00<1:20:17,  2.95s/it]                                                                                                                                                  {'loss': 11.0019, 'grad_norm': 1.3671875, 'learning_rate': 3.515821412437278e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21579.87, 'epoch': 1.29}
 43%|███████████████████████████████████████████▍                                                         | 1233/2865 [1:19:00<1:20:17,  2.95s/it] 43%|███████████████████████████████████████████▌                                                         | 1234/2865 [1:19:03<1:20:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.25, 'learning_rate': 3.5130380323218954e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21383.63, 'epoch': 1.29}
 43%|███████████████████████████████████████████▌                                                         | 1234/2865 [1:19:03<1:20:20,  2.96s/it] 43%|███████████████████████████████████████████▌                                                         | 1235/2865 [1:19:06<1:20:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0203, 'grad_norm': 1.1953125, 'learning_rate': 3.5102531489857784e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21692.94, 'epoch': 1.29}
 43%|███████████████████████████████████████████▌                                                         | 1235/2865 [1:19:06<1:20:23,  2.96s/it] 43%|███████████████████████████████████████████▌                                                         | 1236/2865 [1:19:09<1:20:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0617, 'grad_norm': 1.1171875, 'learning_rate': 3.5074667665613406e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22036.88, 'epoch': 1.29}
 43%|███████████████████████████████████████████▌                                                         | 1236/2865 [1:19:09<1:20:21,  2.96s/it] 43%|███████████████████████████████████████████▌                                                         | 1237/2865 [1:19:12<1:20:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0284, 'grad_norm': 1.171875, 'learning_rate': 3.504678889183225e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21255.7, 'epoch': 1.3}
 43%|███████████████████████████████████████████▌                                                         | 1237/2865 [1:19:12<1:20:21,  2.96s/it] 43%|███████████████████████████████████████████▋                                                         | 1238/2865 [1:19:15<1:20:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0223, 'grad_norm': 1.203125, 'learning_rate': 3.501889520988288e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22059.02, 'epoch': 1.3}
 43%|███████████████████████████████████████████▋                                                         | 1238/2865 [1:19:15<1:20:14,  2.96s/it] 43%|███████████████████████████████████████████▋                                                         | 1239/2865 [1:19:18<1:20:13,  2.96s/it]                                                                                                                                                  {'loss': 10.9932, 'grad_norm': 1.46875, 'learning_rate': 3.499098666115602e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22362.5, 'epoch': 1.3}
 43%|███████████████████████████████████████████▋                                                         | 1239/2865 [1:19:18<1:20:13,  2.96s/it] 43%|███████████████████████████████████████████▋                                                         | 1240/2865 [1:19:21<1:20:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0135, 'grad_norm': 1.09375, 'learning_rate': 3.496306328706442e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21628.52, 'epoch': 1.3}
 43%|███████████████████████████████████████████▋                                                         | 1240/2865 [1:19:21<1:20:04,  2.96s/it] 43%|███████████████████████████████████████████▋                                                         | 1241/2865 [1:19:24<1:20:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0303, 'grad_norm': 1.109375, 'learning_rate': 3.4935125129042866e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20160.85, 'epoch': 1.3}
 43%|███████████████████████████████████████████▋                                                         | 1241/2865 [1:19:24<1:20:05,  2.96s/it] 43%|███████████████████████████████████████████▊                                                         | 1242/2865 [1:19:27<1:20:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0082, 'grad_norm': 1.125, 'learning_rate': 3.490717222854805e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20874.0, 'epoch': 1.3}
 43%|███████████████████████████████████████████▊                                                         | 1242/2865 [1:19:27<1:20:09,  2.96s/it] 43%|███████████████████████████████████████████▊                                                         | 1243/2865 [1:19:30<1:20:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0328, 'grad_norm': 1.1015625, 'learning_rate': 3.4879204627058566e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21414.11, 'epoch': 1.3}
 43%|███████████████████████████████████████████▊                                                         | 1243/2865 [1:19:30<1:20:06,  2.96s/it] 43%|███████████████████████████████████████████▊                                                         | 1244/2865 [1:19:33<1:20:01,  2.96s/it]                                                                                                                                                  {'loss': 10.9998, 'grad_norm': 1.0859375, 'learning_rate': 3.4851222366074795e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21364.45, 'epoch': 1.3}
 43%|███████████████████████████████████████████▊                                                         | 1244/2865 [1:19:33<1:20:01,  2.96s/it] 43%|███████████████████████████████████████████▉                                                         | 1245/2865 [1:19:36<1:19:50,  2.96s/it]                                                                                                                                                  {'loss': 11.016, 'grad_norm': 1.1015625, 'learning_rate': 3.482322548711888e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21578.2, 'epoch': 1.3}
 43%|███████████████████████████████████████████▉                                                         | 1245/2865 [1:19:36<1:19:50,  2.96s/it] 43%|███████████████████████████████████████████▉                                                         | 1246/2865 [1:19:39<1:19:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0116, 'grad_norm': 1.0859375, 'learning_rate': 3.479521403173468e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21972.28, 'epoch': 1.3}
 43%|███████████████████████████████████████████▉                                                         | 1246/2865 [1:19:39<1:19:46,  2.96s/it] 44%|███████████████████████████████████████████▉                                                         | 1247/2865 [1:19:42<1:19:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0354, 'grad_norm': 1.0625, 'learning_rate': 3.4767188041487655e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21629.99, 'epoch': 1.31}
 44%|███████████████████████████████████████████▉                                                         | 1247/2865 [1:19:42<1:19:44,  2.96s/it] 44%|███████████████████████████████████████████▉                                                         | 1248/2865 [1:19:45<1:19:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0307, 'grad_norm': 1.109375, 'learning_rate': 3.473914755796483e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21922.73, 'epoch': 1.31}
 44%|███████████████████████████████████████████▉                                                         | 1248/2865 [1:19:45<1:19:40,  2.96s/it] 44%|████████████████████████████████████████████                                                         | 1249/2865 [1:19:48<1:19:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0183, 'grad_norm': 1.0546875, 'learning_rate': 3.471109262277476e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21493.28, 'epoch': 1.31}
 44%|████████████████████████████████████████████                                                         | 1249/2865 [1:19:48<1:19:35,  2.96s/it] 44%|████████████████████████████████████████████                                                         | 1250/2865 [1:19:50<1:19:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0105, 'grad_norm': 1.0625, 'learning_rate': 3.468302327754743e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20524.22, 'epoch': 1.31}
 44%|████████████████████████████████████████████                                                         | 1250/2865 [1:19:50<1:19:36,  2.96s/it] 44%|████████████████████████████████████████████                                                         | 1251/2865 [1:19:53<1:19:34,  2.96s/it]                                                                                                                                                  {'loss': 10.9961, 'grad_norm': 1.171875, 'learning_rate': 3.4654939563934213e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21110.57, 'epoch': 1.31}
 44%|████████████████████████████████████████████                                                         | 1251/2865 [1:19:53<1:19:34,  2.96s/it] 44%|████████████████████████████████████████████▏                                                        | 1252/2865 [1:19:56<1:19:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0354, 'grad_norm': 1.140625, 'learning_rate': 3.462684152360779e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21899.58, 'epoch': 1.31}
 44%|████████████████████████████████████████████▏                                                        | 1252/2865 [1:19:56<1:19:32,  2.96s/it] 44%|████████████████████████████████████████████▏                                                        | 1253/2865 [1:19:59<1:19:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0115, 'grad_norm': 1.046875, 'learning_rate': 3.4598729198262126e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21250.5, 'epoch': 1.31}
 44%|████████████████████████████████████████████▏                                                        | 1253/2865 [1:19:59<1:19:32,  2.96s/it] 44%|████████████████████████████████████████████▏                                                        | 1254/2865 [1:20:02<1:19:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0075, 'grad_norm': 1.046875, 'learning_rate': 3.457060262961235e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21840.56, 'epoch': 1.31}
 44%|████████████████████████████████████████████▏                                                        | 1254/2865 [1:20:02<1:19:29,  2.96s/it] 44%|████████████████████████████████████████████▏                                                        | 1255/2865 [1:20:05<1:19:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0264, 'grad_norm': 1.0390625, 'learning_rate': 3.454246185939476e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21417.82, 'epoch': 1.31}
 44%|████████████████████████████████████████████▏                                                        | 1255/2865 [1:20:05<1:19:21,  2.96s/it] 44%|████████████████████████████████████████████▎                                                        | 1256/2865 [1:20:08<1:19:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0051, 'grad_norm': 1.0390625, 'learning_rate': 3.4514306929366704e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20900.32, 'epoch': 1.32}
 44%|████████████████████████████████████████████▎                                                        | 1256/2865 [1:20:08<1:19:16,  2.96s/it] 44%|████████████████████████████████████████████▎                                                        | 1257/2865 [1:20:11<1:19:09,  2.95s/it]                                                                                                                                                  {'loss': 11.0008, 'grad_norm': 1.046875, 'learning_rate': 3.4486137881306546e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21229.73, 'epoch': 1.32}
 44%|████████████████████████████████████████████▎                                                        | 1257/2865 [1:20:11<1:19:09,  2.95s/it] 44%|████████████████████████████████████████████▎                                                        | 1258/2865 [1:20:14<1:19:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0077, 'grad_norm': 1.0703125, 'learning_rate': 3.445795475701361e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21596.47, 'epoch': 1.32}
 44%|████████████████████████████████████████████▎                                                        | 1258/2865 [1:20:14<1:19:10,  2.96s/it] 44%|████████████████████████████████████████████▍                                                        | 1259/2865 [1:20:17<1:19:01,  2.95s/it]                                                                                                                                                  {'loss': 11.0346, 'grad_norm': 1.4921875, 'learning_rate': 3.4429757598308095e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20847.69, 'epoch': 1.32}
 44%|████████████████████████████████████████████▍                                                        | 1259/2865 [1:20:17<1:19:01,  2.95s/it] 44%|████████████████████████████████████████████▍                                                        | 1260/2865 [1:20:20<1:18:58,  2.95s/it]                                                                                                                                                  {'loss': 11.0204, 'grad_norm': 1.0546875, 'learning_rate': 3.4401546447031035e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21497.68, 'epoch': 1.32}
 44%|████████████████████████████████████████████▍                                                        | 1260/2865 [1:20:20<1:18:58,  2.95s/it] 44%|████████████████████████████████████████████▍                                                        | 1261/2865 [1:20:23<1:18:54,  2.95s/it]                                                                                                                                                  {'loss': 11.0072, 'grad_norm': 1.0546875, 'learning_rate': 3.437332134504421e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20999.2, 'epoch': 1.32}
 44%|████████████████████████████████████████████▍                                                        | 1261/2865 [1:20:23<1:18:54,  2.95s/it] 44%|████████████████████████████████████████████▍                                                        | 1262/2865 [1:20:26<1:18:55,  2.95s/it]                                                                                                                                                  {'loss': 11.0169, 'grad_norm': 1.078125, 'learning_rate': 3.434508233423012e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21984.01, 'epoch': 1.32}
 44%|████████████████████████████████████████████▍                                                        | 1262/2865 [1:20:26<1:18:55,  2.95s/it] 44%|████████████████████████████████████████████▌                                                        | 1263/2865 [1:20:29<1:18:49,  2.95s/it]                                                                                                                                                  {'loss': 10.9987, 'grad_norm': 1.0625, 'learning_rate': 3.43168294564919e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20467.08, 'epoch': 1.32}
 44%|████████████████████████████████████████████▌                                                        | 1263/2865 [1:20:29<1:18:49,  2.95s/it] 44%|████████████████████████████████████████████▌                                                        | 1264/2865 [1:20:32<1:18:46,  2.95s/it]                                                                                                                                                  {'loss': 11.0029, 'grad_norm': 1.0390625, 'learning_rate': 3.428856275375326e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21892.19, 'epoch': 1.32}
 44%|████████████████████████████████████████████▌                                                        | 1264/2865 [1:20:32<1:18:46,  2.95s/it] 44%|████████████████████████████████████████████▌                                                        | 1265/2865 [1:20:35<1:18:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0125, 'grad_norm': 1.03125, 'learning_rate': 3.4260282267958424e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21470.53, 'epoch': 1.32}
 44%|████████████████████████████████████████████▌                                                        | 1265/2865 [1:20:35<1:18:43,  2.95s/it] 44%|████████████████████████████████████████████▋                                                        | 1266/2865 [1:20:38<1:18:44,  2.95s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.1796875, 'learning_rate': 3.423198804107206e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21062.19, 'epoch': 1.33}
 44%|████████████████████████████████████████████▋                                                        | 1266/2865 [1:20:38<1:18:44,  2.95s/it] 44%|████████████████████████████████████████████▋                                                        | 1267/2865 [1:20:41<1:18:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0328, 'grad_norm': 1.21875, 'learning_rate': 3.4203680115079236e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20740.62, 'epoch': 1.33}
 44%|████████████████████████████████████████████▋                                                        | 1267/2865 [1:20:41<1:18:41,  2.95s/it] 44%|████████████████████████████████████████████▋                                                        | 1268/2865 [1:20:44<1:18:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0403, 'grad_norm': 1.125, 'learning_rate': 3.417535853198535e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20751.53, 'epoch': 1.33}
 44%|████████████████████████████████████████████▋                                                        | 1268/2865 [1:20:44<1:18:44,  2.96s/it] 44%|████████████████████████████████████████████▋                                                        | 1269/2865 [1:20:47<1:18:37,  2.96s/it]                                                                                                                                                  {'loss': 10.9793, 'grad_norm': 1.3671875, 'learning_rate': 3.414702333381606e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20564.77, 'epoch': 1.33}
 44%|████████████████████████████████████████████▋                                                        | 1269/2865 [1:20:47<1:18:37,  2.96s/it] 44%|████████████████████████████████████████████▊                                                        | 1270/2865 [1:20:50<1:18:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0229, 'grad_norm': 1.078125, 'learning_rate': 3.4118674562617225e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21154.39, 'epoch': 1.33}
 44%|████████████████████████████████████████████▊                                                        | 1270/2865 [1:20:50<1:18:36,  2.96s/it] 44%|████████████████████████████████████████████▊                                                        | 1271/2865 [1:20:53<1:18:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0079, 'grad_norm': 1.140625, 'learning_rate': 3.4090312260454846e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20733.8, 'epoch': 1.33}
 44%|████████████████████████████████████████████▊                                                        | 1271/2865 [1:20:53<1:18:30,  2.96s/it] 44%|████████████████████████████████████████████▊                                                        | 1272/2865 [1:20:55<1:18:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0102, 'grad_norm': 1.09375, 'learning_rate': 3.406193646941502e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22150.93, 'epoch': 1.33}
 44%|████████████████████████████████████████████▊                                                        | 1272/2865 [1:20:56<1:18:28,  2.96s/it] 44%|████████████████████████████████████████████▉                                                        | 1273/2865 [1:20:58<1:18:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0012, 'grad_norm': 1.03125, 'learning_rate': 3.4033547231603826e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21198.61, 'epoch': 1.33}
 44%|████████████████████████████████████████████▉                                                        | 1273/2865 [1:20:58<1:18:25,  2.96s/it] 44%|████████████████████████████████████████████▉                                                        | 1274/2865 [1:21:01<1:18:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0002, 'grad_norm': 1.0234375, 'learning_rate': 3.400514458914732e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21032.85, 'epoch': 1.33}
 44%|████████████████████████████████████████████▉                                                        | 1274/2865 [1:21:01<1:18:22,  2.96s/it] 45%|████████████████████████████████████████████▉                                                        | 1275/2865 [1:21:04<1:18:19,  2.96s/it]                                                                                                                                                  {'loss': 11.005, 'grad_norm': 1.0546875, 'learning_rate': 3.397672858419144e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22027.39, 'epoch': 1.34}
 45%|████████████████████████████████████████████▉                                                        | 1275/2865 [1:21:04<1:18:19,  2.96s/it] 45%|████████████████████████████████████████████▉                                                        | 1276/2865 [1:21:07<1:18:13,  2.95s/it]                                                                                                                                                  {'loss': 11.0263, 'grad_norm': 1.0390625, 'learning_rate': 3.394829925890196e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21506.56, 'epoch': 1.34}
 45%|████████████████████████████████████████████▉                                                        | 1276/2865 [1:21:07<1:18:13,  2.95s/it] 45%|█████████████████████████████████████████████                                                        | 1277/2865 [1:21:10<1:18:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0298, 'grad_norm': 1.296875, 'learning_rate': 3.391985665546442e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22466.14, 'epoch': 1.34}
 45%|█████████████████████████████████████████████                                                        | 1277/2865 [1:21:10<1:18:15,  2.96s/it] 45%|█████████████████████████████████████████████                                                        | 1278/2865 [1:21:13<1:18:10,  2.96s/it]                                                                                                                                                  {'loss': 11.015, 'grad_norm': 1.03125, 'learning_rate': 3.389140081608404e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20505.43, 'epoch': 1.34}
 45%|█████████████████████████████████████████████                                                        | 1278/2865 [1:21:13<1:18:10,  2.96s/it] 45%|█████████████████████████████████████████████                                                        | 1279/2865 [1:21:16<1:18:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0065, 'grad_norm': 1.0390625, 'learning_rate': 3.386293178298572e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22232.99, 'epoch': 1.34}
 45%|█████████████████████████████████████████████                                                        | 1279/2865 [1:21:16<1:18:16,  2.96s/it] 45%|█████████████████████████████████████████████                                                        | 1280/2865 [1:21:19<1:18:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0097, 'grad_norm': 1.1875, 'learning_rate': 3.38344495984139e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20886.27, 'epoch': 1.34}
 45%|█████████████████████████████████████████████                                                        | 1280/2865 [1:21:19<1:18:13,  2.96s/it] 45%|█████████████████████████████████████████████▏                                                       | 1281/2865 [1:21:22<1:18:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0388, 'grad_norm': 1.09375, 'learning_rate': 3.3805954304632556e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21240.08, 'epoch': 1.34}
 45%|█████████████████████████████████████████████▏                                                       | 1281/2865 [1:21:22<1:18:10,  2.96s/it] 45%|█████████████████████████████████████████████▏                                                       | 1282/2865 [1:21:25<1:18:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0193, 'grad_norm': 1.0625, 'learning_rate': 3.377744594392511e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21020.99, 'epoch': 1.34}
 45%|█████████████████████████████████████████████▏                                                       | 1282/2865 [1:21:25<1:18:05,  2.96s/it] 45%|█████████████████████████████████████████████▏                                                       | 1283/2865 [1:21:28<1:18:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0164, 'grad_norm': 1.0390625, 'learning_rate': 3.374892455859439e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21464.37, 'epoch': 1.34}
 45%|█████████████████████████████████████████████▏                                                       | 1283/2865 [1:21:28<1:18:00,  2.96s/it] 45%|█████████████████████████████████████████████▎                                                       | 1284/2865 [1:21:31<1:17:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0242, 'grad_norm': 1.1015625, 'learning_rate': 3.372039019096252e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20791.79, 'epoch': 1.34}
 45%|█████████████████████████████████████████████▎                                                       | 1284/2865 [1:21:31<1:17:58,  2.96s/it] 45%|█████████████████████████████████████████████▎                                                       | 1285/2865 [1:21:34<1:17:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0253, 'grad_norm': 1.0546875, 'learning_rate': 3.369184288337091e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21197.17, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▎                                                       | 1285/2865 [1:21:34<1:17:53,  2.96s/it] 45%|█████████████████████████████████████████████▎                                                       | 1286/2865 [1:21:37<1:17:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0054, 'grad_norm': 1.046875, 'learning_rate': 3.366328267818015e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22337.34, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▎                                                       | 1286/2865 [1:21:37<1:17:51,  2.96s/it] 45%|█████████████████████████████████████████████▎                                                       | 1287/2865 [1:21:40<1:17:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0152, 'grad_norm': 1.1328125, 'learning_rate': 3.363470961777001e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20983.2, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▎                                                       | 1287/2865 [1:21:40<1:17:46,  2.96s/it] 45%|█████████████████████████████████████████████▍                                                       | 1288/2865 [1:21:43<1:17:40,  2.96s/it]                                                                                                                                                  {'loss': 11.04, 'grad_norm': 1.046875, 'learning_rate': 3.36061237445393e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21764.95, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▍                                                       | 1288/2865 [1:21:43<1:17:40,  2.96s/it] 45%|█████████████████████████████████████████████▍                                                       | 1289/2865 [1:21:46<1:17:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0116, 'grad_norm': 1.0625, 'learning_rate': 3.3577525100905846e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21791.26, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▍                                                       | 1289/2865 [1:21:46<1:17:39,  2.96s/it] 45%|█████████████████████████████████████████████▍                                                       | 1290/2865 [1:21:49<1:17:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0292, 'grad_norm': 1.203125, 'learning_rate': 3.354891372930645e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22041.0, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▍                                                       | 1290/2865 [1:21:49<1:17:36,  2.96s/it] 45%|█████████████████████████████████████████████▌                                                       | 1291/2865 [1:21:52<1:17:33,  2.96s/it]                                                                                                                                                  {'loss': 10.989, 'grad_norm': 1.03125, 'learning_rate': 3.3520289672196756e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22493.54, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▌                                                       | 1291/2865 [1:21:52<1:17:33,  2.96s/it] 45%|█████████████████████████████████████████████▌                                                       | 1292/2865 [1:21:55<1:17:24,  2.95s/it]                                                                                                                                                  {'loss': 11.0087, 'grad_norm': 1.1171875, 'learning_rate': 3.349165297205126e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21031.86, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▌                                                       | 1292/2865 [1:21:55<1:17:24,  2.95s/it] 45%|█████████████████████████████████████████████▌                                                       | 1293/2865 [1:21:58<1:17:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.0234375, 'learning_rate': 3.3463003671363236e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20245.74, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▌                                                       | 1293/2865 [1:21:58<1:17:26,  2.96s/it] 45%|█████████████████████████████████████████████▌                                                       | 1294/2865 [1:22:01<1:17:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0192, 'grad_norm': 1.1015625, 'learning_rate': 3.3434341812644614e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21915.79, 'epoch': 1.35}
 45%|█████████████████████████████████████████████▌                                                       | 1294/2865 [1:22:01<1:17:22,  2.96s/it] 45%|█████████████████████████████████████████████▋                                                       | 1295/2865 [1:22:04<1:17:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0229, 'grad_norm': 1.0390625, 'learning_rate': 3.340566743842598e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20939.59, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▋                                                       | 1295/2865 [1:22:04<1:17:26,  2.96s/it] 45%|█████████████████████████████████████████████▋                                                       | 1296/2865 [1:22:06<1:17:22,  2.96s/it]                                                                                                                                                  {'loss': 11.019, 'grad_norm': 1.03125, 'learning_rate': 3.33769805912565e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22235.12, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▋                                                       | 1296/2865 [1:22:06<1:17:22,  2.96s/it] 45%|█████████████████████████████████████████████▋                                                       | 1297/2865 [1:22:09<1:17:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0359, 'grad_norm': 1.078125, 'learning_rate': 3.334828131370383e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21085.64, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▋                                                       | 1297/2865 [1:22:09<1:17:13,  2.96s/it] 45%|█████████████████████████████████████████████▊                                                       | 1298/2865 [1:22:12<1:17:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0151, 'grad_norm': 1.046875, 'learning_rate': 3.331956964835409e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21667.54, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▊                                                       | 1298/2865 [1:22:12<1:17:10,  2.96s/it] 45%|█████████████████████████████████████████████▊                                                       | 1299/2865 [1:22:15<1:17:06,  2.95s/it]                                                                                                                                                  {'loss': 11.0013, 'grad_norm': 1.125, 'learning_rate': 3.329084563781177e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20692.6, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▊                                                       | 1299/2865 [1:22:15<1:17:06,  2.95s/it] 45%|█████████████████████████████████████████████▊                                                       | 1300/2865 [1:22:18<1:17:08,  2.96s/it]                                                                                                                                                  {'loss': 11.02, 'grad_norm': 1.140625, 'learning_rate': 3.326210932469968e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21840.05, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▊                                                       | 1300/2865 [1:22:18<1:17:08,  2.96s/it][2025-10-12 04:31:11,123] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:03<04:42,  1.54s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:15,  1.08s/it][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:29,  1.21it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<02:01,  1.49it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:44,  1.72it/s][A
  4%|████                                                                                                         | 7/185 [00:05<01:31,  1.94it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:23,  2.11it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:20,  2.18it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:16,  2.30it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.37it/s][A
  6%|███████                                                                                                     | 12/185 [00:07<01:11,  2.40it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:08,  2.50it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:05,  2.60it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:09,  2.44it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:09,  2.43it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:09<01:07,  2.49it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:06,  2.49it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:05,  2.54it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:10<01:05,  2.54it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:03,  2.58it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:11<01:05,  2.50it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:03,  2.55it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:02,  2.56it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:12<01:03,  2.53it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:02,  2.54it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:00,  2.62it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:02,  2.53it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:00,  2.59it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:14<01:01,  2.52it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<00:59,  2.57it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<00:58,  2.60it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.57it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:59,  2.56it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:16<00:59,  2.54it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:59,  2.52it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.53it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:57,  2.55it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:55,  2.61it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:18<00:57,  2.51it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.53it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.54it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:19<00:54,  2.60it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:55,  2.54it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:54,  2.55it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.54it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:53,  2.58it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:21<00:53,  2.56it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:53,  2.56it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:52,  2.58it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:52,  2.53it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.55it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:23<00:51,  2.56it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.52it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:50,  2.53it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.52it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:25<00:50,  2.52it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:49,  2.53it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.52it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:49,  2.50it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.52it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:27<00:47,  2.55it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.57it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:45,  2.64it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:28<00:46,  2.55it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.53it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:29<00:45,  2.55it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.57it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.53it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:30<00:45,  2.52it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.55it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:42,  2.64it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:44,  2.51it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.55it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:32<00:42,  2.57it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.57it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:42,  2.54it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.58it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.55it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:34<00:40,  2.59it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:41,  2.51it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:40,  2.54it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:35<00:39,  2.55it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:39,  2.54it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:36<00:39,  2.53it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.54it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:36,  2.65it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:37<00:37,  2.55it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:36,  2.61it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:38<00:37,  2.49it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:36,  2.56it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:36,  2.51it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:39<00:35,  2.53it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.56it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.59it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.54it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.55it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:41<00:33,  2.54it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:32,  2.60it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:31,  2.63it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:32,  2.58it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:31,  2.57it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:43<00:32,  2.52it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.54it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:30,  2.55it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.56it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.64it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:45<00:29,  2.54it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.54it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.55it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:46<00:28,  2.59it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:27,  2.62it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.55it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:26,  2.62it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.53it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:48<00:26,  2.58it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.52it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:26,  2.51it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.52it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:50<00:24,  2.54it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.55it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:24,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:22,  2.57it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:52<00:22,  2.58it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.58it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:22,  2.54it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.54it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:20,  2.58it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:54<00:20,  2.56it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.57it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.57it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:55<00:19,  2.54it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:18,  2.58it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.56it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.53it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.52it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:57<00:17,  2.60it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.56it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:17,  2.51it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.53it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.53it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:59<00:15,  2.54it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.54it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.54it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:13,  2.60it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:01<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:11,  2.75it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.48it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.50it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:03<00:11,  2.51it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.63it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.56it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:04<00:10,  2.55it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.51it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:05<00:09,  2.56it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.55it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.53it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:06<00:08,  2.53it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.52it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.58it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.52it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.54it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:08<00:06,  2.56it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.55it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.62it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.58it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:10<00:04,  2.59it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.56it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.55it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:12<00:02,  2.62it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.54it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.52it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:13<00:01,  2.52it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.57it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.62it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.53it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.05it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.99609088897705, 'eval_runtime': 78.4522, 'eval_samples_per_second': 151.137, 'eval_steps_per_second': 2.371, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▊                                                       | 1300/2865 [1:23:37<1:17:08,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.05it/s][A
                                                                                                                                                  [A[2025-10-12 04:32:29,610] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1300
 45%|█████████████████████████████████████████████▍                                                      | 1301/2865 [1:23:47<12:29:32, 28.75s/it]                                                                                                                                                  {'loss': 11.006, 'grad_norm': 1.1328125, 'learning_rate': 3.323336075165887e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19078.64, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▍                                                      | 1301/2865 [1:23:47<12:29:32, 28.75s/it] 45%|█████████████████████████████████████████████▉                                                       | 1302/2865 [1:23:50<9:07:18, 21.01s/it]                                                                                                                                                  {'loss': 10.9987, 'grad_norm': 1.1328125, 'learning_rate': 3.320459996134862e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21241.07, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▉                                                       | 1302/2865 [1:23:50<9:07:18, 21.01s/it] 45%|█████████████████████████████████████████████▉                                                       | 1303/2865 [1:23:53<6:45:55, 15.59s/it]                                                                                                                                                  {'loss': 11.0191, 'grad_norm': 1.0859375, 'learning_rate': 3.3175826996446306e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21379.96, 'epoch': 1.36}
 45%|█████████████████████████████████████████████▉                                                       | 1303/2865 [1:23:53<6:45:55, 15.59s/it] 46%|█████████████████████████████████████████████▉                                                       | 1304/2865 [1:23:56<5:07:02, 11.80s/it]                                                                                                                                                  {'loss': 11.0209, 'grad_norm': 1.0546875, 'learning_rate': 3.314704189964739e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21870.36, 'epoch': 1.37}
 46%|█████████████████████████████████████████████▉                                                       | 1304/2865 [1:23:56<5:07:02, 11.80s/it] 46%|██████████████████████████████████████████████                                                       | 1305/2865 [1:23:59<3:57:52,  9.15s/it]                                                                                                                                                  {'loss': 11.0124, 'grad_norm': 1.046875, 'learning_rate': 3.311824471366532e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21593.84, 'epoch': 1.37}
 46%|██████████████████████████████████████████████                                                       | 1305/2865 [1:23:59<3:57:52,  9.15s/it] 46%|██████████████████████████████████████████████                                                       | 1306/2865 [1:24:02<3:09:26,  7.29s/it]                                                                                                                                                  {'loss': 11.0292, 'grad_norm': 1.0390625, 'learning_rate': 3.3089435481231474e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22612.53, 'epoch': 1.37}
 46%|██████████████████████████████████████████████                                                       | 1306/2865 [1:24:02<3:09:26,  7.29s/it] 46%|██████████████████████████████████████████████                                                       | 1307/2865 [1:24:05<2:35:29,  5.99s/it]                                                                                                                                                  {'loss': 11.0001, 'grad_norm': 1.09375, 'learning_rate': 3.306061424509515e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21740.88, 'epoch': 1.37}
 46%|██████████████████████████████████████████████                                                       | 1307/2865 [1:24:05<2:35:29,  5.99s/it] 46%|██████████████████████████████████████████████                                                       | 1308/2865 [1:24:08<2:11:50,  5.08s/it]                                                                                                                                                  {'loss': 11.0334, 'grad_norm': 1.0703125, 'learning_rate': 3.303178104802341e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20478.19, 'epoch': 1.37}
 46%|██████████████████████████████████████████████                                                       | 1308/2865 [1:24:08<2:11:50,  5.08s/it] 46%|██████████████████████████████████████████████▏                                                      | 1309/2865 [1:24:11<1:55:11,  4.44s/it]                                                                                                                                                  {'loss': 11.0249, 'grad_norm': 1.0390625, 'learning_rate': 3.30029359328011e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21078.87, 'epoch': 1.37}
 46%|██████████████████████████████████████████████▏                                                      | 1309/2865 [1:24:11<1:55:11,  4.44s/it] 46%|██████████████████████████████████████████████▏                                                      | 1310/2865 [1:24:14<1:43:30,  3.99s/it]                                                                                                                                                  {'loss': 10.9946, 'grad_norm': 1.078125, 'learning_rate': 3.297407894223073e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20856.05, 'epoch': 1.37}
 46%|██████████████████████████████████████████████▏                                                      | 1310/2865 [1:24:14<1:43:30,  3.99s/it] 46%|██████████████████████████████████████████████▏                                                      | 1311/2865 [1:24:17<1:35:20,  3.68s/it]                                                                                                                                                  {'loss': 11.016, 'grad_norm': 1.09375, 'learning_rate': 3.2945210119132424e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21888.02, 'epoch': 1.37}
 46%|██████████████████████████████████████████████▏                                                      | 1311/2865 [1:24:17<1:35:20,  3.68s/it] 46%|██████████████████████████████████████████████▎                                                      | 1312/2865 [1:24:20<1:29:36,  3.46s/it]                                                                                                                                                  {'loss': 11.0154, 'grad_norm': 1.03125, 'learning_rate': 3.291632950634388e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21617.2, 'epoch': 1.37}
 46%|██████████████████████████████████████████████▎                                                      | 1312/2865 [1:24:20<1:29:36,  3.46s/it] 46%|██████████████████████████████████████████████▎                                                      | 1313/2865 [1:24:23<1:25:33,  3.31s/it]                                                                                                                                                  {'loss': 11.0034, 'grad_norm': 1.046875, 'learning_rate': 3.2887437146720304e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21189.05, 'epoch': 1.37}
 46%|██████████████████████████████████████████████▎                                                      | 1313/2865 [1:24:23<1:25:33,  3.31s/it] 46%|██████████████████████████████████████████████▎                                                      | 1314/2865 [1:24:26<1:22:49,  3.20s/it]                                                                                                                                                  {'loss': 11.0277, 'grad_norm': 1.0390625, 'learning_rate': 3.2858533083134286e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21266.41, 'epoch': 1.38}
 46%|██████████████████████████████████████████████▎                                                      | 1314/2865 [1:24:26<1:22:49,  3.20s/it] 46%|██████████████████████████████████████████████▎                                                      | 1315/2865 [1:24:29<1:20:49,  3.13s/it]                                                                                                                                                  {'loss': 11.0012, 'grad_norm': 1.1875, 'learning_rate': 3.282961735847583e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21268.57, 'epoch': 1.38}
 46%|██████████████████████████████████████████████▎                                                      | 1315/2865 [1:24:29<1:20:49,  3.13s/it] 46%|██████████████████████████████████████████████▍                                                      | 1316/2865 [1:24:32<1:19:26,  3.08s/it]                                                                                                                                                  {'loss': 11.0048, 'grad_norm': 1.1015625, 'learning_rate': 3.280069001565224e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21789.45, 'epoch': 1.38}
 46%|██████████████████████████████████████████████▍                                                      | 1316/2865 [1:24:32<1:19:26,  3.08s/it] 46%|██████████████████████████████████████████████▍                                                      | 1317/2865 [1:24:34<1:18:28,  3.04s/it]                                                                                                                                                  {'loss': 11.0242, 'grad_norm': 1.03125, 'learning_rate': 3.277175109758802e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20926.39, 'epoch': 1.38}
 46%|██████████████████████████████████████████████▍                                                      | 1317/2865 [1:24:35<1:18:28,  3.04s/it] 46%|██████████████████████████████████████████████▍                                                      | 1318/2865 [1:24:37<1:17:40,  3.01s/it]                                                                                                                                                  {'loss': 11.0043, 'grad_norm': 1.03125, 'learning_rate': 3.274280064722489e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19821.42, 'epoch': 1.38}
 46%|██████████████████████████████████████████████▍                                                      | 1318/2865 [1:24:37<1:17:40,  3.01s/it] 46%|██████████████████████████████████████████████▍                                                      | 1319/2865 [1:24:40<1:17:09,  2.99s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.0625, 'learning_rate': 3.271383870752166e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20731.17, 'epoch': 1.38}
 46%|██████████████████████████████████████████████▍                                                      | 1319/2865 [1:24:40<1:17:09,  2.99s/it] 46%|██████████████████████████████████████████████▌                                                      | 1320/2865 [1:24:43<1:16:46,  2.98s/it]                                                                                                                                                  {'loss': 11.0085, 'grad_norm': 1.0390625, 'learning_rate': 3.268486532145421e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21969.2, 'epoch': 1.38}
 46%|██████████████████████████████████████████████▌                                                      | 1320/2865 [1:24:43<1:16:46,  2.98s/it] 46%|██████████████████████████████████████████████▌                                                      | 1321/2865 [1:24:46<1:16:29,  2.97s/it]                                                                                                                                                  {'loss': 11.0206, 'grad_norm': 1.0546875, 'learning_rate': 3.265588053201539e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21522.36, 'epoch': 1.38}
 46%|██████████████████████████████████████████████▌                                                      | 1321/2865 [1:24:46<1:16:29,  2.97s/it] 46%|██████████████████████████████████████████████▌                                                      | 1322/2865 [1:24:49<1:16:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.046875, 'learning_rate': 3.2626884382214965e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21066.05, 'epoch': 1.38}
 46%|██████████████████████████████████████████████▌                                                      | 1322/2865 [1:24:49<1:16:14,  2.96s/it] 46%|██████████████████████████████████████████████▋                                                      | 1323/2865 [1:24:52<1:16:02,  2.96s/it]                                                                                                                                                  {'loss': 10.9897, 'grad_norm': 1.09375, 'learning_rate': 3.2597876915079565e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20402.14, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▋                                                      | 1323/2865 [1:24:52<1:16:02,  2.96s/it] 46%|██████████████████████████████████████████████▋                                                      | 1324/2865 [1:24:55<1:15:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0281, 'grad_norm': 1.03125, 'learning_rate': 3.256885817365263e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22382.84, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▋                                                      | 1324/2865 [1:24:55<1:15:59,  2.96s/it] 46%|██████████████████████████████████████████████▋                                                      | 1325/2865 [1:24:58<1:15:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0062, 'grad_norm': 1.0390625, 'learning_rate': 3.25398282009943e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21864.2, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▋                                                      | 1325/2865 [1:24:58<1:15:54,  2.96s/it] 46%|██████████████████████████████████████████████▋                                                      | 1326/2865 [1:25:01<1:15:47,  2.95s/it]                                                                                                                                                  {'loss': 11.0133, 'grad_norm': 1.046875, 'learning_rate': 3.25107870401814e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20845.82, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▋                                                      | 1326/2865 [1:25:01<1:15:47,  2.95s/it] 46%|██████████████████████████████████████████████▊                                                      | 1327/2865 [1:25:04<1:15:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0176, 'grad_norm': 1.0390625, 'learning_rate': 3.248173473430735e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21314.94, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▊                                                      | 1327/2865 [1:25:04<1:15:46,  2.96s/it] 46%|██████████████████████████████████████████████▊                                                      | 1328/2865 [1:25:07<1:15:42,  2.96s/it]                                                                                                                                                  {'loss': 10.9984, 'grad_norm': 1.03125, 'learning_rate': 3.245267132648211e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22042.89, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▊                                                      | 1328/2865 [1:25:07<1:15:42,  2.96s/it] 46%|██████████████████████████████████████████████▊                                                      | 1329/2865 [1:25:10<1:15:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0284, 'grad_norm': 1.171875, 'learning_rate': 3.242359685983212e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21850.16, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▊                                                      | 1329/2865 [1:25:10<1:15:39,  2.96s/it] 46%|██████████████████████████████████████████████▉                                                      | 1330/2865 [1:25:13<1:15:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0264, 'grad_norm': 1.15625, 'learning_rate': 3.239451137750021e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21004.03, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▉                                                      | 1330/2865 [1:25:13<1:15:34,  2.95s/it] 46%|██████████████████████████████████████████████▉                                                      | 1331/2865 [1:25:16<1:15:32,  2.95s/it]                                                                                                                                                  {'loss': 11.0302, 'grad_norm': 1.0625, 'learning_rate': 3.236541492264558e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21930.19, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▉                                                      | 1331/2865 [1:25:16<1:15:32,  2.95s/it] 46%|██████████████████████████████████████████████▉                                                      | 1332/2865 [1:25:19<1:15:29,  2.95s/it]                                                                                                                                                  {'loss': 11.0118, 'grad_norm': 1.1640625, 'learning_rate': 3.2336307538443696e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21782.08, 'epoch': 1.39}
 46%|██████████████████████████████████████████████▉                                                      | 1332/2865 [1:25:19<1:15:29,  2.95s/it] 47%|██████████████████████████████████████████████▉                                                      | 1333/2865 [1:25:22<1:15:26,  2.95s/it]                                                                                                                                                  {'loss': 11.0223, 'grad_norm': 1.109375, 'learning_rate': 3.2307189268086244e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21392.82, 'epoch': 1.4}
 47%|██████████████████████████████████████████████▉                                                      | 1333/2865 [1:25:22<1:15:26,  2.95s/it] 47%|███████████████████████████████████████████████                                                      | 1334/2865 [1:25:25<1:15:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0325, 'grad_norm': 1.046875, 'learning_rate': 3.2278060154781084e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22212.96, 'epoch': 1.4}
 47%|███████████████████████████████████████████████                                                      | 1334/2865 [1:25:25<1:15:30,  2.96s/it] 47%|███████████████████████████████████████████████                                                      | 1335/2865 [1:25:28<1:15:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0258, 'grad_norm': 1.1015625, 'learning_rate': 3.224892024175213e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22358.26, 'epoch': 1.4}
 47%|███████████████████████████████████████████████                                                      | 1335/2865 [1:25:28<1:15:28,  2.96s/it] 47%|███████████████████████████████████████████████                                                      | 1336/2865 [1:25:31<1:15:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0146, 'grad_norm': 1.09375, 'learning_rate': 3.2219769572239347e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21416.71, 'epoch': 1.4}
 47%|███████████████████████████████████████████████                                                      | 1336/2865 [1:25:31<1:15:24,  2.96s/it] 47%|███████████████████████████████████████████████▏                                                     | 1337/2865 [1:25:34<1:15:23,  2.96s/it]                                                                                                                                                  {'loss': 11.021, 'grad_norm': 1.046875, 'learning_rate': 3.219060818949864e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22543.57, 'epoch': 1.4}
 47%|███████████████████████████████████████████████▏                                                     | 1337/2865 [1:25:34<1:15:23,  2.96s/it] 47%|███████████████████████████████████████████████▏                                                     | 1338/2865 [1:25:37<1:15:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0128, 'grad_norm': 1.1484375, 'learning_rate': 3.216143613680185e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21218.87, 'epoch': 1.4}
 47%|███████████████████████████████████████████████▏                                                     | 1338/2865 [1:25:37<1:15:16,  2.96s/it] 47%|███████████████████████████████████████████████▏                                                     | 1339/2865 [1:25:40<1:15:16,  2.96s/it]                                                                                                                                                  {'loss': 11.03, 'grad_norm': 1.03125, 'learning_rate': 3.21322534574366e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21935.09, 'epoch': 1.4}
 47%|███████████████████████████████████████████████▏                                                     | 1339/2865 [1:25:40<1:15:16,  2.96s/it] 47%|███████████████████████████████████████████████▏                                                     | 1340/2865 [1:25:42<1:15:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0206, 'grad_norm': 1.046875, 'learning_rate': 3.210306019470633e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21987.16, 'epoch': 1.4}
 47%|███████████████████████████████████████████████▏                                                     | 1340/2865 [1:25:42<1:15:10,  2.96s/it] 47%|███████████████████████████████████████████████▎                                                     | 1341/2865 [1:25:45<1:15:08,  2.96s/it]                                                                                                                                                  {'loss': 11.002, 'grad_norm': 1.1328125, 'learning_rate': 3.2073856391930145e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20792.81, 'epoch': 1.4}
 47%|███████████████████████████████████████████████▎                                                     | 1341/2865 [1:25:45<1:15:08,  2.96s/it] 47%|███████████████████████████████████████████████▎                                                     | 1342/2865 [1:25:48<1:15:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0215, 'grad_norm': 1.03125, 'learning_rate': 3.2044642092442814e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22582.56, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▎                                                     | 1342/2865 [1:25:48<1:15:11,  2.96s/it] 47%|███████████████████████████████████████████████▎                                                     | 1343/2865 [1:25:51<1:15:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0123, 'grad_norm': 1.03125, 'learning_rate': 3.201541733959468e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21326.19, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▎                                                     | 1343/2865 [1:25:51<1:15:03,  2.96s/it] 47%|███████████████████████████████████████████████▍                                                     | 1344/2865 [1:25:54<1:14:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0124, 'grad_norm': 1.0546875, 'learning_rate': 3.198618217675158e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22164.26, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▍                                                     | 1344/2865 [1:25:54<1:14:58,  2.96s/it] 47%|███████████████████████████████████████████████▍                                                     | 1345/2865 [1:25:57<1:14:57,  2.96s/it]                                                                                                                                                  {'loss': 10.9983, 'grad_norm': 1.109375, 'learning_rate': 3.195693664729482e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22701.16, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▍                                                     | 1345/2865 [1:25:57<1:14:57,  2.96s/it] 47%|███████████████████████████████████████████████▍                                                     | 1346/2865 [1:26:00<1:14:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0254, 'grad_norm': 1.0859375, 'learning_rate': 3.192768079462107e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22131.74, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▍                                                     | 1346/2865 [1:26:00<1:14:53,  2.96s/it] 47%|███████████████████████████████████████████████▍                                                     | 1347/2865 [1:26:03<1:14:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0256, 'grad_norm': 1.0859375, 'learning_rate': 3.189841466214233e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21314.79, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▍                                                     | 1347/2865 [1:26:03<1:14:48,  2.96s/it] 47%|███████████████████████████████████████████████▌                                                     | 1348/2865 [1:26:06<1:14:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0244, 'grad_norm': 1.1171875, 'learning_rate': 3.186913829328586e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21550.13, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▌                                                     | 1348/2865 [1:26:06<1:14:43,  2.96s/it] 47%|███████████████████████████████████████████████▌                                                     | 1349/2865 [1:26:09<1:14:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0065, 'grad_norm': 1.03125, 'learning_rate': 3.183985173149409e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19934.56, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▌                                                     | 1349/2865 [1:26:09<1:14:43,  2.96s/it] 47%|███████████████████████████████████████████████▌                                                     | 1350/2865 [1:26:12<1:14:36,  2.95s/it]                                                                                                                                                  {'loss': 11.0036, 'grad_norm': 1.0859375, 'learning_rate': 3.18105550202246e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19595.66, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▌                                                     | 1350/2865 [1:26:12<1:14:36,  2.95s/it] 47%|███████████████████████████████████████████████▋                                                     | 1351/2865 [1:26:15<1:14:33,  2.95s/it]                                                                                                                                                  {'loss': 11.0486, 'grad_norm': 1.171875, 'learning_rate': 3.178124820294999e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21349.29, 'epoch': 1.41}
 47%|███████████████████████████████████████████████▋                                                     | 1351/2865 [1:26:15<1:14:33,  2.95s/it] 47%|███████████████████████████████████████████████▋                                                     | 1352/2865 [1:26:18<1:14:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0073, 'grad_norm': 1.0625, 'learning_rate': 3.175193132315792e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21811.84, 'epoch': 1.42}
 47%|███████████████████████████████████████████████▋                                                     | 1352/2865 [1:26:18<1:14:31,  2.96s/it] 47%|███████████████████████████████████████████████▋                                                     | 1353/2865 [1:26:21<1:14:27,  2.95s/it]                                                                                                                                                  {'loss': 11.042, 'grad_norm': 1.25, 'learning_rate': 3.172260442435091e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22082.06, 'epoch': 1.42}
 47%|███████████████████████████████████████████████▋                                                     | 1353/2865 [1:26:21<1:14:27,  2.95s/it] 47%|███████████████████████████████████████████████▋                                                     | 1354/2865 [1:26:24<1:14:24,  2.95s/it]                                                                                                                                                  {'loss': 11.0126, 'grad_norm': 1.0859375, 'learning_rate': 3.16932675500464e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20168.49, 'epoch': 1.42}
 47%|███████████████████████████████████████████████▋                                                     | 1354/2865 [1:26:24<1:14:24,  2.95s/it] 47%|███████████████████████████████████████████████▊                                                     | 1355/2865 [1:26:27<1:14:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0101, 'grad_norm': 1.125, 'learning_rate': 3.16639207437766e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19608.08, 'epoch': 1.42}
 47%|███████████████████████████████████████████████▊                                                     | 1355/2865 [1:26:27<1:14:23,  2.96s/it] 47%|███████████████████████████████████████████████▊                                                     | 1356/2865 [1:26:30<1:14:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0327, 'grad_norm': 1.0390625, 'learning_rate': 3.163456404908848e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22020.36, 'epoch': 1.42}
 47%|███████████████████████████████████████████████▊                                                     | 1356/2865 [1:26:30<1:14:20,  2.96s/it] 47%|███████████████████████████████████████████████▊                                                     | 1357/2865 [1:26:33<1:14:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0294, 'grad_norm': 1.1015625, 'learning_rate': 3.160519750954367e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22327.27, 'epoch': 1.42}
 47%|███████████████████████████████████████████████▊                                                     | 1357/2865 [1:26:33<1:14:17,  2.96s/it] 47%|███████████████████████████████████████████████▊                                                     | 1358/2865 [1:26:36<1:14:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0029, 'grad_norm': 1.0546875, 'learning_rate': 3.157582116871842e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22478.94, 'epoch': 1.42}
 47%|███████████████████████████████████████████████▊                                                     | 1358/2865 [1:26:36<1:14:17,  2.96s/it] 47%|███████████████████████████████████████████████▉                                                     | 1359/2865 [1:26:39<1:14:08,  2.95s/it]                                                                                                                                                  {'loss': 11.0034, 'grad_norm': 1.3046875, 'learning_rate': 3.154643507020351e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21197.16, 'epoch': 1.42}
 47%|███████████████████████████████████████████████▉                                                     | 1359/2865 [1:26:39<1:14:08,  2.95s/it] 47%|███████████████████████████████████████████████▉                                                     | 1360/2865 [1:26:42<1:14:05,  2.95s/it]                                                                                                                                                  {'loss': 10.9894, 'grad_norm': 1.078125, 'learning_rate': 3.15170392576042e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21095.96, 'epoch': 1.42}
 47%|███████████████████████████████████████████████▉                                                     | 1360/2865 [1:26:42<1:14:05,  2.95s/it] 48%|███████████████████████████████████████████████▉                                                     | 1361/2865 [1:26:45<1:14:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0324, 'grad_norm': 1.2734375, 'learning_rate': 3.1487633774540185e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22276.77, 'epoch': 1.43}
 48%|███████████████████████████████████████████████▉                                                     | 1361/2865 [1:26:45<1:14:06,  2.96s/it] 48%|████████████████████████████████████████████████                                                     | 1362/2865 [1:26:47<1:14:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.078125, 'learning_rate': 3.145821866464549e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21167.32, 'epoch': 1.43}
 48%|████████████████████████████████████████████████                                                     | 1362/2865 [1:26:48<1:14:04,  2.96s/it] 48%|████████████████████████████████████████████████                                                     | 1363/2865 [1:26:50<1:14:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0267, 'grad_norm': 1.4375, 'learning_rate': 3.142879397156842e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21816.89, 'epoch': 1.43}
 48%|████████████████████████████████████████████████                                                     | 1363/2865 [1:26:50<1:14:05,  2.96s/it] 48%|████████████████████████████████████████████████                                                     | 1364/2865 [1:26:53<1:14:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0192, 'grad_norm': 1.0546875, 'learning_rate': 3.1399359738971524e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22313.81, 'epoch': 1.43}
 48%|████████████████████████████████████████████████                                                     | 1364/2865 [1:26:53<1:14:03,  2.96s/it] 48%|████████████████████████████████████████████████                                                     | 1365/2865 [1:26:56<1:13:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0242, 'grad_norm': 1.109375, 'learning_rate': 3.136991601053148e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20470.78, 'epoch': 1.43}
 48%|████████████████████████████████████████████████                                                     | 1365/2865 [1:26:56<1:13:57,  2.96s/it] 48%|████████████████████████████████████████████████▏                                                    | 1366/2865 [1:26:59<1:13:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0102, 'grad_norm': 1.03125, 'learning_rate': 3.1340462829939076e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22906.41, 'epoch': 1.43}
 48%|████████████████████████████████████████████████▏                                                    | 1366/2865 [1:26:59<1:13:57,  2.96s/it] 48%|████████████████████████████████████████████████▏                                                    | 1367/2865 [1:27:02<1:13:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0056, 'grad_norm': 1.359375, 'learning_rate': 3.1311000240899124e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21460.52, 'epoch': 1.43}
 48%|████████████████████████████████████████████████▏                                                    | 1367/2865 [1:27:02<1:13:49,  2.96s/it] 48%|████████████████████████████████████████████████▏                                                    | 1368/2865 [1:27:05<1:13:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0307, 'grad_norm': 1.046875, 'learning_rate': 3.128152828713039e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21946.74, 'epoch': 1.43}
 48%|████████████████████████████████████████████████▏                                                    | 1368/2865 [1:27:05<1:13:45,  2.96s/it] 48%|████████████████████████████████████████████████▎                                                    | 1369/2865 [1:27:08<1:13:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0206, 'grad_norm': 1.140625, 'learning_rate': 3.125204701236553e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21999.6, 'epoch': 1.43}
 48%|████████████████████████████████████████████████▎                                                    | 1369/2865 [1:27:08<1:13:41,  2.96s/it] 48%|████████████████████████████████████████████████▎                                                    | 1370/2865 [1:27:11<1:13:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0524, 'grad_norm': 1.0625, 'learning_rate': 3.1222556460351044e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22185.34, 'epoch': 1.43}
 48%|████████████████████████████████████████████████▎                                                    | 1370/2865 [1:27:11<1:13:40,  2.96s/it] 48%|████████████████████████████████████████████████▎                                                    | 1371/2865 [1:27:14<1:13:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0207, 'grad_norm': 1.09375, 'learning_rate': 3.1193056674847186e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22599.52, 'epoch': 1.44}
 48%|████████████████████████████████████████████████▎                                                    | 1371/2865 [1:27:14<1:13:39,  2.96s/it] 48%|████████████████████████████████████████████████▎                                                    | 1372/2865 [1:27:17<1:13:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0428, 'grad_norm': 1.0390625, 'learning_rate': 3.116354769962794e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22522.08, 'epoch': 1.44}
 48%|████████████████████████████████████████████████▎                                                    | 1372/2865 [1:27:17<1:13:38,  2.96s/it] 48%|████████████████████████████████████████████████▍                                                    | 1373/2865 [1:27:20<1:13:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0223, 'grad_norm': 1.0859375, 'learning_rate': 3.1134029578480883e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22003.8, 'epoch': 1.44}
 48%|████████████████████████████████████████████████▍                                                    | 1373/2865 [1:27:20<1:13:33,  2.96s/it] 48%|████████████████████████████████████████████████▍                                                    | 1374/2865 [1:27:23<1:13:28,  2.96s/it]                                                                                                                                                  {'loss': 11.01, 'grad_norm': 1.2421875, 'learning_rate': 3.11045023552072e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20751.02, 'epoch': 1.44}
 48%|████████████████████████████████████████████████▍                                                    | 1374/2865 [1:27:23<1:13:28,  2.96s/it] 48%|████████████████████████████████████████████████▍                                                    | 1375/2865 [1:27:26<1:13:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0022, 'grad_norm': 1.1328125, 'learning_rate': 3.107496607362156e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21380.78, 'epoch': 1.44}
 48%|████████████████████████████████████████████████▍                                                    | 1375/2865 [1:27:26<1:13:25,  2.96s/it] 48%|████████████████████████████████████████████████▌                                                    | 1376/2865 [1:27:29<1:13:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0216, 'grad_norm': 1.0390625, 'learning_rate': 3.104542077755208e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21425.93, 'epoch': 1.44}
 48%|████████████████████████████████████████████████▌                                                    | 1376/2865 [1:27:29<1:13:19,  2.95s/it] 48%|████████████████████████████████████████████████▌                                                    | 1377/2865 [1:27:32<1:13:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0125, 'grad_norm': 1.0625, 'learning_rate': 3.101586651084027e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21442.67, 'epoch': 1.44}
 48%|████████████████████████████████████████████████▌                                                    | 1377/2865 [1:27:32<1:13:20,  2.96s/it] 48%|████████████████████████████████████████████████▌                                                    | 1378/2865 [1:27:35<1:13:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0303, 'grad_norm': 1.09375, 'learning_rate': 3.0986303317340914e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22564.69, 'epoch': 1.44}
 48%|████████████████████████████████████████████████▌                                                    | 1378/2865 [1:27:35<1:13:17,  2.96s/it] 48%|████████████████████████████████████████████████▌                                                    | 1379/2865 [1:27:38<1:13:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0065, 'grad_norm': 1.046875, 'learning_rate': 3.095673124092208e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21445.2, 'epoch': 1.44}
 48%|████████████████████████████████████████████████▌                                                    | 1379/2865 [1:27:38<1:13:11,  2.96s/it] 48%|████████████████████████████████████████████████▋                                                    | 1380/2865 [1:27:41<1:13:04,  2.95s/it]                                                                                                                                                  {'loss': 11.0016, 'grad_norm': 1.046875, 'learning_rate': 3.0927150325465e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21129.96, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▋                                                    | 1380/2865 [1:27:41<1:13:04,  2.95s/it] 48%|████████████████████████████████████████████████▋                                                    | 1381/2865 [1:27:44<1:13:05,  2.95s/it]                                                                                                                                                  {'loss': 11.0259, 'grad_norm': 1.109375, 'learning_rate': 3.0897560614864006e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22197.89, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▋                                                    | 1381/2865 [1:27:44<1:13:05,  2.95s/it] 48%|████████████████████████████████████████████████▋                                                    | 1382/2865 [1:27:47<1:12:59,  2.95s/it]                                                                                                                                                  {'loss': 11.029, 'grad_norm': 1.125, 'learning_rate': 3.086796215302653e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21102.79, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▋                                                    | 1382/2865 [1:27:47<1:12:59,  2.95s/it] 48%|████████████████████████████████████████████████▊                                                    | 1383/2865 [1:27:50<1:12:59,  2.95s/it]                                                                                                                                                  {'loss': 11.0185, 'grad_norm': 1.0546875, 'learning_rate': 3.0838354983872936e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22139.34, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▊                                                    | 1383/2865 [1:27:50<1:12:59,  2.95s/it] 48%|████████████████████████████████████████████████▊                                                    | 1384/2865 [1:27:53<1:13:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0109, 'grad_norm': 1.0703125, 'learning_rate': 3.080873915133653e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22456.9, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▊                                                    | 1384/2865 [1:27:53<1:13:00,  2.96s/it] 48%|████████████████████████████████████████████████▊                                                    | 1385/2865 [1:27:56<1:12:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0333, 'grad_norm': 1.03125, 'learning_rate': 3.077911469936349e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22256.51, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▊                                                    | 1385/2865 [1:27:56<1:12:57,  2.96s/it] 48%|████████████████████████████████████████████████▊                                                    | 1386/2865 [1:27:58<1:12:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.0625, 'learning_rate': 3.074948167191276e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22238.87, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▊                                                    | 1386/2865 [1:27:58<1:12:53,  2.96s/it] 48%|████████████████████████████████████████████████▉                                                    | 1387/2865 [1:28:01<1:12:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0254, 'grad_norm': 1.046875, 'learning_rate': 3.0719840112956004e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22646.11, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▉                                                    | 1387/2865 [1:28:01<1:12:50,  2.96s/it] 48%|████████████████████████████████████████████████▉                                                    | 1388/2865 [1:28:04<1:12:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0085, 'grad_norm': 1.0625, 'learning_rate': 3.069019006647758e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22660.67, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▉                                                    | 1388/2865 [1:28:04<1:12:46,  2.96s/it] 48%|████████████████████████████████████████████████▉                                                    | 1389/2865 [1:28:07<1:12:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0139, 'grad_norm': 1.0546875, 'learning_rate': 3.06605315764744e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21421.82, 'epoch': 1.45}
 48%|████████████████████████████████████████████████▉                                                    | 1389/2865 [1:28:07<1:12:44,  2.96s/it] 49%|█████████████████████████████████████████████████                                                    | 1390/2865 [1:28:10<1:12:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0171, 'grad_norm': 1.046875, 'learning_rate': 3.063086468695594e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22526.51, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████                                                    | 1390/2865 [1:28:10<1:12:42,  2.96s/it] 49%|█████████████████████████████████████████████████                                                    | 1391/2865 [1:28:13<1:12:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0117, 'grad_norm': 1.0546875, 'learning_rate': 3.060118944194412e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20936.11, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████                                                    | 1391/2865 [1:28:13<1:12:37,  2.96s/it] 49%|█████████████████████████████████████████████████                                                    | 1392/2865 [1:28:16<1:12:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0144, 'grad_norm': 1.03125, 'learning_rate': 3.057150588547326e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20886.52, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████                                                    | 1392/2865 [1:28:16<1:12:36,  2.96s/it] 49%|█████████████████████████████████████████████████                                                    | 1393/2865 [1:28:19<1:12:30,  2.96s/it]                                                                                                                                                  {'loss': 11.009, 'grad_norm': 1.3203125, 'learning_rate': 3.054181406159001e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20946.09, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████                                                    | 1393/2865 [1:28:19<1:12:30,  2.96s/it] 49%|█████████████████████████████████████████████████▏                                                   | 1394/2865 [1:28:22<1:12:24,  2.95s/it]                                                                                                                                                  {'loss': 11.0043, 'grad_norm': 1.1171875, 'learning_rate': 3.051211401435331e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20820.73, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████▏                                                   | 1394/2865 [1:28:22<1:12:24,  2.95s/it] 49%|█████████████████████████████████████████████████▏                                                   | 1395/2865 [1:28:25<1:12:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0051, 'grad_norm': 1.2109375, 'learning_rate': 3.0482405787834267e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21801.21, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████▏                                                   | 1395/2865 [1:28:25<1:12:19,  2.95s/it] 49%|█████████████████████████████████████████████████▏                                                   | 1396/2865 [1:28:28<1:12:17,  2.95s/it]                                                                                                                                                  {'loss': 11.0207, 'grad_norm': 1.078125, 'learning_rate': 3.045268942611616e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21844.67, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████▏                                                   | 1396/2865 [1:28:28<1:12:17,  2.95s/it] 49%|█████████████████████████████████████████████████▏                                                   | 1397/2865 [1:28:31<1:12:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0072, 'grad_norm': 1.1328125, 'learning_rate': 3.042296497329431e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21403.37, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████▏                                                   | 1397/2865 [1:28:31<1:12:19,  2.96s/it] 49%|█████████████████████████████████████████████████▎                                                   | 1398/2865 [1:28:34<1:12:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0297, 'grad_norm': 1.1875, 'learning_rate': 3.0393232473476076e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21829.44, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████▎                                                   | 1398/2865 [1:28:34<1:12:19,  2.96s/it] 49%|█████████████████████████████████████████████████▎                                                   | 1399/2865 [1:28:37<1:12:11,  2.95s/it]                                                                                                                                                  {'loss': 11.0054, 'grad_norm': 1.0625, 'learning_rate': 3.0363491970780717e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20601.74, 'epoch': 1.46}
 49%|█████████████████████████████████████████████████▎                                                   | 1399/2865 [1:28:37<1:12:11,  2.95s/it] 49%|█████████████████████████████████████████████████▎                                                   | 1400/2865 [1:28:40<1:12:08,  2.95s/it]                                                                                                                                                  {'loss': 10.9918, 'grad_norm': 1.046875, 'learning_rate': 3.033374350933941e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22203.8, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████▎                                                   | 1400/2865 [1:28:40<1:12:08,  2.95s/it][2025-10-12 04:37:32,664] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:56,  1.29s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:48,  1.08it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:11,  1.37it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:48,  1.65it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:34,  1.90it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:25,  2.08it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:21,  2.16it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:18,  2.23it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:14,  2.34it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:10,  2.46it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:10,  2.46it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:10,  2.45it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:08,  2.50it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:04,  2.65it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:09,  2.44it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:08,  2.46it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:07,  2.49it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:06,  2.49it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:04,  2.56it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:05,  2.51it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.52it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:03,  2.54it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:04,  2.50it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:01,  2.59it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<00:59,  2.68it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:03,  2.48it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:01,  2.54it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:00,  2.59it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:02,  2.49it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<01:00,  2.53it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.52it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:59,  2.55it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:59,  2.55it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:59,  2.52it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:58,  2.53it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.52it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.55it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:56,  2.58it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:56,  2.55it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:55,  2.60it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:55,  2.59it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:56,  2.52it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:56,  2.51it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:53,  2.61it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:55,  2.51it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.51it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:54,  2.53it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:54,  2.50it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.52it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:53,  2.52it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:51,  2.57it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:51,  2.54it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:49,  2.61it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:50,  2.53it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.54it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:49,  2.54it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:49,  2.56it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.52it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:48,  2.54it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:47,  2.58it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.57it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:47,  2.56it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:46,  2.60it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:44,  2.66it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:47,  2.49it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:47,  2.48it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.54it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:44,  2.58it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:43,  2.59it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.52it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:45,  2.49it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:44,  2.52it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.55it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.55it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:40,  2.65it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:41,  2.61it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.53it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.56it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.54it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.54it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:40,  2.55it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:38,  2.62it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:38,  2.58it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.59it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:39,  2.51it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.53it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.55it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.56it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.55it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:35,  2.60it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:35,  2.57it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.58it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:34,  2.62it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.54it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:34,  2.56it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.53it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:34,  2.51it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.54it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.61it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.59it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:32,  2.55it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.57it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:30,  2.62it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.54it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.55it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:30,  2.56it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.54it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.55it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.61it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.61it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.57it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:26,  2.63it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:26,  2.61it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:26,  2.57it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.52it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.53it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.63it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.59it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:24,  2.57it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.52it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.56it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:23,  2.58it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:24,  2.50it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.52it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.56it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:22,  2.56it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.62it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.56it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.53it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.59it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:20,  2.57it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:20,  2.54it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.56it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.56it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:19,  2.50it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.51it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:17,  2.59it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.56it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.56it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.55it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.51it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:15,  2.60it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.52it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.53it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:15,  2.52it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.58it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.54it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.59it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.56it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.57it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.54it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.55it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.63it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:11,  2.52it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.58it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.55it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.52it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.53it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.54it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.55it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.56it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.65it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.52it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.53it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.57it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.52it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.52it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.51it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.57it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.57it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.51it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.54it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.52it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.57it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.56it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.55it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.54it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.56it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.63it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.51it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.57it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.03it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.99557876586914, 'eval_runtime': 78.4835, 'eval_samples_per_second': 151.076, 'eval_steps_per_second': 2.37, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████▎                                                   | 1400/2865 [1:29:58<1:12:08,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.03it/s][A
                                                                                                                                                  [A[2025-10-12 04:38:51,167] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1400
 49%|████████████████████████████████████████████████▉                                                   | 1401/2865 [1:30:09<11:39:48, 28.68s/it]                                                                                                                                                  {'loss': 11.0131, 'grad_norm': 1.0390625, 'learning_rate': 3.0303987133295103e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19348.66, 'epoch': 1.47}
 49%|████████████████████████████████████████████████▉                                                   | 1401/2865 [1:30:09<11:39:48, 28.68s/it] 49%|█████████████████████████████████████████████████▍                                                   | 1402/2865 [1:30:11<8:31:05, 20.96s/it]                                                                                                                                                  {'loss': 11.0229, 'grad_norm': 1.2421875, 'learning_rate': 3.027422288680253e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22228.89, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████▍                                                   | 1402/2865 [1:30:12<8:31:05, 20.96s/it] 49%|█████████████████████████████████████████████████▍                                                   | 1403/2865 [1:30:14<6:19:08, 15.56s/it]                                                                                                                                                  {'loss': 11.0117, 'grad_norm': 1.0546875, 'learning_rate': 3.024445081402806e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21778.9, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████▍                                                   | 1403/2865 [1:30:14<6:19:08, 15.56s/it] 49%|█████████████████████████████████████████████████▍                                                   | 1404/2865 [1:30:17<4:46:42, 11.77s/it]                                                                                                                                                  {'loss': 10.9983, 'grad_norm': 1.1328125, 'learning_rate': 3.0214670959149706e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21237.08, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████▍                                                   | 1404/2865 [1:30:17<4:46:42, 11.77s/it] 49%|█████████████████████████████████████████████████▌                                                   | 1405/2865 [1:30:20<3:42:02,  9.12s/it]                                                                                                                                                  {'loss': 11.0091, 'grad_norm': 1.046875, 'learning_rate': 3.0184883366357013e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21264.37, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████▌                                                   | 1405/2865 [1:30:20<3:42:02,  9.12s/it] 49%|█████████████████████████████████████████████████▌                                                   | 1406/2865 [1:30:23<2:57:00,  7.28s/it]                                                                                                                                                  {'loss': 11.013, 'grad_norm': 1.125, 'learning_rate': 3.0155088079851018e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22320.37, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████▌                                                   | 1406/2865 [1:30:23<2:57:00,  7.28s/it] 49%|█████████████████████████████████████████████████▌                                                   | 1407/2865 [1:30:26<2:25:19,  5.98s/it]                                                                                                                                                  {'loss': 10.9891, 'grad_norm': 1.125, 'learning_rate': 3.0125285143844172e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19796.74, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████▌                                                   | 1407/2865 [1:30:26<2:25:19,  5.98s/it] 49%|█████████████████████████████████████████████████▋                                                   | 1408/2865 [1:30:29<2:03:07,  5.07s/it]                                                                                                                                                  {'loss': 10.9964, 'grad_norm': 1.265625, 'learning_rate': 3.009547460256027e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20372.84, 'epoch': 1.47}
 49%|█████████████████████████████████████████████████▋                                                   | 1408/2865 [1:30:29<2:03:07,  5.07s/it] 49%|█████████████████████████████████████████████████▋                                                   | 1409/2865 [1:30:32<1:47:41,  4.44s/it]                                                                                                                                                  {'loss': 11.0121, 'grad_norm': 1.0625, 'learning_rate': 3.00656565002344e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20539.5, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▋                                                   | 1409/2865 [1:30:32<1:47:41,  4.44s/it] 49%|█████████████████████████████████████████████████▋                                                   | 1410/2865 [1:30:35<1:36:54,  4.00s/it]                                                                                                                                                  {'loss': 11.0404, 'grad_norm': 1.0546875, 'learning_rate': 3.003583088111287e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20835.69, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▋                                                   | 1410/2865 [1:30:35<1:36:54,  4.00s/it] 49%|█████████████████████████████████████████████████▋                                                   | 1411/2865 [1:30:38<1:29:15,  3.68s/it]                                                                                                                                                  {'loss': 11.0093, 'grad_norm': 1.078125, 'learning_rate': 3.0005997789453134e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20050.24, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▋                                                   | 1411/2865 [1:30:38<1:29:15,  3.68s/it] 49%|█████████████████████████████████████████████████▊                                                   | 1412/2865 [1:30:41<1:23:55,  3.47s/it]                                                                                                                                                  {'loss': 11.0527, 'grad_norm': 1.140625, 'learning_rate': 2.9976157269523734e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21642.51, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▊                                                   | 1412/2865 [1:30:41<1:23:55,  3.47s/it] 49%|█████████████████████████████████████████████████▊                                                   | 1413/2865 [1:30:44<1:20:11,  3.31s/it]                                                                                                                                                  {'loss': 11.0, 'grad_norm': 1.03125, 'learning_rate': 2.994630936560425e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21520.04, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▊                                                   | 1413/2865 [1:30:44<1:20:11,  3.31s/it] 49%|█████████████████████████████████████████████████▊                                                   | 1414/2865 [1:30:47<1:17:34,  3.21s/it]                                                                                                                                                  {'loss': 10.9951, 'grad_norm': 1.046875, 'learning_rate': 2.991645412198521e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21953.27, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▊                                                   | 1414/2865 [1:30:47<1:17:34,  3.21s/it] 49%|█████████████████████████████████████████████████▉                                                   | 1415/2865 [1:30:50<1:15:40,  3.13s/it]                                                                                                                                                  {'loss': 11.0311, 'grad_norm': 1.0390625, 'learning_rate': 2.9886591582968022e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21127.29, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▉                                                   | 1415/2865 [1:30:50<1:15:40,  3.13s/it] 49%|█████████████████████████████████████████████████▉                                                   | 1416/2865 [1:30:53<1:14:23,  3.08s/it]                                                                                                                                                  {'loss': 11.0151, 'grad_norm': 1.03125, 'learning_rate': 2.9856721792864932e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22395.82, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▉                                                   | 1416/2865 [1:30:53<1:14:23,  3.08s/it] 49%|█████████████████████████████████████████████████▉                                                   | 1417/2865 [1:30:56<1:13:24,  3.04s/it]                                                                                                                                                  {'loss': 11.0129, 'grad_norm': 1.171875, 'learning_rate': 2.982684479599895e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20763.2, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▉                                                   | 1417/2865 [1:30:56<1:13:24,  3.04s/it] 49%|█████████████████████████████████████████████████▉                                                   | 1418/2865 [1:30:59<1:12:43,  3.02s/it]                                                                                                                                                  {'loss': 11.0238, 'grad_norm': 1.0390625, 'learning_rate': 2.9796960636703764e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21575.04, 'epoch': 1.48}
 49%|█████████████████████████████████████████████████▉                                                   | 1418/2865 [1:30:59<1:12:43,  3.02s/it] 50%|██████████████████████████████████████████████████                                                   | 1419/2865 [1:31:02<1:12:15,  3.00s/it]                                                                                                                                                  {'loss': 11.0148, 'grad_norm': 1.0234375, 'learning_rate': 2.9767069359323706e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19698.25, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████                                                   | 1419/2865 [1:31:02<1:12:15,  3.00s/it] 50%|██████████████████████████████████████████████████                                                   | 1420/2865 [1:31:05<1:11:53,  2.99s/it]                                                                                                                                                  {'loss': 11.0049, 'grad_norm': 1.046875, 'learning_rate': 2.9737171008213666e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21051.2, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████                                                   | 1420/2865 [1:31:05<1:11:53,  2.99s/it] 50%|██████████████████████████████████████████████████                                                   | 1421/2865 [1:31:08<1:11:34,  2.97s/it]                                                                                                                                                  {'loss': 11.0053, 'grad_norm': 1.0546875, 'learning_rate': 2.9707265627739018e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21359.78, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████                                                   | 1421/2865 [1:31:08<1:11:34,  2.97s/it] 50%|██████████████████████████████████████████████████▏                                                  | 1422/2865 [1:31:11<1:11:23,  2.97s/it]                                                                                                                                                  {'loss': 11.0289, 'grad_norm': 1.1015625, 'learning_rate': 2.967735326227558e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21983.11, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████▏                                                  | 1422/2865 [1:31:11<1:11:23,  2.97s/it] 50%|██████████████████████████████████████████████████▏                                                  | 1423/2865 [1:31:14<1:11:19,  2.97s/it]                                                                                                                                                  {'loss': 11.0204, 'grad_norm': 1.203125, 'learning_rate': 2.9647433956209535e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21176.54, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████▏                                                  | 1423/2865 [1:31:14<1:11:19,  2.97s/it] 50%|██████████████████████████████████████████████████▏                                                  | 1424/2865 [1:31:17<1:11:10,  2.96s/it]                                                                                                                                                  {'loss': 10.9975, 'grad_norm': 1.109375, 'learning_rate': 2.9617507753937363e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19627.98, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████▏                                                  | 1424/2865 [1:31:17<1:11:10,  2.96s/it] 50%|██████████████████████████████████████████████████▏                                                  | 1425/2865 [1:31:19<1:11:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0194, 'grad_norm': 1.0390625, 'learning_rate': 2.9587574699865774e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21963.6, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████▏                                                  | 1425/2865 [1:31:19<1:11:02,  2.96s/it] 50%|██████████████████████████████████████████████████▎                                                  | 1426/2865 [1:31:22<1:10:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.0390625, 'learning_rate': 2.9557634838411642e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22032.26, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████▎                                                  | 1426/2865 [1:31:22<1:10:54,  2.96s/it] 50%|██████████████████████████████████████████████████▎                                                  | 1427/2865 [1:31:25<1:10:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0413, 'grad_norm': 1.078125, 'learning_rate': 2.952768821400196e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22516.9, 'epoch': 1.49}
 50%|██████████████████████████████████████████████████▎                                                  | 1427/2865 [1:31:25<1:10:52,  2.96s/it] 50%|██████████████████████████████████████████████████▎                                                  | 1428/2865 [1:31:28<1:10:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0222, 'grad_norm': 1.078125, 'learning_rate': 2.9497734871073725e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21510.64, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▎                                                  | 1428/2865 [1:31:28<1:10:50,  2.96s/it] 50%|██████████████████████████████████████████████████▍                                                  | 1429/2865 [1:31:31<1:10:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0083, 'grad_norm': 1.1796875, 'learning_rate': 2.9467774854073927e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21203.5, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▍                                                  | 1429/2865 [1:31:31<1:10:41,  2.95s/it] 50%|██████████████████████████████████████████████████▍                                                  | 1430/2865 [1:31:34<1:10:39,  2.95s/it]                                                                                                                                                  {'loss': 11.022, 'grad_norm': 1.09375, 'learning_rate': 2.943780820745946e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21783.67, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▍                                                  | 1430/2865 [1:31:34<1:10:39,  2.95s/it] 50%|██████████████████████████████████████████████████▍                                                  | 1431/2865 [1:31:37<1:10:37,  2.95s/it]                                                                                                                                                  {'loss': 11.0285, 'grad_norm': 1.03125, 'learning_rate': 2.940783497569706e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22292.78, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▍                                                  | 1431/2865 [1:31:37<1:10:37,  2.95s/it] 50%|██████████████████████████████████████████████████▍                                                  | 1432/2865 [1:31:40<1:10:37,  2.96s/it]                                                                                                                                                  {'loss': 10.9991, 'grad_norm': 1.125, 'learning_rate': 2.93778552032632e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21661.15, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▍                                                  | 1432/2865 [1:31:40<1:10:37,  2.96s/it] 50%|██████████████████████████████████████████████████▌                                                  | 1433/2865 [1:31:43<1:10:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0197, 'grad_norm': 1.046875, 'learning_rate': 2.9347868934644103e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22143.76, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▌                                                  | 1433/2865 [1:31:43<1:10:35,  2.96s/it] 50%|██████████████████████████████████████████████████▌                                                  | 1434/2865 [1:31:46<1:10:29,  2.96s/it]                                                                                                                                                  {'loss': 10.9981, 'grad_norm': 1.0625, 'learning_rate': 2.93178762143356e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21026.48, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▌                                                  | 1434/2865 [1:31:46<1:10:29,  2.96s/it] 50%|██████████████████████████████████████████████████▌                                                  | 1435/2865 [1:31:49<1:10:22,  2.95s/it]                                                                                                                                                  {'loss': 11.0168, 'grad_norm': 1.1953125, 'learning_rate': 2.9287877086843112e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20448.11, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▌                                                  | 1435/2865 [1:31:49<1:10:22,  2.95s/it] 50%|██████████████████████████████████████████████████▌                                                  | 1436/2865 [1:31:52<1:10:25,  2.96s/it]                                                                                                                                                  {'loss': 11.031, 'grad_norm': 1.046875, 'learning_rate': 2.9257871596681562e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21497.51, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▌                                                  | 1436/2865 [1:31:52<1:10:25,  2.96s/it] 50%|██████████████████████████████████████████████████▋                                                  | 1437/2865 [1:31:55<1:10:22,  2.96s/it]                                                                                                                                                  {'loss': 11.017, 'grad_norm': 1.2890625, 'learning_rate': 2.9227859788375316e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21304.07, 'epoch': 1.5}
 50%|██████████████████████████████████████████████████▋                                                  | 1437/2865 [1:31:55<1:10:22,  2.96s/it] 50%|██████████████████████████████████████████████████▋                                                  | 1438/2865 [1:31:58<1:10:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0244, 'grad_norm': 1.1015625, 'learning_rate': 2.9197841706458118e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21768.18, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████▋                                                  | 1438/2865 [1:31:58<1:10:19,  2.96s/it] 50%|██████████████████████████████████████████████████▋                                                  | 1439/2865 [1:32:01<1:10:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0159, 'grad_norm': 1.140625, 'learning_rate': 2.9167817395473007e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21601.7, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████▋                                                  | 1439/2865 [1:32:01<1:10:21,  2.96s/it] 50%|██████████████████████████████████████████████████▊                                                  | 1440/2865 [1:32:04<1:10:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0199, 'grad_norm': 1.03125, 'learning_rate': 2.9137786899972282e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21096.78, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████▊                                                  | 1440/2865 [1:32:04<1:10:18,  2.96s/it] 50%|██████████████████████████████████████████████████▊                                                  | 1441/2865 [1:32:07<1:10:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0069, 'grad_norm': 1.1015625, 'learning_rate': 2.9107750264517415e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21095.55, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████▊                                                  | 1441/2865 [1:32:07<1:10:10,  2.96s/it] 50%|██████████████████████████████████████████████████▊                                                  | 1442/2865 [1:32:10<1:10:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.0546875, 'learning_rate': 2.9077707533678977e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20482.09, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████▊                                                  | 1442/2865 [1:32:10<1:10:06,  2.96s/it] 50%|██████████████████████████████████████████████████▊                                                  | 1443/2865 [1:32:13<1:10:05,  2.96s/it]                                                                                                                                                  {'loss': 10.9989, 'grad_norm': 1.1171875, 'learning_rate': 2.904765875203661e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22150.53, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████▊                                                  | 1443/2865 [1:32:13<1:10:05,  2.96s/it] 50%|██████████████████████████████████████████████████▉                                                  | 1444/2865 [1:32:16<1:10:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0104, 'grad_norm': 1.1953125, 'learning_rate': 2.9017603964178898e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21896.71, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████▉                                                  | 1444/2865 [1:32:16<1:10:02,  2.96s/it] 50%|██████████████████████████████████████████████████▉                                                  | 1445/2865 [1:32:19<1:09:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0053, 'grad_norm': 1.09375, 'learning_rate': 2.898754321470337e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21708.15, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████▉                                                  | 1445/2865 [1:32:19<1:09:57,  2.96s/it] 50%|██████████████████████████████████████████████████▉                                                  | 1446/2865 [1:32:22<1:09:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0281, 'grad_norm': 1.078125, 'learning_rate': 2.895747654821639e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21048.7, 'epoch': 1.51}
 50%|██████████████████████████████████████████████████▉                                                  | 1446/2865 [1:32:22<1:09:54,  2.96s/it] 51%|███████████████████████████████████████████████████                                                  | 1447/2865 [1:32:24<1:09:47,  2.95s/it]                                                                                                                                                  {'loss': 11.0133, 'grad_norm': 1.078125, 'learning_rate': 2.892740400933309e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20162.46, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████                                                  | 1447/2865 [1:32:25<1:09:47,  2.95s/it] 51%|███████████████████████████████████████████████████                                                  | 1448/2865 [1:32:27<1:09:42,  2.95s/it]                                                                                                                                                  {'loss': 11.0129, 'grad_norm': 1.140625, 'learning_rate': 2.8897325642677335e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21499.35, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████                                                  | 1448/2865 [1:32:27<1:09:42,  2.95s/it] 51%|███████████████████████████████████████████████████                                                  | 1449/2865 [1:32:30<1:09:38,  2.95s/it]                                                                                                                                                  {'loss': 11.009, 'grad_norm': 1.1015625, 'learning_rate': 2.886724149288163e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21540.86, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████                                                  | 1449/2865 [1:32:30<1:09:38,  2.95s/it] 51%|███████████████████████████████████████████████████                                                  | 1450/2865 [1:32:33<1:09:35,  2.95s/it]                                                                                                                                                  {'loss': 11.0278, 'grad_norm': 1.171875, 'learning_rate': 2.8837151604587054e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21940.78, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████                                                  | 1450/2865 [1:32:33<1:09:35,  2.95s/it] 51%|███████████████████████████████████████████████████▏                                                 | 1451/2865 [1:32:36<1:09:31,  2.95s/it]                                                                                                                                                  {'loss': 11.0234, 'grad_norm': 1.0859375, 'learning_rate': 2.880705602244322e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20948.24, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████▏                                                 | 1451/2865 [1:32:36<1:09:31,  2.95s/it] 51%|███████████████████████████████████████████████████▏                                                 | 1452/2865 [1:32:39<1:09:31,  2.95s/it]                                                                                                                                                  {'loss': 11.0262, 'grad_norm': 1.171875, 'learning_rate': 2.877695479110817e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22001.7, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████▏                                                 | 1452/2865 [1:32:39<1:09:31,  2.95s/it] 51%|███████████████████████████████████████████████████▏                                                 | 1453/2865 [1:32:42<1:09:29,  2.95s/it]                                                                                                                                                  {'loss': 11.018, 'grad_norm': 1.0625, 'learning_rate': 2.8746847955248334e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20962.24, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████▏                                                 | 1453/2865 [1:32:42<1:09:29,  2.95s/it] 51%|███████████████████████████████████████████████████▎                                                 | 1454/2865 [1:32:45<1:09:28,  2.95s/it]                                                                                                                                                  {'loss': 11.0134, 'grad_norm': 1.0625, 'learning_rate': 2.8716735559538467e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22225.57, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████▎                                                 | 1454/2865 [1:32:45<1:09:28,  2.95s/it] 51%|███████████████████████████████████████████████████▎                                                 | 1455/2865 [1:32:48<1:09:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.1953125, 'learning_rate': 2.8686617648661552e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22245.29, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████▎                                                 | 1455/2865 [1:32:48<1:09:30,  2.96s/it] 51%|███████████████████████████████████████████████████▎                                                 | 1456/2865 [1:32:51<1:09:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0245, 'grad_norm': 1.0859375, 'learning_rate': 2.8656494267308798e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21579.38, 'epoch': 1.52}
 51%|███████████████████████████████████████████████████▎                                                 | 1456/2865 [1:32:51<1:09:28,  2.96s/it] 51%|███████████████████████████████████████████████████▎                                                 | 1457/2865 [1:32:54<1:09:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0054, 'grad_norm': 1.2421875, 'learning_rate': 2.8626365460179494e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20485.45, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████▎                                                 | 1457/2865 [1:32:54<1:09:21,  2.96s/it] 51%|███████████████████████████████████████████████████▍                                                 | 1458/2865 [1:32:57<1:09:17,  2.95s/it]                                                                                                                                                  {'loss': 11.0164, 'grad_norm': 1.0546875, 'learning_rate': 2.859623127198099e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21118.5, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████▍                                                 | 1458/2865 [1:32:57<1:09:17,  2.95s/it] 51%|███████████████████████████████████████████████████▍                                                 | 1459/2865 [1:33:00<1:09:14,  2.95s/it]                                                                                                                                                  {'loss': 11.0163, 'grad_norm': 1.0546875, 'learning_rate': 2.8566091747428618e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22411.55, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████▍                                                 | 1459/2865 [1:33:00<1:09:14,  2.95s/it] 51%|███████████████████████████████████████████████████▍                                                 | 1460/2865 [1:33:03<1:09:08,  2.95s/it]                                                                                                                                                  {'loss': 10.991, 'grad_norm': 1.1015625, 'learning_rate': 2.853594693124565e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21511.82, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████▍                                                 | 1460/2865 [1:33:03<1:09:08,  2.95s/it] 51%|███████████████████████████████████████████████████▌                                                 | 1461/2865 [1:33:06<1:09:08,  2.95s/it]                                                                                                                                                  {'loss': 11.0127, 'grad_norm': 1.0546875, 'learning_rate': 2.8505796868163177e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21998.37, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████▌                                                 | 1461/2865 [1:33:06<1:09:08,  2.95s/it] 51%|███████████████████████████████████████████████████▌                                                 | 1462/2865 [1:33:09<1:09:08,  2.96s/it]                                                                                                                                                  {'loss': 11.027, 'grad_norm': 1.09375, 'learning_rate': 2.8475641602920096e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20743.72, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████▌                                                 | 1462/2865 [1:33:09<1:09:08,  2.96s/it] 51%|███████████████████████████████████████████████████▌                                                 | 1463/2865 [1:33:12<1:09:06,  2.96s/it]                                                                                                                                                  {'loss': 10.995, 'grad_norm': 1.171875, 'learning_rate': 2.8445481180263016e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20985.88, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████▌                                                 | 1463/2865 [1:33:12<1:09:06,  2.96s/it] 51%|███████████████████████████████████████████████████▌                                                 | 1464/2865 [1:33:15<1:09:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0168, 'grad_norm': 1.0625, 'learning_rate': 2.841531564494621e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21452.25, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████▌                                                 | 1464/2865 [1:33:15<1:09:01,  2.96s/it] 51%|███████████████████████████████████████████████████▋                                                 | 1465/2865 [1:33:18<1:09:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0043, 'grad_norm': 1.0625, 'learning_rate': 2.838514504173152e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19945.79, 'epoch': 1.53}
 51%|███████████████████████████████████████████████████▋                                                 | 1465/2865 [1:33:18<1:09:00,  2.96s/it] 51%|███████████████████████████████████████████████████▋                                                 | 1466/2865 [1:33:21<1:08:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0071, 'grad_norm': 1.1328125, 'learning_rate': 2.8354969415388333e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21545.44, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▋                                                 | 1466/2865 [1:33:21<1:08:55,  2.96s/it] 51%|███████████████████████████████████████████████████▋                                                 | 1467/2865 [1:33:24<1:08:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0358, 'grad_norm': 1.140625, 'learning_rate': 2.832478881069346e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21749.42, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▋                                                 | 1467/2865 [1:33:24<1:08:59,  2.96s/it] 51%|███████████████████████████████████████████████████▊                                                 | 1468/2865 [1:33:27<1:08:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0351, 'grad_norm': 1.125, 'learning_rate': 2.829460327243112e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22355.25, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▊                                                 | 1468/2865 [1:33:27<1:08:56,  2.96s/it] 51%|███████████████████████████████████████████████████▊                                                 | 1469/2865 [1:33:30<1:08:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0366, 'grad_norm': 1.0546875, 'learning_rate': 2.8264412845392847e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20381.63, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▊                                                 | 1469/2865 [1:33:30<1:08:51,  2.96s/it] 51%|███████████████████████████████████████████████████▊                                                 | 1470/2865 [1:33:32<1:08:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0218, 'grad_norm': 1.046875, 'learning_rate': 2.823421757437742e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20736.94, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▊                                                 | 1470/2865 [1:33:32<1:08:45,  2.96s/it] 51%|███████████████████████████████████████████████████▊                                                 | 1471/2865 [1:33:35<1:08:38,  2.95s/it]                                                                                                                                                  {'loss': 11.0328, 'grad_norm': 1.09375, 'learning_rate': 2.820401750419083e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21117.16, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▊                                                 | 1471/2865 [1:33:35<1:08:38,  2.95s/it] 51%|███████████████████████████████████████████████████▉                                                 | 1472/2865 [1:33:38<1:08:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0096, 'grad_norm': 1.3984375, 'learning_rate': 2.817381267964616e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22102.21, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▉                                                 | 1472/2865 [1:33:38<1:08:37,  2.96s/it] 51%|███████████████████████████████████████████████████▉                                                 | 1473/2865 [1:33:41<1:08:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0113, 'grad_norm': 1.21875, 'learning_rate': 2.814360314556357e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22462.52, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▉                                                 | 1473/2865 [1:33:41<1:08:36,  2.96s/it] 51%|███████████████████████████████████████████████████▉                                                 | 1474/2865 [1:33:44<1:08:34,  2.96s/it]                                                                                                                                                  {'loss': 10.9969, 'grad_norm': 1.09375, 'learning_rate': 2.8113388946770197e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20847.79, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▉                                                 | 1474/2865 [1:33:44<1:08:34,  2.96s/it] 51%|███████████████████████████████████████████████████▉                                                 | 1475/2865 [1:33:47<1:08:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0042, 'grad_norm': 1.1953125, 'learning_rate': 2.8083170128100107e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21302.88, 'epoch': 1.54}
 51%|███████████████████████████████████████████████████▉                                                 | 1475/2865 [1:33:47<1:08:29,  2.96s/it] 52%|████████████████████████████████████████████████████                                                 | 1476/2865 [1:33:50<1:08:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0243, 'grad_norm': 1.0390625, 'learning_rate': 2.8052946734394204e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21387.41, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████                                                 | 1476/2865 [1:33:50<1:08:33,  2.96s/it] 52%|████████████████████████████████████████████████████                                                 | 1477/2865 [1:33:53<1:08:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0013, 'grad_norm': 1.15625, 'learning_rate': 2.802271881050022e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20535.47, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████                                                 | 1477/2865 [1:33:53<1:08:26,  2.96s/it] 52%|████████████████████████████████████████████████████                                                 | 1478/2865 [1:33:56<1:08:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0073, 'grad_norm': 1.125, 'learning_rate': 2.7992486401272567e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20159.25, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████                                                 | 1478/2865 [1:33:56<1:08:24,  2.96s/it] 52%|████████████████████████████████████████████████████▏                                                | 1479/2865 [1:33:59<1:08:21,  2.96s/it]                                                                                                                                                  {'loss': 10.9952, 'grad_norm': 1.0390625, 'learning_rate': 2.796224955157233e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21702.76, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████▏                                                | 1479/2865 [1:33:59<1:08:21,  2.96s/it] 52%|████████████████████████████████████████████████████▏                                                | 1480/2865 [1:34:02<1:08:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0262, 'grad_norm': 1.046875, 'learning_rate': 2.7932008306267176e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21549.08, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████▏                                                | 1480/2865 [1:34:02<1:08:16,  2.96s/it] 52%|████████████████████████████████████████████████████▏                                                | 1481/2865 [1:34:05<1:08:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0288, 'grad_norm': 1.125, 'learning_rate': 2.7901762710231316e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22809.75, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████▏                                                | 1481/2865 [1:34:05<1:08:17,  2.96s/it] 52%|████████████████████████████████████████████████████▏                                                | 1482/2865 [1:34:08<1:08:10,  2.96s/it]                                                                                                                                                  {'loss': 11.009, 'grad_norm': 1.078125, 'learning_rate': 2.787151280834539e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20832.84, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████▏                                                | 1482/2865 [1:34:08<1:08:10,  2.96s/it] 52%|████████████████████████████████████████████████████▎                                                | 1483/2865 [1:34:11<1:08:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0185, 'grad_norm': 1.1875, 'learning_rate': 2.7841258645496442e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22122.9, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████▎                                                | 1483/2865 [1:34:11<1:08:06,  2.96s/it] 52%|████████████████████████████████████████████████████▎                                                | 1484/2865 [1:34:14<1:08:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0278, 'grad_norm': 1.0625, 'learning_rate': 2.7811000266577835e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21821.99, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████▎                                                | 1484/2865 [1:34:14<1:08:01,  2.96s/it] 52%|████████████████████████████████████████████████████▎                                                | 1485/2865 [1:34:17<1:07:57,  2.95s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.1328125, 'learning_rate': 2.7780737716489203e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21343.71, 'epoch': 1.55}
 52%|████████████████████████████████████████████████████▎                                                | 1485/2865 [1:34:17<1:07:57,  2.95s/it] 52%|████████████████████████████████████████████████████▍                                                | 1486/2865 [1:34:20<1:07:53,  2.95s/it]                                                                                                                                                  {'loss': 10.9978, 'grad_norm': 1.2109375, 'learning_rate': 2.7750471040136326e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21899.69, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████▍                                                | 1486/2865 [1:34:20<1:07:53,  2.95s/it] 52%|████████████████████████████████████████████████████▍                                                | 1487/2865 [1:34:23<1:07:51,  2.95s/it]                                                                                                                                                  {'loss': 11.008, 'grad_norm': 1.0390625, 'learning_rate': 2.7720200282431162e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21311.86, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████▍                                                | 1487/2865 [1:34:23<1:07:51,  2.95s/it] 52%|████████████████████████████████████████████████████▍                                                | 1488/2865 [1:34:26<1:07:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0192, 'grad_norm': 1.0625, 'learning_rate': 2.768992548829169e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22151.8, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████▍                                                | 1488/2865 [1:34:26<1:07:49,  2.96s/it] 52%|████████████████████████████████████████████████████▍                                                | 1489/2865 [1:34:29<1:07:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0259, 'grad_norm': 1.0703125, 'learning_rate': 2.7659646702641888e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21061.12, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████▍                                                | 1489/2865 [1:34:29<1:07:52,  2.96s/it] 52%|████████████████████████████████████████████████████▌                                                | 1490/2865 [1:34:32<1:07:49,  2.96s/it]                                                                                                                                                  {'loss': 11.019, 'grad_norm': 1.1875, 'learning_rate': 2.7629363970411653e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22386.37, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████▌                                                | 1490/2865 [1:34:32<1:07:49,  2.96s/it] 52%|████████████████████████████████████████████████████▌                                                | 1491/2865 [1:34:35<1:07:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0216, 'grad_norm': 1.0546875, 'learning_rate': 2.7599077336536756e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21406.54, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████▌                                                | 1491/2865 [1:34:35<1:07:42,  2.96s/it] 52%|████████████████████████████████████████████████████▌                                                | 1492/2865 [1:34:38<1:07:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0186, 'grad_norm': 1.078125, 'learning_rate': 2.7568786845958728e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21105.45, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████▌                                                | 1492/2865 [1:34:38<1:07:37,  2.96s/it] 52%|████████████████████████████████████████████████████▋                                                | 1493/2865 [1:34:40<1:07:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0015, 'grad_norm': 1.1015625, 'learning_rate': 2.7538492543624843e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22449.14, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████▋                                                | 1493/2865 [1:34:41<1:07:35,  2.96s/it] 52%|████████████████████████████████████████████████████▋                                                | 1494/2865 [1:34:43<1:07:30,  2.95s/it]                                                                                                                                                  {'loss': 11.0135, 'grad_norm': 1.0859375, 'learning_rate': 2.7508194474488032e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20893.38, 'epoch': 1.56}
 52%|████████████████████████████████████████████████████▋                                                | 1494/2865 [1:34:43<1:07:30,  2.95s/it] 52%|████████████████████████████████████████████████████▋                                                | 1495/2865 [1:34:46<1:07:25,  2.95s/it]                                                                                                                                                  {'loss': 11.0082, 'grad_norm': 1.0390625, 'learning_rate': 2.7477892683506808e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20533.92, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▋                                                | 1495/2865 [1:34:46<1:07:25,  2.95s/it] 52%|████████████████████████████████████████████████████▋                                                | 1496/2865 [1:34:49<1:07:25,  2.95s/it]                                                                                                                                                  {'loss': 11.0294, 'grad_norm': 1.046875, 'learning_rate': 2.7447587215645206e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20953.8, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▋                                                | 1496/2865 [1:34:49<1:07:25,  2.95s/it] 52%|████████████████████████████████████████████████████▊                                                | 1497/2865 [1:34:52<1:07:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0398, 'grad_norm': 1.078125, 'learning_rate': 2.7417278115872717e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21976.5, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▊                                                | 1497/2865 [1:34:52<1:07:23,  2.96s/it] 52%|████████████████████████████████████████████████████▊                                                | 1498/2865 [1:34:55<1:07:17,  2.95s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.0546875, 'learning_rate': 2.7386965429164237e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21381.82, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▊                                                | 1498/2865 [1:34:55<1:07:17,  2.95s/it] 52%|████████████████████████████████████████████████████▊                                                | 1499/2865 [1:34:58<1:07:20,  2.96s/it]                                                                                                                                                  {'loss': 10.99, 'grad_norm': 1.1953125, 'learning_rate': 2.7356649200499955e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20313.62, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▊                                                | 1499/2865 [1:34:58<1:07:20,  2.96s/it] 52%|████████████████████████████████████████████████████▉                                                | 1500/2865 [1:35:01<1:07:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0267, 'grad_norm': 1.28125, 'learning_rate': 2.7326329474865348e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22141.72, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▉                                                | 1500/2865 [1:35:01<1:07:20,  2.96s/it][2025-10-12 04:43:54,015] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:42,  1.22s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:40,  1.13it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:04,  1.45it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:45,  1.70it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:34,  1.90it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:25,  2.08it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:19,  2.24it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:16,  2.30it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:13,  2.37it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:05<01:10,  2.47it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:11,  2.43it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:08,  2.50it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:08,  2.51it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:05,  2.60it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:07<01:07,  2.52it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.53it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:04,  2.60it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:05,  2.55it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:04,  2.54it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:09<01:05,  2.51it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.52it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:03,  2.54it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.53it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.57it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:02,  2.55it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:01,  2.56it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:01,  2.56it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:12<01:00,  2.59it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:01,  2.54it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<01:00,  2.54it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<00:59,  2.58it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:58,  2.58it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:14<00:57,  2.61it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:59,  2.52it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:59,  2.49it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:59,  2.50it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.57it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:16<00:58,  2.51it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:56,  2.58it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:56,  2.53it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:55,  2.57it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:56,  2.49it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:18<00:55,  2.52it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:56,  2.49it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:54,  2.53it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.52it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.58it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:52,  2.61it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:51,  2.63it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:53,  2.51it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:51,  2.58it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:52,  2.51it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:51,  2.54it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.53it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:49,  2.61it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.53it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:49,  2.56it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:49,  2.55it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:48,  2.57it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:47,  2.62it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:25<00:47,  2.57it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.55it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:47,  2.55it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.53it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:47,  2.52it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:46,  2.54it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:44,  2.64it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.55it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.55it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:43,  2.60it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:29<00:44,  2.56it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:43,  2.57it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:42,  2.59it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.54it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:41,  2.63it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:42,  2.57it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:41,  2.56it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.58it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:32<00:40,  2.57it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.56it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:40,  2.55it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:40,  2.55it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:39,  2.59it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:34<00:39,  2.53it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.56it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:38,  2.56it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.52it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.54it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:36<00:37,  2.53it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:37,  2.53it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:36,  2.55it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:34,  2.65it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.55it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:38<00:35,  2.52it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:35,  2.53it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:34,  2.56it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.53it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:34,  2.52it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:33,  2.55it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.56it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.58it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:41<00:32,  2.54it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:32,  2.53it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.52it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.54it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.56it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:43<00:29,  2.57it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.57it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.58it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.54it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.55it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:27,  2.63it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.55it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.51it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.55it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.56it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.54it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.55it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:25,  2.51it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.56it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:23,  2.58it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.52it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:50<00:23,  2.53it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.55it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:22,  2.52it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:22,  2.53it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.55it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:52<00:20,  2.61it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.53it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:19,  2.66it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:20,  2.54it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.60it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:19,  2.51it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.54it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.57it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.55it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.58it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:17,  2.54it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:17,  2.50it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.52it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.53it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.58it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.53it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.60it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.52it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.52it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.56it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.56it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.58it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:01<00:11,  2.60it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.54it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.55it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.59it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.56it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:03<00:10,  2.56it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.53it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.59it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:08,  2.58it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.52it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.54it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.57it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.54it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:06,  2.61it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.54it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.53it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.53it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.52it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.51it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.58it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.54it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:10<00:03,  2.54it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.57it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.55it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.62it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.54it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:12<00:01,  2.56it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.64it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.53it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.11it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995872497558594, 'eval_runtime': 78.4922, 'eval_samples_per_second': 151.06, 'eval_steps_per_second': 2.37, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▉                                                | 1500/2865 [1:36:20<1:07:20,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.11it/s][A
                                                                                                                                                  [A[2025-10-12 04:45:12,527] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1500
 52%|████████████████████████████████████████████████████▍                                               | 1501/2865 [1:36:29<10:43:06, 28.29s/it]                                                                                                                                                  {'loss': 11.0232, 'grad_norm': 1.046875, 'learning_rate': 2.729600629725106e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19690.02, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▍                                               | 1501/2865 [1:36:29<10:43:06, 28.29s/it] 52%|████████████████████████████████████████████████████▉                                                | 1502/2865 [1:36:32<7:49:58, 20.69s/it]                                                                                                                                                  {'loss': 11.0112, 'grad_norm': 1.109375, 'learning_rate': 2.726567971265287e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22636.05, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▉                                                | 1502/2865 [1:36:32<7:49:58, 20.69s/it] 52%|████████████████████████████████████████████████████▉                                                | 1503/2865 [1:36:34<5:48:51, 15.37s/it]                                                                                                                                                  {'loss': 11.0152, 'grad_norm': 1.0390625, 'learning_rate': 2.7235349766071594e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22104.67, 'epoch': 1.57}
 52%|████████████████████████████████████████████████████▉                                                | 1503/2865 [1:36:34<5:48:51, 15.37s/it] 52%|█████████████████████████████████████████████████████                                                | 1504/2865 [1:36:37<4:24:08, 11.64s/it]                                                                                                                                                  {'loss': 11.015, 'grad_norm': 1.0546875, 'learning_rate': 2.720501650251305e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21023.56, 'epoch': 1.57}
 52%|█████████████████████████████████████████████████████                                                | 1504/2865 [1:36:37<4:24:08, 11.64s/it] 53%|█████████████████████████████████████████████████████                                                | 1505/2865 [1:36:40<3:24:53,  9.04s/it]                                                                                                                                                  {'loss': 11.0133, 'grad_norm': 1.0859375, 'learning_rate': 2.7174679966987993e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20459.77, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████                                                | 1505/2865 [1:36:40<3:24:53,  9.04s/it] 53%|█████████████████████████████████████████████████████                                                | 1506/2865 [1:36:43<2:43:24,  7.21s/it]                                                                                                                                                  {'loss': 10.9906, 'grad_norm': 1.140625, 'learning_rate': 2.7144340204512002e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20907.61, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████                                                | 1506/2865 [1:36:43<2:43:24,  7.21s/it] 53%|█████████████████████████████████████████████████████▏                                               | 1507/2865 [1:36:46<2:14:21,  5.94s/it]                                                                                                                                                  {'loss': 11.0087, 'grad_norm': 1.046875, 'learning_rate': 2.7113997260105468e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21122.09, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████▏                                               | 1507/2865 [1:36:46<2:14:21,  5.94s/it] 53%|█████████████████████████████████████████████████████▏                                               | 1508/2865 [1:36:49<1:54:02,  5.04s/it]                                                                                                                                                  {'loss': 11.0346, 'grad_norm': 1.1171875, 'learning_rate': 2.7083651178793496e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20209.23, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████▏                                               | 1508/2865 [1:36:49<1:54:02,  5.04s/it] 53%|█████████████████████████████████████████████████████▏                                               | 1509/2865 [1:36:52<1:39:54,  4.42s/it]                                                                                                                                                  {'loss': 10.9953, 'grad_norm': 1.078125, 'learning_rate': 2.7053302005605836e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21703.05, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████▏                                               | 1509/2865 [1:36:52<1:39:54,  4.42s/it] 53%|█████████████████████████████████████████████████████▏                                               | 1510/2865 [1:36:55<1:29:53,  3.98s/it]                                                                                                                                                  {'loss': 10.9989, 'grad_norm': 1.0703125, 'learning_rate': 2.7022949785576847e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21256.19, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████▏                                               | 1510/2865 [1:36:55<1:29:53,  3.98s/it] 53%|█████████████████████████████████████████████████████▎                                               | 1511/2865 [1:36:58<1:22:55,  3.67s/it]                                                                                                                                                  {'loss': 11.0041, 'grad_norm': 1.046875, 'learning_rate': 2.6992594563745387e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21224.95, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████▎                                               | 1511/2865 [1:36:58<1:22:55,  3.67s/it] 53%|█████████████████████████████████████████████████████▎                                               | 1512/2865 [1:37:01<1:17:59,  3.46s/it]                                                                                                                                                  {'loss': 11.0207, 'grad_norm': 1.1171875, 'learning_rate': 2.696223638515478e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20552.59, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████▎                                               | 1512/2865 [1:37:01<1:17:59,  3.46s/it] 53%|█████████████████████████████████████████████████████▎                                               | 1513/2865 [1:37:04<1:14:40,  3.31s/it]                                                                                                                                                  {'loss': 11.0275, 'grad_norm': 1.0546875, 'learning_rate': 2.693187529485275e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23238.32, 'epoch': 1.58}
 53%|█████████████████████████████████████████████████████▎                                               | 1513/2865 [1:37:04<1:14:40,  3.31s/it] 53%|█████████████████████████████████████████████████████▎                                               | 1514/2865 [1:37:07<1:12:12,  3.21s/it]                                                                                                                                                  {'loss': 11.0074, 'grad_norm': 1.0390625, 'learning_rate': 2.6901511337891312e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22084.98, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▎                                               | 1514/2865 [1:37:07<1:12:12,  3.21s/it] 53%|█████████████████████████████████████████████████████▍                                               | 1515/2865 [1:37:10<1:10:34,  3.14s/it]                                                                                                                                                  {'loss': 11.0025, 'grad_norm': 1.046875, 'learning_rate': 2.687114455932675e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23308.07, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▍                                               | 1515/2865 [1:37:10<1:10:34,  3.14s/it] 53%|█████████████████████████████████████████████████████▍                                               | 1516/2865 [1:37:13<1:09:21,  3.08s/it]                                                                                                                                                  {'loss': 11.0313, 'grad_norm': 1.171875, 'learning_rate': 2.684077500421955e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21311.5, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▍                                               | 1516/2865 [1:37:13<1:09:21,  3.08s/it] 53%|█████████████████████████████████████████████████████▍                                               | 1517/2865 [1:37:16<1:08:25,  3.05s/it]                                                                                                                                                  {'loss': 11.0246, 'grad_norm': 1.0546875, 'learning_rate': 2.6810402717634287e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21487.61, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▍                                               | 1517/2865 [1:37:16<1:08:25,  3.05s/it] 53%|█████████████████████████████████████████████████████▌                                               | 1518/2865 [1:37:19<1:07:46,  3.02s/it]                                                                                                                                                  {'loss': 11.016, 'grad_norm': 1.0390625, 'learning_rate': 2.678002774463961e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22251.3, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▌                                               | 1518/2865 [1:37:19<1:07:46,  3.02s/it] 53%|█████████████████████████████████████████████████████▌                                               | 1519/2865 [1:37:22<1:07:20,  3.00s/it]                                                                                                                                                  {'loss': 11.0148, 'grad_norm': 1.140625, 'learning_rate': 2.6749650130308168e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22942.02, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▌                                               | 1519/2865 [1:37:22<1:07:20,  3.00s/it] 53%|█████████████████████████████████████████████████████▌                                               | 1520/2865 [1:37:25<1:06:55,  2.99s/it]                                                                                                                                                  {'loss': 10.9987, 'grad_norm': 1.2109375, 'learning_rate': 2.6719269919716484e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20784.91, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▌                                               | 1520/2865 [1:37:25<1:06:55,  2.99s/it] 53%|█████████████████████████████████████████████████████▌                                               | 1521/2865 [1:37:28<1:06:40,  2.98s/it]                                                                                                                                                  {'loss': 11.0292, 'grad_norm': 1.0390625, 'learning_rate': 2.668888715794497e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20561.01, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▌                                               | 1521/2865 [1:37:28<1:06:40,  2.98s/it] 53%|█████████████████████████████████████████████████████▋                                               | 1522/2865 [1:37:31<1:06:32,  2.97s/it]                                                                                                                                                  {'loss': 11.0169, 'grad_norm': 1.078125, 'learning_rate': 2.6658501890077818e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21380.18, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▋                                               | 1522/2865 [1:37:31<1:06:32,  2.97s/it] 53%|█████████████████████████████████████████████████████▋                                               | 1523/2865 [1:37:34<1:06:23,  2.97s/it]                                                                                                                                                  {'loss': 11.0149, 'grad_norm': 1.140625, 'learning_rate': 2.6628114161202938e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20966.71, 'epoch': 1.59}
 53%|█████████████████████████████████████████████████████▋                                               | 1523/2865 [1:37:34<1:06:23,  2.97s/it] 53%|█████████████████████████████████████████████████████▋                                               | 1524/2865 [1:37:37<1:06:19,  2.97s/it]                                                                                                                                                  {'loss': 11.026, 'grad_norm': 1.0703125, 'learning_rate': 2.6597724016411884e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19899.29, 'epoch': 1.6}
 53%|█████████████████████████████████████████████████████▋                                               | 1524/2865 [1:37:37<1:06:19,  2.97s/it] 53%|█████████████████████████████████████████████████████▊                                               | 1525/2865 [1:37:40<1:06:12,  2.96s/it]                                                                                                                                                  {'loss': 10.9997, 'grad_norm': 1.0625, 'learning_rate': 2.6567331500799797e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20953.98, 'epoch': 1.6}
 53%|█████████████████████████████████████████████████████▊                                               | 1525/2865 [1:37:40<1:06:12,  2.96s/it] 53%|█████████████████████████████████████████████████████▊                                               | 1526/2865 [1:37:43<1:06:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0181, 'grad_norm': 1.0625, 'learning_rate': 2.6536936659465343e-05, 'memory/max_active (GiB)': 9.62, 'memory/max_allocated (GiB)': 9.62, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 9051.99, 'epoch': 1.6}
 53%|█████████████████████████████████████████████████████▊                                               | 1526/2865 [1:37:43<1:06:06,  2.96s/it] 53%|█████████████████████████████████████████████████████▊                                               | 1527/2865 [1:37:46<1:06:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.109375, 'learning_rate': 2.6506539537510643e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20926.31, 'epoch': 1.6}
 53%|█████████████████████████████████████████████████████▊                                               | 1527/2865 [1:37:46<1:06:05,  2.96s/it] 53%|█████████████████████████████████████████████████████▊                                               | 1528/2865 [1:37:48<1:05:58,  2.96s/it]                                                                                                                                                  {'loss': 11.015, 'grad_norm': 1.078125, 'learning_rate': 2.647614018004118e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21390.34, 'epoch': 1.6}
 53%|█████████████████████████████████████████████████████▊                                               | 1528/2865 [1:37:48<1:05:58,  2.96s/it] 53%|█████████████████████████████████████████████████████▉                                               | 1529/2865 [1:37:51<1:05:53,  2.96s/it]                                                                                                                                                  {'loss': 10.988, 'grad_norm': 1.1015625, 'learning_rate': 2.644573863216577e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21332.98, 'epoch': 1.6}
 53%|█████████████████████████████████████████████████████▉                                               | 1529/2865 [1:37:51<1:05:53,  2.96s/it] 53%|█████████████████████████████████████████████████████▉                                               | 1530/2865 [1:37:54<1:05:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0056, 'grad_norm': 1.390625, 'learning_rate': 2.6415334938996477e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20907.7, 'epoch': 1.6}
 53%|█████████████████████████████████████████████████████▉                                               | 1530/2865 [1:37:54<1:05:49,  2.96s/it] 53%|█████████████████████████████████████████████████████▉                                               | 1531/2865 [1:37:57<1:05:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0096, 'grad_norm': 1.046875, 'learning_rate': 2.6384929145648564e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20992.38, 'epoch': 1.6}
 53%|█████████████████████████████████████████████████████▉                                               | 1531/2865 [1:37:57<1:05:47,  2.96s/it] 53%|██████████████████████████████████████████████████████                                               | 1532/2865 [1:38:00<1:05:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0117, 'grad_norm': 1.0546875, 'learning_rate': 2.6354521297240382e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20973.75, 'epoch': 1.6}
 53%|██████████████████████████████████████████████████████                                               | 1532/2865 [1:38:00<1:05:42,  2.96s/it] 54%|██████████████████████████████████████████████████████                                               | 1533/2865 [1:38:03<1:05:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0132, 'grad_norm': 1.0546875, 'learning_rate': 2.6324111438893338e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21063.83, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████                                               | 1533/2865 [1:38:03<1:05:36,  2.96s/it] 54%|██████████████████████████████████████████████████████                                               | 1534/2865 [1:38:06<1:05:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.0546875, 'learning_rate': 2.6293699615731847e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21038.53, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████                                               | 1534/2865 [1:38:06<1:05:39,  2.96s/it] 54%|██████████████████████████████████████████████████████                                               | 1535/2865 [1:38:09<1:05:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0153, 'grad_norm': 1.0390625, 'learning_rate': 2.626328587288322e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22141.13, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████                                               | 1535/2865 [1:38:09<1:05:35,  2.96s/it] 54%|██████████████████████████████████████████████████████▏                                              | 1536/2865 [1:38:12<1:05:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0114, 'grad_norm': 1.171875, 'learning_rate': 2.6232870255477597e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22007.54, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████▏                                              | 1536/2865 [1:38:12<1:05:32,  2.96s/it] 54%|██████████████████████████████████████████████████████▏                                              | 1537/2865 [1:38:15<1:05:30,  2.96s/it]                                                                                                                                                  {'loss': 10.9995, 'grad_norm': 1.0546875, 'learning_rate': 2.6202452808647935e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21609.91, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████▏                                              | 1537/2865 [1:38:15<1:05:30,  2.96s/it] 54%|██████████████████████████████████████████████████████▏                                              | 1538/2865 [1:38:18<1:05:25,  2.96s/it]                                                                                                                                                  {'loss': 11.006, 'grad_norm': 1.0625, 'learning_rate': 2.6172033577529886e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21083.14, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████▏                                              | 1538/2865 [1:38:18<1:05:25,  2.96s/it] 54%|██████████████████████████████████████████████████████▎                                              | 1539/2865 [1:38:21<1:05:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0171, 'grad_norm': 1.0703125, 'learning_rate': 2.6141612607261755e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20508.59, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████▎                                              | 1539/2865 [1:38:21<1:05:25,  2.96s/it] 54%|██████████████████████████████████████████████████████▎                                              | 1540/2865 [1:38:24<1:05:17,  2.96s/it]                                                                                                                                                  {'loss': 10.999, 'grad_norm': 1.0625, 'learning_rate': 2.611118994298443e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21812.21, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████▎                                              | 1540/2865 [1:38:24<1:05:17,  2.96s/it] 54%|██████████████████████████████████████████████████████▎                                              | 1541/2865 [1:38:27<1:05:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0287, 'grad_norm': 1.0546875, 'learning_rate': 2.608076562984131e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20866.1, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████▎                                              | 1541/2865 [1:38:27<1:05:16,  2.96s/it] 54%|██████████████████████████████████████████████████████▎                                              | 1542/2865 [1:38:30<1:05:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0094, 'grad_norm': 1.0546875, 'learning_rate': 2.6050339712978234e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20349.12, 'epoch': 1.61}
 54%|██████████████████████████████████████████████████████▎                                              | 1542/2865 [1:38:30<1:05:17,  2.96s/it] 54%|██████████████████████████████████████████████████████▍                                              | 1543/2865 [1:38:33<1:05:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0085, 'grad_norm': 1.2109375, 'learning_rate': 2.6019912237543432e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20750.5, 'epoch': 1.62}
 54%|██████████████████████████████████████████████████████▍                                              | 1543/2865 [1:38:33<1:05:15,  2.96s/it] 54%|██████████████████████████████████████████████████████▍                                              | 1544/2865 [1:38:36<1:05:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0379, 'grad_norm': 1.0546875, 'learning_rate': 2.5989483248687446e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21171.56, 'epoch': 1.62}
 54%|██████████████████████████████████████████████████████▍                                              | 1544/2865 [1:38:36<1:05:14,  2.96s/it] 54%|██████████████████████████████████████████████████████▍                                              | 1545/2865 [1:38:39<1:05:14,  2.97s/it]                                                                                                                                                  {'loss': 10.9914, 'grad_norm': 1.046875, 'learning_rate': 2.595905279156305e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23085.44, 'epoch': 1.62}
 54%|██████████████████████████████████████████████████████▍                                              | 1545/2865 [1:38:39<1:05:14,  2.97s/it] 54%|██████████████████████████████████████████████████████▌                                              | 1546/2865 [1:38:42<1:05:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0027, 'grad_norm': 1.125, 'learning_rate': 2.5928620911325214e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21570.38, 'epoch': 1.62}
 54%|██████████████████████████████████████████████████████▌                                              | 1546/2865 [1:38:42<1:05:06,  2.96s/it] 54%|██████████████████████████████████████████████████████▌                                              | 1547/2865 [1:38:45<1:04:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0168, 'grad_norm': 1.0390625, 'learning_rate': 2.5898187653131002e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21370.56, 'epoch': 1.62}
 54%|██████████████████████████████████████████████████████▌                                              | 1547/2865 [1:38:45<1:04:58,  2.96s/it] 54%|██████████████████████████████████████████████████████▌                                              | 1548/2865 [1:38:48<1:04:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0135, 'grad_norm': 1.0390625, 'learning_rate': 2.5867753062139545e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21808.59, 'epoch': 1.62}
 54%|██████████████████████████████████████████████████████▌                                              | 1548/2865 [1:38:48<1:04:59,  2.96s/it] 54%|██████████████████████████████████████████████████████▌                                              | 1549/2865 [1:38:51<1:04:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0137, 'grad_norm': 1.0625, 'learning_rate': 2.5837317183511928e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22224.84, 'epoch': 1.62}
 54%|██████████████████████████████████████████████████████▌                                              | 1549/2865 [1:38:51<1:04:52,  2.96s/it] 54%|██████████████████████████████████████████████████████▋                                              | 1550/2865 [1:38:54<1:04:45,  2.95s/it]                                                                                                                                                  {'loss': 10.9991, 'grad_norm': 1.328125, 'learning_rate': 2.580688006241116e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21036.11, 'epoch': 1.62}
 54%|██████████████████████████████████████████████████████▋                                              | 1550/2865 [1:38:54<1:04:45,  2.95s/it] 54%|██████████████████████████████████████████████████████▋                                              | 1551/2865 [1:38:57<1:04:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0123, 'grad_norm': 1.0546875, 'learning_rate': 2.57764417440021e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21764.61, 'epoch': 1.62}
 54%|██████████████████████████████████████████████████████▋                                              | 1551/2865 [1:38:57<1:04:44,  2.96s/it] 54%|██████████████████████████████████████████████████████▋                                              | 1552/2865 [1:38:59<1:04:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0318, 'grad_norm': 1.0703125, 'learning_rate': 2.574600227345138e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21982.76, 'epoch': 1.63}
 54%|██████████████████████████████████████████████████████▋                                              | 1552/2865 [1:39:00<1:04:45,  2.96s/it] 54%|██████████████████████████████████████████████████████▋                                              | 1553/2865 [1:39:02<1:04:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0039, 'grad_norm': 1.0703125, 'learning_rate': 2.571556169592732e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21504.43, 'epoch': 1.63}
 54%|██████████████████████████████████████████████████████▋                                              | 1553/2865 [1:39:02<1:04:38,  2.96s/it] 54%|██████████████████████████████████████████████████████▊                                              | 1554/2865 [1:39:05<1:04:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0069, 'grad_norm': 1.1875, 'learning_rate': 2.568512005659991e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22505.33, 'epoch': 1.63}
 54%|██████████████████████████████████████████████████████▊                                              | 1554/2865 [1:39:05<1:04:37,  2.96s/it] 54%|██████████████████████████████████████████████████████▊                                              | 1555/2865 [1:39:08<1:04:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0176, 'grad_norm': 1.0625, 'learning_rate': 2.5654677400640703e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20764.71, 'epoch': 1.63}
 54%|██████████████████████████████████████████████████████▊                                              | 1555/2865 [1:39:08<1:04:32,  2.96s/it] 54%|██████████████████████████████████████████████████████▊                                              | 1556/2865 [1:39:11<1:04:28,  2.95s/it]                                                                                                                                                  {'loss': 11.0212, 'grad_norm': 1.1484375, 'learning_rate': 2.5624233773222762e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20949.21, 'epoch': 1.63}
 54%|██████████████████████████████████████████████████████▊                                              | 1556/2865 [1:39:11<1:04:28,  2.95s/it] 54%|██████████████████████████████████████████████████████▉                                              | 1557/2865 [1:39:14<1:04:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0141, 'grad_norm': 1.0390625, 'learning_rate': 2.559378921952059e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21545.06, 'epoch': 1.63}
 54%|██████████████████████████████████████████████████████▉                                              | 1557/2865 [1:39:14<1:04:25,  2.96s/it] 54%|██████████████████████████████████████████████████████▉                                              | 1558/2865 [1:39:17<1:04:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0132, 'grad_norm': 1.0546875, 'learning_rate': 2.5563343784710076e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21913.33, 'epoch': 1.63}
 54%|██████████████████████████████████████████████████████▉                                              | 1558/2865 [1:39:17<1:04:22,  2.96s/it] 54%|██████████████████████████████████████████████████████▉                                              | 1559/2865 [1:39:20<1:04:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0013, 'grad_norm': 1.125, 'learning_rate': 2.55328975139684e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21989.27, 'epoch': 1.63}
 54%|██████████████████████████████████████████████████████▉                                              | 1559/2865 [1:39:20<1:04:20,  2.96s/it] 54%|██████████████████████████████████████████████████████▉                                              | 1560/2865 [1:39:23<1:04:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0062, 'grad_norm': 1.0390625, 'learning_rate': 2.5502450452473998e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21089.77, 'epoch': 1.63}
 54%|██████████████████████████████████████████████████████▉                                              | 1560/2865 [1:39:23<1:04:20,  2.96s/it] 54%|███████████████████████████████████████████████████████                                              | 1561/2865 [1:39:26<1:04:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0397, 'grad_norm': 1.125, 'learning_rate': 2.5472002645406453e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21339.43, 'epoch': 1.63}
 54%|███████████████████████████████████████████████████████                                              | 1561/2865 [1:39:26<1:04:18,  2.96s/it] 55%|███████████████████████████████████████████████████████                                              | 1562/2865 [1:39:29<1:04:15,  2.96s/it]                                                                                                                                                  {'loss': 10.9977, 'grad_norm': 1.0546875, 'learning_rate': 2.544155413794649e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21476.32, 'epoch': 1.64}
 55%|███████████████████████████████████████████████████████                                              | 1562/2865 [1:39:29<1:04:15,  2.96s/it] 55%|███████████████████████████████████████████████████████                                              | 1563/2865 [1:39:32<1:04:11,  2.96s/it]                                                                                                                                                  {'loss': 11.04, 'grad_norm': 1.0625, 'learning_rate': 2.541110497527584e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21298.44, 'epoch': 1.64}
 55%|███████████████████████████████████████████████████████                                              | 1563/2865 [1:39:32<1:04:11,  2.96s/it] 55%|███████████████████████████████████████████████████████▏                                             | 1564/2865 [1:39:35<1:04:13,  2.96s/it]                                                                                                                                                  {'loss': 11.025, 'grad_norm': 1.0625, 'learning_rate': 2.5380655202577236e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22769.0, 'epoch': 1.64}
 55%|███████████████████████████████████████████████████████▏                                             | 1564/2865 [1:39:35<1:04:13,  2.96s/it] 55%|███████████████████████████████████████████████████████▏                                             | 1565/2865 [1:39:38<1:04:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0106, 'grad_norm': 1.1953125, 'learning_rate': 2.53502048650343e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20850.37, 'epoch': 1.64}
 55%|███████████████████████████████████████████████████████▏                                             | 1565/2865 [1:39:38<1:04:05,  2.96s/it] 55%|███████████████████████████████████████████████████████▏                                             | 1566/2865 [1:39:41<1:04:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0184, 'grad_norm': 1.0625, 'learning_rate': 2.5319754007831486e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21006.67, 'epoch': 1.64}
 55%|███████████████████████████████████████████████████████▏                                             | 1566/2865 [1:39:41<1:04:02,  2.96s/it] 55%|███████████████████████████████████████████████████████▏                                             | 1567/2865 [1:39:44<1:03:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0185, 'grad_norm': 1.09375, 'learning_rate': 2.5289302676154036e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21453.85, 'epoch': 1.64}
 55%|███████████████████████████████████████████████████████▏                                             | 1567/2865 [1:39:44<1:03:58,  2.96s/it] 55%|███████████████████████████████████████████████████████▎                                             | 1568/2865 [1:39:47<1:03:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0101, 'grad_norm': 1.078125, 'learning_rate': 2.5258850915187888e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21244.29, 'epoch': 1.64}
 55%|███████████████████████████████████████████████████████▎                                             | 1568/2865 [1:39:47<1:03:54,  2.96s/it] 55%|███████████████████████████████████████████████████████▎                                             | 1569/2865 [1:39:50<1:03:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0172, 'grad_norm': 1.203125, 'learning_rate': 2.522839877011961e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20424.77, 'epoch': 1.64}
 55%|███████████████████████████████████████████████████████▎                                             | 1569/2865 [1:39:50<1:03:53,  2.96s/it] 55%|███████████████████████████████████████████████████████▎                                             | 1570/2865 [1:39:53<1:03:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0152, 'grad_norm': 1.0390625, 'learning_rate': 2.519794628613635e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21917.12, 'epoch': 1.64}
 55%|███████████████████████████████████████████████████████▎                                             | 1570/2865 [1:39:53<1:03:48,  2.96s/it] 55%|███████████████████████████████████████████████████████▍                                             | 1571/2865 [1:39:56<1:03:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0262, 'grad_norm': 1.09375, 'learning_rate': 2.516749350842575e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22125.6, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▍                                             | 1571/2865 [1:39:56<1:03:44,  2.96s/it] 55%|███████████████████████████████████████████████████████▍                                             | 1572/2865 [1:39:59<1:03:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0341, 'grad_norm': 1.0625, 'learning_rate': 2.51370404821759e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21722.83, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▍                                             | 1572/2865 [1:39:59<1:03:46,  2.96s/it] 55%|███████████████████████████████████████████████████████▍                                             | 1573/2865 [1:40:02<1:03:41,  2.96s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.03125, 'learning_rate': 2.5106587252575252e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21910.82, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▍                                             | 1573/2865 [1:40:02<1:03:41,  2.96s/it] 55%|███████████████████████████████████████████████████████▍                                             | 1574/2865 [1:40:05<1:03:33,  2.95s/it]                                                                                                                                                  {'loss': 11.001, 'grad_norm': 1.328125, 'learning_rate': 2.5076133864812557e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20556.14, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▍                                             | 1574/2865 [1:40:05<1:03:33,  2.95s/it] 55%|███████████████████████████████████████████████████████▌                                             | 1575/2865 [1:40:07<1:03:29,  2.95s/it]                                                                                                                                                  {'loss': 11.0105, 'grad_norm': 1.15625, 'learning_rate': 2.5045680364076806e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21256.81, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▌                                             | 1575/2865 [1:40:08<1:03:29,  2.95s/it] 55%|███████████████████████████████████████████████████████▌                                             | 1576/2865 [1:40:10<1:03:26,  2.95s/it]                                                                                                                                                  {'loss': 11.0158, 'grad_norm': 1.0234375, 'learning_rate': 2.501522679555715e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21485.56, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▌                                             | 1576/2865 [1:40:10<1:03:26,  2.95s/it] 55%|███████████████████████████████████████████████████████▌                                             | 1577/2865 [1:40:13<1:03:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0018, 'grad_norm': 1.125, 'learning_rate': 2.4984773204442848e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20796.49, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▌                                             | 1577/2865 [1:40:13<1:03:23,  2.95s/it] 55%|███████████████████████████████████████████████████████▋                                             | 1578/2865 [1:40:16<1:03:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0484, 'grad_norm': 1.375, 'learning_rate': 2.49543196359232e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22305.58, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▋                                             | 1578/2865 [1:40:16<1:03:24,  2.96s/it] 55%|███████████████████████████████████████████████████████▋                                             | 1579/2865 [1:40:19<1:03:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0258, 'grad_norm': 1.1484375, 'learning_rate': 2.492386613518744e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21468.54, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▋                                             | 1579/2865 [1:40:19<1:03:20,  2.96s/it] 55%|███████████████████████████████████████████████████████▋                                             | 1580/2865 [1:40:22<1:03:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0278, 'grad_norm': 1.0390625, 'learning_rate': 2.4893412747424753e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21283.66, 'epoch': 1.65}
 55%|███████████████████████████████████████████████████████▋                                             | 1580/2865 [1:40:22<1:03:22,  2.96s/it] 55%|███████████████████████████████████████████████████████▋                                             | 1581/2865 [1:40:25<1:03:17,  2.96s/it]                                                                                                                                                  {'loss': 10.9929, 'grad_norm': 1.03125, 'learning_rate': 2.4862959517824112e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22106.07, 'epoch': 1.66}
 55%|███████████████████████████████████████████████████████▋                                             | 1581/2865 [1:40:25<1:03:17,  2.96s/it] 55%|███████████████████████████████████████████████████████▊                                             | 1582/2865 [1:40:28<1:03:16,  2.96s/it]                                                                                                                                                  {'loss': 10.9983, 'grad_norm': 1.03125, 'learning_rate': 2.4832506491574256e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21209.78, 'epoch': 1.66}
 55%|███████████████████████████████████████████████████████▊                                             | 1582/2865 [1:40:28<1:03:16,  2.96s/it] 55%|███████████████████████████████████████████████████████▊                                             | 1583/2865 [1:40:31<1:03:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0019, 'grad_norm': 1.0390625, 'learning_rate': 2.480205371386366e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22568.54, 'epoch': 1.66}
 55%|███████████████████████████████████████████████████████▊                                             | 1583/2865 [1:40:31<1:03:16,  2.96s/it] 55%|███████████████████████████████████████████████████████▊                                             | 1584/2865 [1:40:34<1:03:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0048, 'grad_norm': 1.046875, 'learning_rate': 2.47716012298804e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20467.09, 'epoch': 1.66}
 55%|███████████████████████████████████████████████████████▊                                             | 1584/2865 [1:40:34<1:03:11,  2.96s/it] 55%|███████████████████████████████████████████████████████▉                                             | 1585/2865 [1:40:37<1:03:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0301, 'grad_norm': 1.03125, 'learning_rate': 2.4741149084812118e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21140.3, 'epoch': 1.66}
 55%|███████████████████████████████████████████████████████▉                                             | 1585/2865 [1:40:37<1:03:02,  2.96s/it] 55%|███████████████████████████████████████████████████████▉                                             | 1586/2865 [1:40:40<1:03:02,  2.96s/it]                                                                                                                                                  {'loss': 11.014, 'grad_norm': 1.0390625, 'learning_rate': 2.4710697323845967e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21380.18, 'epoch': 1.66}
 55%|███████████████████████████████████████████████████████▉                                             | 1586/2865 [1:40:40<1:03:02,  2.96s/it] 55%|███████████████████████████████████████████████████████▉                                             | 1587/2865 [1:40:43<1:02:56,  2.96s/it]                                                                                                                                                  {'loss': 11.017, 'grad_norm': 1.0703125, 'learning_rate': 2.4680245992168517e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21254.99, 'epoch': 1.66}
 55%|███████████████████████████████████████████████████████▉                                             | 1587/2865 [1:40:43<1:02:56,  2.96s/it] 55%|███████████████████████████████████████████████████████▉                                             | 1588/2865 [1:40:46<1:02:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0166, 'grad_norm': 1.0390625, 'learning_rate': 2.4649795134965707e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21671.73, 'epoch': 1.66}
 55%|███████████████████████████████████████████████████████▉                                             | 1588/2865 [1:40:46<1:02:53,  2.95s/it] 55%|████████████████████████████████████████████████████████                                             | 1589/2865 [1:40:49<1:02:51,  2.96s/it]                                                                                                                                                  {'loss': 11.023, 'grad_norm': 1.0546875, 'learning_rate': 2.4619344797422767e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21181.21, 'epoch': 1.66}
 55%|████████████████████████████████████████████████████████                                             | 1589/2865 [1:40:49<1:02:51,  2.96s/it] 55%|████████████████████████████████████████████████████████                                             | 1590/2865 [1:40:52<1:02:53,  2.96s/it]                                                                                                                                                  {'loss': 10.9927, 'grad_norm': 1.15625, 'learning_rate': 2.458889502472417e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22527.55, 'epoch': 1.66}
 55%|████████████████████████████████████████████████████████                                             | 1590/2865 [1:40:52<1:02:53,  2.96s/it] 56%|████████████████████████████████████████████████████████                                             | 1591/2865 [1:40:55<1:02:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0062, 'grad_norm': 1.0546875, 'learning_rate': 2.455844586205352e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22353.04, 'epoch': 1.67}
 56%|████████████████████████████████████████████████████████                                             | 1591/2865 [1:40:55<1:02:49,  2.96s/it] 56%|████████████████████████████████████████████████████████                                             | 1592/2865 [1:40:58<1:02:44,  2.96s/it]                                                                                                                                                  {'loss': 11.005, 'grad_norm': 1.0390625, 'learning_rate': 2.4527997354593557e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21381.9, 'epoch': 1.67}
 56%|████████████████████████████████████████████████████████                                             | 1592/2865 [1:40:58<1:02:44,  2.96s/it] 56%|████████████████████████████████████████████████████████▏                                            | 1593/2865 [1:41:01<1:02:38,  2.95s/it]                                                                                                                                                  {'loss': 10.9955, 'grad_norm': 1.0625, 'learning_rate': 2.449754954752601e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21291.68, 'epoch': 1.67}
 56%|████████████████████████████████████████████████████████▏                                            | 1593/2865 [1:41:01<1:02:38,  2.95s/it] 56%|████████████████████████████████████████████████████████▏                                            | 1594/2865 [1:41:04<1:02:36,  2.96s/it]                                                                                                                                                  {'loss': 10.9999, 'grad_norm': 1.09375, 'learning_rate': 2.4467102486031605e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21578.5, 'epoch': 1.67}
 56%|████████████████████████████████████████████████████████▏                                            | 1594/2865 [1:41:04<1:02:36,  2.96s/it] 56%|████████████████████████████████████████████████████████▏                                            | 1595/2865 [1:41:07<1:02:32,  2.95s/it]                                                                                                                                                  {'loss': 10.9979, 'grad_norm': 1.046875, 'learning_rate': 2.4436656215289923e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22319.43, 'epoch': 1.67}
 56%|████████████████████████████████████████████████████████▏                                            | 1595/2865 [1:41:07<1:02:32,  2.95s/it] 56%|████████████████████████████████████████████████████████▎                                            | 1596/2865 [1:41:10<1:02:27,  2.95s/it]                                                                                                                                                  {'loss': 11.0396, 'grad_norm': 1.1328125, 'learning_rate': 2.440621078047941e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21947.22, 'epoch': 1.67}
 56%|████████████████████████████████████████████████████████▎                                            | 1596/2865 [1:41:10<1:02:27,  2.95s/it] 56%|████████████████████████████████████████████████████████▎                                            | 1597/2865 [1:41:13<1:02:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0261, 'grad_norm': 1.34375, 'learning_rate': 2.4375766226777237e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22092.72, 'epoch': 1.67}
 56%|████████████████████████████████████████████████████████▎                                            | 1597/2865 [1:41:13<1:02:28,  2.96s/it] 56%|████████████████████████████████████████████████████████▎                                            | 1598/2865 [1:41:16<1:02:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0252, 'grad_norm': 1.03125, 'learning_rate': 2.4345322599359303e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21688.33, 'epoch': 1.67}
 56%|████████████████████████████████████████████████████████▎                                            | 1598/2865 [1:41:16<1:02:27,  2.96s/it] 56%|████████████████████████████████████████████████████████▎                                            | 1599/2865 [1:41:18<1:02:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0005, 'grad_norm': 1.046875, 'learning_rate': 2.4314879943400098e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21232.71, 'epoch': 1.67}
 56%|████████████████████████████████████████████████████████▎                                            | 1599/2865 [1:41:18<1:02:23,  2.96s/it] 56%|████████████████████████████████████████████████████████▍                                            | 1600/2865 [1:41:21<1:02:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0035, 'grad_norm': 1.1171875, 'learning_rate': 2.4284438304072683e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21135.91, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▍                                            | 1600/2865 [1:41:21<1:02:18,  2.96s/it][2025-10-12 04:50:14,238] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:03<04:49,  1.58s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:19,  1.10s/it][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:29,  1.21it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<02:02,  1.47it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:43,  1.73it/s][A
  4%|████                                                                                                         | 7/185 [00:05<01:33,  1.90it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:25,  2.06it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:18,  2.23it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:15,  2.33it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.38it/s][A
  6%|███████                                                                                                     | 12/185 [00:07<01:11,  2.41it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:10,  2.45it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:08,  2.49it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:07,  2.53it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:07,  2.52it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:09<01:06,  2.54it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:05,  2.55it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:04,  2.56it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:10<01:04,  2.57it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:03,  2.60it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:03,  2.56it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:00,  2.66it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:04,  2.50it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:12<01:03,  2.54it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:02,  2.55it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:02,  2.53it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<00:59,  2.63it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:02,  2.49it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:14<01:02,  2.49it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.54it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.53it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.55it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:59,  2.54it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:16<00:59,  2.53it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:57,  2.60it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.52it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:58,  2.52it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:57,  2.54it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:18<00:56,  2.55it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.55it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.55it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:19<00:55,  2.57it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:54,  2.57it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:20<00:54,  2.57it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:53,  2.57it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:51,  2.66it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:21<00:54,  2.53it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:52,  2.57it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:52,  2.56it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:52,  2.53it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.54it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:23<00:51,  2.55it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:50,  2.56it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:50,  2.53it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.54it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:25<00:48,  2.61it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:49,  2.52it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.51it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:49,  2.49it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.51it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:27<00:48,  2.51it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:48,  2.50it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.52it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:28<00:46,  2.57it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.56it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:29<00:45,  2.55it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:44,  2.59it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.55it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:30<00:45,  2.52it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:43,  2.60it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:31<00:44,  2.52it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.53it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.51it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:32<00:42,  2.54it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.56it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:42,  2.54it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.57it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:40,  2.60it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:34<00:40,  2.54it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:39,  2.59it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:40,  2.52it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:35<00:40,  2.47it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:39,  2.51it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:36<00:39,  2.51it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.53it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:37,  2.56it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:37<00:36,  2.65it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.55it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:38<00:36,  2.56it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:37,  2.49it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:36,  2.52it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:39<00:35,  2.55it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.56it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:40<00:34,  2.60it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.54it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.51it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:41<00:33,  2.54it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.52it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:42<00:33,  2.52it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:32,  2.53it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:31,  2.61it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:43<00:31,  2.54it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.53it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:44<00:31,  2.51it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.59it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.59it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:45<00:30,  2.52it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.54it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.53it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:46<00:28,  2.54it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:27,  2.59it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:47<00:27,  2.54it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.55it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.53it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:48<00:25,  2.65it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.49it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:49<00:26,  2.50it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.56it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.56it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:50<00:25,  2.52it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.54it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:51<00:23,  2.55it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:22,  2.62it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.54it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:52<00:22,  2.54it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.55it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:53<00:21,  2.55it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.55it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.54it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:54<00:20,  2.60it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.53it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:20,  2.54it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:55<00:19,  2.54it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.53it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:56<00:18,  2.53it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.56it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:17,  2.56it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:57<00:17,  2.56it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.58it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:58<00:17,  2.48it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.49it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.51it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:59<00:15,  2.54it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.51it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [01:00<00:15,  2.53it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.50it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.56it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:01<00:13,  2.56it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.52it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:02<00:13,  2.54it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.57it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.57it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:03<00:11,  2.58it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.51it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:04<00:11,  2.52it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:04<00:10,  2.54it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.52it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:05<00:09,  2.57it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.52it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:06<00:09,  2.54it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:06<00:08,  2.55it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.61it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:07<00:07,  2.53it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.56it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:06,  2.60it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:08<00:06,  2.53it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.52it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:09<00:05,  2.55it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.56it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:04,  2.69it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:10<00:04,  2.53it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.50it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:11<00:03,  2.50it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.53it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.49it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:12<00:02,  2.53it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.53it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:13<00:01,  2.58it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:13<00:01,  2.58it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.58it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:14<00:00,  2.61it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.57it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.10it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995708465576172, 'eval_runtime': 78.9521, 'eval_samples_per_second': 150.18, 'eval_steps_per_second': 2.356, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▍                                            | 1600/2865 [1:42:40<1:02:18,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.10it/s][A
                                                                                                                                                  [A[2025-10-12 04:51:33,209] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1600
 56%|███████████████████████████████████████████████████████▉                                            | 1601/2865 [1:42:52<10:14:06, 29.15s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.1484375, 'learning_rate': 2.425399772654863e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 20147.77, 'epoch': 1.68}
 56%|███████████████████████████████████████████████████████▉                                            | 1601/2865 [1:42:52<10:14:06, 29.15s/it] 56%|████████████████████████████████████████████████████████▍                                            | 1602/2865 [1:42:55<7:28:07, 21.29s/it]                                                                                                                                                  {'loss': 11.0155, 'grad_norm': 1.1328125, 'learning_rate': 2.42235582559979e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21618.21, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▍                                            | 1602/2865 [1:42:55<7:28:07, 21.29s/it] 56%|████████████████████████████████████████████████████████▌                                            | 1603/2865 [1:42:58<5:32:01, 15.79s/it]                                                                                                                                                  {'loss': 11.009, 'grad_norm': 1.03125, 'learning_rate': 2.4193119937588846e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22594.93, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▌                                            | 1603/2865 [1:42:58<5:32:01, 15.79s/it] 56%|████████████████████████████████████████████████████████▌                                            | 1604/2865 [1:43:01<4:10:52, 11.94s/it]                                                                                                                                                  {'loss': 11.0112, 'grad_norm': 1.078125, 'learning_rate': 2.4162682816488078e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22650.07, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▌                                            | 1604/2865 [1:43:01<4:10:52, 11.94s/it] 56%|████████████████████████████████████████████████████████▌                                            | 1605/2865 [1:43:03<3:14:06,  9.24s/it]                                                                                                                                                  {'loss': 11.0125, 'grad_norm': 1.0625, 'learning_rate': 2.4132246937860465e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21394.3, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▌                                            | 1605/2865 [1:43:04<3:14:06,  9.24s/it] 56%|████████████████████████████████████████████████████████▌                                            | 1606/2865 [1:43:06<2:34:21,  7.36s/it]                                                                                                                                                  {'loss': 11.0291, 'grad_norm': 1.0703125, 'learning_rate': 2.410181234686901e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22189.12, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▌                                            | 1606/2865 [1:43:06<2:34:21,  7.36s/it] 56%|████████████████████████████████████████████████████████▋                                            | 1607/2865 [1:43:09<2:06:30,  6.03s/it]                                                                                                                                                  {'loss': 11.0153, 'grad_norm': 1.2578125, 'learning_rate': 2.4071379088674796e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21492.62, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▋                                            | 1607/2865 [1:43:09<2:06:30,  6.03s/it] 56%|████████████████████████████████████████████████████████▋                                            | 1608/2865 [1:43:12<1:47:04,  5.11s/it]                                                                                                                                                  {'loss': 11.0191, 'grad_norm': 1.0390625, 'learning_rate': 2.404094720843696e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22441.57, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▋                                            | 1608/2865 [1:43:12<1:47:04,  5.11s/it] 56%|████████████████████████████████████████████████████████▋                                            | 1609/2865 [1:43:15<1:33:24,  4.46s/it]                                                                                                                                                  {'loss': 11.007, 'grad_norm': 1.171875, 'learning_rate': 2.401051675131256e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20881.82, 'epoch': 1.68}
 56%|████████████████████████████████████████████████████████▋                                            | 1609/2865 [1:43:15<1:33:24,  4.46s/it] 56%|████████████████████████████████████████████████████████▊                                            | 1610/2865 [1:43:18<1:23:55,  4.01s/it]                                                                                                                                                  {'loss': 11.0186, 'grad_norm': 1.109375, 'learning_rate': 2.398008776245657e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22173.47, 'epoch': 1.69}
 56%|████████████████████████████████████████████████████████▊                                            | 1610/2865 [1:43:18<1:23:55,  4.01s/it] 56%|████████████████████████████████████████████████████████▊                                            | 1611/2865 [1:43:21<1:17:12,  3.69s/it]                                                                                                                                                  {'loss': 11.0218, 'grad_norm': 1.1953125, 'learning_rate': 2.3949660287021762e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20799.98, 'epoch': 1.69}
 56%|████████████████████████████████████████████████████████▊                                            | 1611/2865 [1:43:21<1:17:12,  3.69s/it] 56%|████████████████████████████████████████████████████████▊                                            | 1612/2865 [1:43:24<1:12:30,  3.47s/it]                                                                                                                                                  {'loss': 11.0176, 'grad_norm': 1.078125, 'learning_rate': 2.3919234370158693e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21071.54, 'epoch': 1.69}
 56%|████████████████████████████████████████████████████████▊                                            | 1612/2865 [1:43:24<1:12:30,  3.47s/it] 56%|████████████████████████████████████████████████████████▊                                            | 1613/2865 [1:43:27<1:09:15,  3.32s/it]                                                                                                                                                  {'loss': 11.018, 'grad_norm': 1.3203125, 'learning_rate': 2.3888810057015568e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21604.54, 'epoch': 1.69}
 56%|████████████████████████████████████████████████████████▊                                            | 1613/2865 [1:43:27<1:09:15,  3.32s/it] 56%|████████████████████████████████████████████████████████▉                                            | 1614/2865 [1:43:30<1:06:54,  3.21s/it]                                                                                                                                                  {'loss': 11.0053, 'grad_norm': 1.1171875, 'learning_rate': 2.3858387392738247e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21887.23, 'epoch': 1.69}
 56%|████████████████████████████████████████████████████████▉                                            | 1614/2865 [1:43:30<1:06:54,  3.21s/it] 56%|████████████████████████████████████████████████████████▉                                            | 1615/2865 [1:43:33<1:05:16,  3.13s/it]                                                                                                                                                  {'loss': 11.031, 'grad_norm': 1.078125, 'learning_rate': 2.3827966422470124e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22442.12, 'epoch': 1.69}
 56%|████████████████████████████████████████████████████████▉                                            | 1615/2865 [1:43:33<1:05:16,  3.13s/it] 56%|████████████████████████████████████████████████████████▉                                            | 1616/2865 [1:43:36<1:04:04,  3.08s/it]                                                                                                                                                  {'loss': 11.0052, 'grad_norm': 1.0859375, 'learning_rate': 2.379754719135207e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22207.94, 'epoch': 1.69}
 56%|████████████████████████████████████████████████████████▉                                            | 1616/2865 [1:43:36<1:04:04,  3.08s/it] 56%|█████████████████████████████████████████████████████████                                            | 1617/2865 [1:43:39<1:03:20,  3.05s/it]                                                                                                                                                  {'loss': 11.0156, 'grad_norm': 1.0546875, 'learning_rate': 2.3767129744522412e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20998.72, 'epoch': 1.69}
 56%|█████████████████████████████████████████████████████████                                            | 1617/2865 [1:43:39<1:03:20,  3.05s/it] 56%|█████████████████████████████████████████████████████████                                            | 1618/2865 [1:43:42<1:02:45,  3.02s/it]                                                                                                                                                  {'loss': 11.0159, 'grad_norm': 1.1015625, 'learning_rate': 2.3736714127116787e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21828.05, 'epoch': 1.69}
 56%|█████████████████████████████████████████████████████████                                            | 1618/2865 [1:43:42<1:02:45,  3.02s/it] 57%|█████████████████████████████████████████████████████████                                            | 1619/2865 [1:43:45<1:02:17,  3.00s/it]                                                                                                                                                  {'loss': 11.0367, 'grad_norm': 1.0703125, 'learning_rate': 2.3706300384268155e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20998.69, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████                                            | 1619/2865 [1:43:45<1:02:17,  3.00s/it] 57%|█████████████████████████████████████████████████████████                                            | 1620/2865 [1:43:48<1:02:01,  2.99s/it]                                                                                                                                                  {'loss': 11.0208, 'grad_norm': 1.0390625, 'learning_rate': 2.3675888561106658e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20934.37, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████                                            | 1620/2865 [1:43:48<1:02:01,  2.99s/it] 57%|█████████████████████████████████████████████████████████▏                                           | 1621/2865 [1:43:51<1:01:43,  2.98s/it]                                                                                                                                                  {'loss': 11.0334, 'grad_norm': 1.0390625, 'learning_rate': 2.3645478702759627e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21730.18, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████▏                                           | 1621/2865 [1:43:51<1:01:43,  2.98s/it] 57%|█████████████████████████████████████████████████████████▏                                           | 1622/2865 [1:43:54<1:01:40,  2.98s/it]                                                                                                                                                  {'loss': 11.0202, 'grad_norm': 1.09375, 'learning_rate': 2.3615070854351435e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21216.8, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████▏                                           | 1622/2865 [1:43:54<1:01:40,  2.98s/it] 57%|█████████████████████████████████████████████████████████▏                                           | 1623/2865 [1:43:57<1:01:30,  2.97s/it]                                                                                                                                                  {'loss': 11.0127, 'grad_norm': 1.203125, 'learning_rate': 2.358466506100353e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19926.77, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████▏                                           | 1623/2865 [1:43:57<1:01:30,  2.97s/it] 57%|█████████████████████████████████████████████████████████▎                                           | 1624/2865 [1:44:00<1:01:18,  2.96s/it]                                                                                                                                                  {'loss': 11.003, 'grad_norm': 1.125, 'learning_rate': 2.355426136783424e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21581.95, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████▎                                           | 1624/2865 [1:44:00<1:01:18,  2.96s/it] 57%|█████████████████████████████████████████████████████████▎                                           | 1625/2865 [1:44:03<1:01:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0199, 'grad_norm': 1.03125, 'learning_rate': 2.3523859819958828e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21916.72, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████▎                                           | 1625/2865 [1:44:03<1:01:15,  2.96s/it] 57%|█████████████████████████████████████████████████████████▎                                           | 1626/2865 [1:44:06<1:01:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0103, 'grad_norm': 1.1171875, 'learning_rate': 2.3493460462489366e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21006.75, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████▎                                           | 1626/2865 [1:44:06<1:01:06,  2.96s/it] 57%|█████████████████████████████████████████████████████████▎                                           | 1627/2865 [1:44:09<1:01:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0236, 'grad_norm': 1.171875, 'learning_rate': 2.3463063340534656e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20099.97, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████▎                                           | 1627/2865 [1:44:09<1:01:03,  2.96s/it] 57%|█████████████████████████████████████████████████████████▍                                           | 1628/2865 [1:44:12<1:01:06,  2.96s/it]                                                                                                                                                  {'loss': 11.01, 'grad_norm': 1.0390625, 'learning_rate': 2.343266849920021e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23211.13, 'epoch': 1.7}
 57%|█████████████████████████████████████████████████████████▍                                           | 1628/2865 [1:44:12<1:01:06,  2.96s/it] 57%|█████████████████████████████████████████████████████████▍                                           | 1629/2865 [1:44:14<1:00:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0154, 'grad_norm': 1.0390625, 'learning_rate': 2.340227598358812e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21396.49, 'epoch': 1.71}
 57%|█████████████████████████████████████████████████████████▍                                           | 1629/2865 [1:44:14<1:00:57,  2.96s/it] 57%|█████████████████████████████████████████████████████████▍                                           | 1630/2865 [1:44:17<1:00:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0065, 'grad_norm': 1.046875, 'learning_rate': 2.3371885838797068e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21105.49, 'epoch': 1.71}
 57%|█████████████████████████████████████████████████████████▍                                           | 1630/2865 [1:44:17<1:00:51,  2.96s/it] 57%|█████████████████████████████████████████████████████████▍                                           | 1631/2865 [1:44:20<1:00:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0118, 'grad_norm': 1.0390625, 'learning_rate': 2.334149810992219e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21441.05, 'epoch': 1.71}
 57%|█████████████████████████████████████████████████████████▍                                           | 1631/2865 [1:44:20<1:00:50,  2.96s/it] 57%|█████████████████████████████████████████████████████████▌                                           | 1632/2865 [1:44:23<1:00:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0206, 'grad_norm': 1.0390625, 'learning_rate': 2.3311112842055034e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21155.42, 'epoch': 1.71}
 57%|█████████████████████████████████████████████████████████▌                                           | 1632/2865 [1:44:23<1:00:50,  2.96s/it] 57%|█████████████████████████████████████████████████████████▌                                           | 1633/2865 [1:44:26<1:00:39,  2.95s/it]                                                                                                                                                  {'loss': 11.018, 'grad_norm': 1.1171875, 'learning_rate': 2.3280730080283532e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21268.34, 'epoch': 1.71}
 57%|█████████████████████████████████████████████████████████▌                                           | 1633/2865 [1:44:26<1:00:39,  2.95s/it] 57%|█████████████████████████████████████████████████████████▌                                           | 1634/2865 [1:44:29<1:00:37,  2.95s/it]                                                                                                                                                  {'loss': 11.0196, 'grad_norm': 1.0390625, 'learning_rate': 2.3250349869691838e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20836.02, 'epoch': 1.71}
 57%|█████████████████████████████████████████████████████████▌                                           | 1634/2865 [1:44:29<1:00:37,  2.95s/it] 57%|█████████████████████████████████████████████████████████▋                                           | 1635/2865 [1:44:32<1:00:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0328, 'grad_norm': 1.046875, 'learning_rate': 2.321997225536039e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20880.14, 'epoch': 1.71}
 57%|█████████████████████████████████████████████████████████▋                                           | 1635/2865 [1:44:32<1:00:34,  2.95s/it] 57%|█████████████████████████████████████████████████████████▋                                           | 1636/2865 [1:44:35<1:00:29,  2.95s/it]                                                                                                                                                  {'loss': 11.0198, 'grad_norm': 1.046875, 'learning_rate': 2.3189597282365715e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21654.42, 'epoch': 1.71}
 57%|█████████████████████████████████████████████████████████▋                                           | 1636/2865 [1:44:35<1:00:29,  2.95s/it] 57%|█████████████████████████████████████████████████████████▋                                           | 1637/2865 [1:44:38<1:00:27,  2.95s/it]                                                                                                                                                  {'loss': 11.0115, 'grad_norm': 1.046875, 'learning_rate': 2.315922499578046e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21240.7, 'epoch': 1.71}
 57%|█████████████████████████████████████████████████████████▋                                           | 1637/2865 [1:44:38<1:00:27,  2.95s/it] 57%|█████████████████████████████████████████████████████████▋                                           | 1638/2865 [1:44:41<1:00:24,  2.95s/it]                                                                                                                                                  {'loss': 11.0019, 'grad_norm': 1.046875, 'learning_rate': 2.312885544067325e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21173.46, 'epoch': 1.72}
 57%|█████████████████████████████████████████████████████████▋                                           | 1638/2865 [1:44:41<1:00:24,  2.95s/it] 57%|█████████████████████████████████████████████████████████▊                                           | 1639/2865 [1:44:44<1:00:20,  2.95s/it]                                                                                                                                                  {'loss': 11.0083, 'grad_norm': 1.03125, 'learning_rate': 2.3098488662108697e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21053.41, 'epoch': 1.72}
 57%|█████████████████████████████████████████████████████████▊                                           | 1639/2865 [1:44:44<1:00:20,  2.95s/it] 57%|█████████████████████████████████████████████████████████▊                                           | 1640/2865 [1:44:47<1:00:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0176, 'grad_norm': 1.140625, 'learning_rate': 2.306812470514726e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22461.35, 'epoch': 1.72}
 57%|█████████████████████████████████████████████████████████▊                                           | 1640/2865 [1:44:47<1:00:21,  2.96s/it] 57%|█████████████████████████████████████████████████████████▊                                           | 1641/2865 [1:44:50<1:00:15,  2.95s/it]                                                                                                                                                  {'loss': 11.0176, 'grad_norm': 1.03125, 'learning_rate': 2.303776361484522e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20956.08, 'epoch': 1.72}
 57%|█████████████████████████████████████████████████████████▊                                           | 1641/2865 [1:44:50<1:00:15,  2.95s/it] 57%|█████████████████████████████████████████████████████████▉                                           | 1642/2865 [1:44:53<1:00:16,  2.96s/it]                                                                                                                                                  {'loss': 11.03, 'grad_norm': 1.03125, 'learning_rate': 2.300740543625462e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21111.33, 'epoch': 1.72}
 57%|█████████████████████████████████████████████████████████▉                                           | 1642/2865 [1:44:53<1:00:16,  2.96s/it] 57%|█████████████████████████████████████████████████████████▉                                           | 1643/2865 [1:44:56<1:00:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0271, 'grad_norm': 1.2265625, 'learning_rate': 2.2977050214423162e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21770.24, 'epoch': 1.72}
 57%|█████████████████████████████████████████████████████████▉                                           | 1643/2865 [1:44:56<1:00:20,  2.96s/it] 57%|█████████████████████████████████████████████████████████▉                                           | 1644/2865 [1:44:59<1:00:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0416, 'grad_norm': 1.15625, 'learning_rate': 2.294669799439417e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21788.82, 'epoch': 1.72}
 57%|█████████████████████████████████████████████████████████▉                                           | 1644/2865 [1:44:59<1:00:15,  2.96s/it] 57%|█████████████████████████████████████████████████████████▉                                           | 1645/2865 [1:45:02<1:00:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0128, 'grad_norm': 1.046875, 'learning_rate': 2.2916348821206507e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21884.47, 'epoch': 1.72}
 57%|█████████████████████████████████████████████████████████▉                                           | 1645/2865 [1:45:02<1:00:12,  2.96s/it] 57%|██████████████████████████████████████████████████████████                                           | 1646/2865 [1:45:05<1:00:01,  2.95s/it]                                                                                                                                                  {'loss': 10.989, 'grad_norm': 1.5859375, 'learning_rate': 2.2886002739894534e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21014.05, 'epoch': 1.72}
 57%|██████████████████████████████████████████████████████████                                           | 1646/2865 [1:45:05<1:00:01,  2.95s/it] 57%|██████████████████████████████████████████████████████████                                           | 1647/2865 [1:45:08<1:00:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0184, 'grad_norm': 1.0625, 'learning_rate': 2.2855659795487997e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21673.24, 'epoch': 1.72}
 57%|██████████████████████████████████████████████████████████                                           | 1647/2865 [1:45:08<1:00:00,  2.96s/it] 58%|██████████████████████████████████████████████████████████                                           | 1648/2865 [1:45:11<1:00:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0242, 'grad_norm': 1.0390625, 'learning_rate': 2.2825320033012013e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21991.05, 'epoch': 1.73}
 58%|██████████████████████████████████████████████████████████                                           | 1648/2865 [1:45:11<1:00:00,  2.96s/it] 58%|███████████████████████████████████████████████████████████▎                                           | 1649/2865 [1:45:14<59:52,  2.95s/it]                                                                                                                                                  {'loss': 11.0135, 'grad_norm': 1.15625, 'learning_rate': 2.2794983497486958e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21134.6, 'epoch': 1.73}
 58%|███████████████████████████████████████████████████████████▎                                           | 1649/2865 [1:45:14<59:52,  2.95s/it] 58%|███████████████████████████████████████████████████████████▎                                           | 1650/2865 [1:45:17<59:48,  2.95s/it]                                                                                                                                                  {'loss': 11.0128, 'grad_norm': 1.3125, 'learning_rate': 2.2764650233928415e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20622.07, 'epoch': 1.73}
 58%|███████████████████████████████████████████████████████████▎                                           | 1650/2865 [1:45:17<59:48,  2.95s/it] 58%|███████████████████████████████████████████████████████████▎                                           | 1651/2865 [1:45:19<59:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0048, 'grad_norm': 1.0859375, 'learning_rate': 2.273432028734714e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23112.78, 'epoch': 1.73}
 58%|███████████████████████████████████████████████████████████▎                                           | 1651/2865 [1:45:20<59:50,  2.96s/it] 58%|███████████████████████████████████████████████████████████▍                                           | 1652/2865 [1:45:22<59:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0401, 'grad_norm': 1.1015625, 'learning_rate': 2.270399370274894e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21492.23, 'epoch': 1.73}
 58%|███████████████████████████████████████████████████████████▍                                           | 1652/2865 [1:45:22<59:49,  2.96s/it] 58%|███████████████████████████████████████████████████████████▍                                           | 1653/2865 [1:45:25<59:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0186, 'grad_norm': 1.046875, 'learning_rate': 2.2673670525134655e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20660.37, 'epoch': 1.73}
 58%|███████████████████████████████████████████████████████████▍                                           | 1653/2865 [1:45:25<59:46,  2.96s/it] 58%|███████████████████████████████████████████████████████████▍                                           | 1654/2865 [1:45:28<59:38,  2.95s/it]                                                                                                                                                  {'loss': 10.9941, 'grad_norm': 1.0859375, 'learning_rate': 2.2643350799500044e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21240.08, 'epoch': 1.73}
 58%|███████████████████████████████████████████████████████████▍                                           | 1654/2865 [1:45:28<59:38,  2.95s/it] 58%|███████████████████████████████████████████████████████████▍                                           | 1655/2865 [1:45:31<59:37,  2.96s/it]                                                                                                                                                  {'loss': 11.023, 'grad_norm': 1.0859375, 'learning_rate': 2.2613034570835772e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21825.54, 'epoch': 1.73}
 58%|███████████████████████████████████████████████████████████▍                                           | 1655/2865 [1:45:31<59:37,  2.96s/it] 58%|███████████████████████████████████████████████████████████▌                                           | 1656/2865 [1:45:34<59:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0105, 'grad_norm': 1.1171875, 'learning_rate': 2.2582721884127295e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21074.41, 'epoch': 1.73}
 58%|███████████████████████████████████████████████████████████▌                                           | 1656/2865 [1:45:34<59:34,  2.96s/it] 58%|███████████████████████████████████████████████████████████▌                                           | 1657/2865 [1:45:37<59:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0209, 'grad_norm': 1.0546875, 'learning_rate': 2.2552412784354804e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21849.95, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▌                                           | 1657/2865 [1:45:37<59:34,  2.96s/it] 58%|███████████████████████████████████████████████████████████▌                                           | 1658/2865 [1:45:40<59:28,  2.96s/it]                                                                                                                                                  {'loss': 10.9897, 'grad_norm': 1.1484375, 'learning_rate': 2.25221073164932e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21618.74, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▌                                           | 1658/2865 [1:45:40<59:28,  2.96s/it] 58%|███████████████████████████████████████████████████████████▋                                           | 1659/2865 [1:45:43<59:24,  2.96s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.0546875, 'learning_rate': 2.2491805525511974e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21022.17, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▋                                           | 1659/2865 [1:45:43<59:24,  2.96s/it] 58%|███████████████████████████████████████████████████████████▋                                           | 1660/2865 [1:45:46<59:18,  2.95s/it]                                                                                                                                                  {'loss': 11.0005, 'grad_norm': 1.0546875, 'learning_rate': 2.2461507456375163e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20693.91, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▋                                           | 1660/2865 [1:45:46<59:18,  2.95s/it] 58%|███████████████████████████████████████████████████████████▋                                           | 1661/2865 [1:45:49<59:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0238, 'grad_norm': 1.0859375, 'learning_rate': 2.243121315404128e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22151.47, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▋                                           | 1661/2865 [1:45:49<59:18,  2.96s/it] 58%|███████████████████████████████████████████████████████████▊                                           | 1662/2865 [1:45:52<59:12,  2.95s/it]                                                                                                                                                  {'loss': 11.0153, 'grad_norm': 1.0546875, 'learning_rate': 2.2400922663463253e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21529.42, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▊                                           | 1662/2865 [1:45:52<59:12,  2.95s/it] 58%|███████████████████████████████████████████████████████████▊                                           | 1663/2865 [1:45:55<59:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0141, 'grad_norm': 1.078125, 'learning_rate': 2.237063602958835e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21962.31, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▊                                           | 1663/2865 [1:45:55<59:13,  2.96s/it] 58%|███████████████████████████████████████████████████████████▊                                           | 1664/2865 [1:45:58<59:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0113, 'grad_norm': 1.0546875, 'learning_rate': 2.2340353297358118e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20565.8, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▊                                           | 1664/2865 [1:45:58<59:11,  2.96s/it] 58%|███████████████████████████████████████████████████████████▊                                           | 1665/2865 [1:46:01<59:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0186, 'grad_norm': 1.03125, 'learning_rate': 2.231007451170832e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21326.1, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▊                                           | 1665/2865 [1:46:01<59:10,  2.96s/it] 58%|███████████████████████████████████████████████████████████▉                                           | 1666/2865 [1:46:04<59:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0116, 'grad_norm': 1.03125, 'learning_rate': 2.227979971756884e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22434.11, 'epoch': 1.74}
 58%|███████████████████████████████████████████████████████████▉                                           | 1666/2865 [1:46:04<59:06,  2.96s/it] 58%|███████████████████████████████████████████████████████████▉                                           | 1667/2865 [1:46:07<59:01,  2.96s/it]                                                                                                                                                  {'loss': 10.9984, 'grad_norm': 1.1953125, 'learning_rate': 2.224952895986368e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21720.77, 'epoch': 1.75}
 58%|███████████████████████████████████████████████████████████▉                                           | 1667/2865 [1:46:07<59:01,  2.96s/it] 58%|███████████████████████████████████████████████████████████▉                                           | 1668/2865 [1:46:10<58:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0129, 'grad_norm': 1.1328125, 'learning_rate': 2.2219262283510806e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21730.66, 'epoch': 1.75}
 58%|███████████████████████████████████████████████████████████▉                                           | 1668/2865 [1:46:10<58:57,  2.96s/it] 58%|████████████████████████████████████████████████████████████                                           | 1669/2865 [1:46:13<58:51,  2.95s/it]                                                                                                                                                  {'loss': 11.0011, 'grad_norm': 1.171875, 'learning_rate': 2.218899973342217e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19966.64, 'epoch': 1.75}
 58%|████████████████████████████████████████████████████████████                                           | 1669/2865 [1:46:13<58:51,  2.95s/it] 58%|████████████████████████████████████████████████████████████                                           | 1670/2865 [1:46:16<58:48,  2.95s/it]                                                                                                                                                  {'loss': 11.0145, 'grad_norm': 1.0390625, 'learning_rate': 2.215874135450356e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21671.33, 'epoch': 1.75}
 58%|████████████████████████████████████████████████████████████                                           | 1670/2865 [1:46:16<58:48,  2.95s/it] 58%|████████████████████████████████████████████████████████████                                           | 1671/2865 [1:46:19<58:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0011, 'grad_norm': 1.1015625, 'learning_rate': 2.212848719165462e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21607.55, 'epoch': 1.75}
 58%|████████████████████████████████████████████████████████████                                           | 1671/2865 [1:46:19<58:43,  2.95s/it] 58%|████████████████████████████████████████████████████████████                                           | 1672/2865 [1:46:22<58:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0182, 'grad_norm': 1.0859375, 'learning_rate': 2.2098237289768686e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21537.82, 'epoch': 1.75}
 58%|████████████████████████████████████████████████████████████                                           | 1672/2865 [1:46:22<58:41,  2.95s/it] 58%|████████████████████████████████████████████████████████████▏                                          | 1673/2865 [1:46:24<58:35,  2.95s/it]                                                                                                                                                  {'loss': 11.0198, 'grad_norm': 1.125, 'learning_rate': 2.206799169373283e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21365.04, 'epoch': 1.75}
 58%|████████████████████████████████████████████████████████████▏                                          | 1673/2865 [1:46:25<58:35,  2.95s/it] 58%|████████████████████████████████████████████████████████████▏                                          | 1674/2865 [1:46:27<58:35,  2.95s/it]                                                                                                                                                  {'loss': 11.0043, 'grad_norm': 1.0703125, 'learning_rate': 2.2037750448427686e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21582.38, 'epoch': 1.75}
 58%|████████████████████████████████████████████████████████████▏                                          | 1674/2865 [1:46:27<58:35,  2.95s/it] 58%|████████████████████████████████████████████████████████████▏                                          | 1675/2865 [1:46:30<58:35,  2.95s/it]                                                                                                                                                  {'loss': 11.0293, 'grad_norm': 1.0546875, 'learning_rate': 2.200751359872744e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22520.16, 'epoch': 1.75}
 58%|████████████████████████████████████████████████████████████▏                                          | 1675/2865 [1:46:30<58:35,  2.95s/it] 58%|████████████████████████████████████████████████████████████▎                                          | 1676/2865 [1:46:33<58:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0276, 'grad_norm': 1.234375, 'learning_rate': 2.1977281189499788e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20257.68, 'epoch': 1.75}
 58%|████████████████████████████████████████████████████████████▎                                          | 1676/2865 [1:46:33<58:33,  2.96s/it] 59%|████████████████████████████████████████████████████████████▎                                          | 1677/2865 [1:46:36<58:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0268, 'grad_norm': 1.0546875, 'learning_rate': 2.1947053265605795e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21894.32, 'epoch': 1.76}
 59%|████████████████████████████████████████████████████████████▎                                          | 1677/2865 [1:46:36<58:34,  2.96s/it] 59%|████████████████████████████████████████████████████████████▎                                          | 1678/2865 [1:46:39<58:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0174, 'grad_norm': 1.140625, 'learning_rate': 2.1916829871899903e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21548.9, 'epoch': 1.76}
 59%|████████████████████████████████████████████████████████████▎                                          | 1678/2865 [1:46:39<58:31,  2.96s/it] 59%|████████████████████████████████████████████████████████████▎                                          | 1679/2865 [1:46:42<58:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0056, 'grad_norm': 1.2109375, 'learning_rate': 2.1886611053229812e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22034.7, 'epoch': 1.76}
 59%|████████████████████████████████████████████████████████████▎                                          | 1679/2865 [1:46:42<58:26,  2.96s/it] 59%|████████████████████████████████████████████████████████████▍                                          | 1680/2865 [1:46:45<58:21,  2.95s/it]                                                                                                                                                  {'loss': 11.0184, 'grad_norm': 1.1640625, 'learning_rate': 2.1856396854436437e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20862.45, 'epoch': 1.76}
 59%|████████████████████████████████████████████████████████████▍                                          | 1680/2865 [1:46:45<58:21,  2.95s/it] 59%|████████████████████████████████████████████████████████████▍                                          | 1681/2865 [1:46:48<58:14,  2.95s/it]                                                                                                                                                  {'loss': 11.0103, 'grad_norm': 1.1875, 'learning_rate': 2.1826187320353853e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21387.8, 'epoch': 1.76}
 59%|████████████████████████████████████████████████████████████▍                                          | 1681/2865 [1:46:48<58:14,  2.95s/it] 59%|████████████████████████████████████████████████████████████▍                                          | 1682/2865 [1:46:51<58:15,  2.96s/it]                                                                                                                                                  {'loss': 10.9969, 'grad_norm': 1.0546875, 'learning_rate': 2.1795982495809177e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22855.56, 'epoch': 1.76}
 59%|████████████████████████████████████████████████████████████▍                                          | 1682/2865 [1:46:51<58:15,  2.96s/it] 59%|████████████████████████████████████████████████████████████▌                                          | 1683/2865 [1:46:54<58:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0126, 'grad_norm': 1.109375, 'learning_rate': 2.176578242562259e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21470.33, 'epoch': 1.76}
 59%|████████████████████████████████████████████████████████████▌                                          | 1683/2865 [1:46:54<58:14,  2.96s/it] 59%|████████████████████████████████████████████████████████████▌                                          | 1684/2865 [1:46:57<58:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0228, 'grad_norm': 1.046875, 'learning_rate': 2.1735587154607162e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21484.14, 'epoch': 1.76}
 59%|████████████████████████████████████████████████████████████▌                                          | 1684/2865 [1:46:57<58:13,  2.96s/it] 59%|████████████████████████████████████████████████████████████▌                                          | 1685/2865 [1:47:00<58:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0233, 'grad_norm': 1.265625, 'learning_rate': 2.170539672756889e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22603.96, 'epoch': 1.76}
 59%|████████████████████████████████████████████████████████████▌                                          | 1685/2865 [1:47:00<58:11,  2.96s/it] 59%|████████████████████████████████████████████████████████████▌                                          | 1686/2865 [1:47:03<58:09,  2.96s/it]                                                                                                                                                  {'loss': 11.021, 'grad_norm': 1.09375, 'learning_rate': 2.1675211189306543e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21334.95, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▌                                          | 1686/2865 [1:47:03<58:09,  2.96s/it] 59%|████████████████████████████████████████████████████████████▋                                          | 1687/2865 [1:47:06<58:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0024, 'grad_norm': 1.046875, 'learning_rate': 2.1645030584611677e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21253.67, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▋                                          | 1687/2865 [1:47:06<58:06,  2.96s/it] 59%|████████████████████████████████████████████████████████████▋                                          | 1688/2865 [1:47:09<58:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0248, 'grad_norm': 1.1796875, 'learning_rate': 2.1614854958268478e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21069.41, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▋                                          | 1688/2865 [1:47:09<58:01,  2.96s/it] 59%|████████████████████████████████████████████████████████████▋                                          | 1689/2865 [1:47:12<57:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0216, 'grad_norm': 1.15625, 'learning_rate': 2.1584684355053795e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21188.93, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▋                                          | 1689/2865 [1:47:12<57:55,  2.96s/it] 59%|████████████████████████████████████████████████████████████▊                                          | 1690/2865 [1:47:15<57:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0147, 'grad_norm': 1.109375, 'learning_rate': 2.1554518819736993e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23003.23, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▊                                          | 1690/2865 [1:47:15<57:57,  2.96s/it] 59%|████████████████████████████████████████████████████████████▊                                          | 1691/2865 [1:47:18<57:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0089, 'grad_norm': 1.03125, 'learning_rate': 2.152435839707991e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22780.46, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▊                                          | 1691/2865 [1:47:18<57:53,  2.96s/it] 59%|████████████████████████████████████████████████████████████▊                                          | 1692/2865 [1:47:21<57:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0207, 'grad_norm': 1.140625, 'learning_rate': 2.1494203131836836e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21204.81, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▊                                          | 1692/2865 [1:47:21<57:48,  2.96s/it] 59%|████████████████████████████████████████████████████████████▊                                          | 1693/2865 [1:47:24<57:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0042, 'grad_norm': 1.09375, 'learning_rate': 2.1464053068754354e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21328.41, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▊                                          | 1693/2865 [1:47:24<57:41,  2.95s/it] 59%|████████████████████████████████████████████████████████████▉                                          | 1694/2865 [1:47:27<57:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0323, 'grad_norm': 1.0859375, 'learning_rate': 2.1433908252571384e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22162.14, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▉                                          | 1694/2865 [1:47:27<57:41,  2.96s/it] 59%|████████████████████████████████████████████████████████████▉                                          | 1695/2865 [1:47:30<57:40,  2.96s/it]                                                                                                                                                  {'loss': 10.9957, 'grad_norm': 1.09375, 'learning_rate': 2.1403768728019013e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20883.75, 'epoch': 1.77}
 59%|████████████████████████████████████████████████████████████▉                                          | 1695/2865 [1:47:30<57:40,  2.96s/it] 59%|████████████████████████████████████████████████████████████▉                                          | 1696/2865 [1:47:33<57:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0196, 'grad_norm': 1.34375, 'learning_rate': 2.1373634539820516e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21783.13, 'epoch': 1.78}
 59%|████████████████████████████████████████████████████████████▉                                          | 1696/2865 [1:47:33<57:35,  2.96s/it] 59%|█████████████████████████████████████████████████████████████                                          | 1697/2865 [1:47:35<57:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0153, 'grad_norm': 1.046875, 'learning_rate': 2.13435057326912e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21280.93, 'epoch': 1.78}
 59%|█████████████████████████████████████████████████████████████                                          | 1697/2865 [1:47:35<57:33,  2.96s/it] 59%|█████████████████████████████████████████████████████████████                                          | 1698/2865 [1:47:38<57:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0385, 'grad_norm': 1.03125, 'learning_rate': 2.131338235133845e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21204.48, 'epoch': 1.78}
 59%|█████████████████████████████████████████████████████████████                                          | 1698/2865 [1:47:38<57:31,  2.96s/it] 59%|█████████████████████████████████████████████████████████████                                          | 1699/2865 [1:47:41<57:29,  2.96s/it]                                                                                                                                                  {'loss': 11.023, 'grad_norm': 1.0234375, 'learning_rate': 2.128326444046155e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20877.07, 'epoch': 1.78}
 59%|█████████████████████████████████████████████████████████████                                          | 1699/2865 [1:47:41<57:29,  2.96s/it] 59%|█████████████████████████████████████████████████████████████                                          | 1700/2865 [1:47:44<57:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0073, 'grad_norm': 1.34375, 'learning_rate': 2.125315204475167e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20886.22, 'epoch': 1.78}
 59%|█████████████████████████████████████████████████████████████                                          | 1700/2865 [1:47:44<57:24,  2.96s/it][2025-10-12 04:56:37,164] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<04:28,  1.47s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:04,  1.01s/it][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:19,  1.29it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<01:56,  1.54it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:41,  1.77it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:31,  1.95it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:23,  2.11it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:19,  2.21it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:14,  2.36it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.35it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:10,  2.44it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:08,  2.52it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:08,  2.49it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:07,  2.53it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:06,  2.53it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.53it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:05,  2.55it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:03,  2.60it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:04,  2.58it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:05,  2.51it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:03,  2.57it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:01,  2.64it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.52it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:03,  2.51it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:02,  2.55it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:02,  2.54it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:01,  2.56it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<00:59,  2.63it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.55it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.53it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.53it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.54it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:59,  2.54it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:58,  2.56it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:58,  2.56it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:57,  2.56it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:57,  2.55it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:56,  2.58it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:57,  2.53it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.55it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.55it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:55,  2.55it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:54,  2.57it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:54,  2.56it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.56it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:53,  2.57it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.56it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:52,  2.57it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:52,  2.57it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:52,  2.56it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:50,  2.64it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:51,  2.55it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.57it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:50,  2.55it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:49,  2.60it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:48,  2.64it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:50,  2.52it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:49,  2.54it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:48,  2.55it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:48,  2.55it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.54it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.58it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:46,  2.58it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.54it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:45,  2.61it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.56it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:46,  2.54it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:44,  2.58it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.54it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:43,  2.61it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:43,  2.59it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:42,  2.59it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:42,  2.56it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.58it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.54it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:41,  2.55it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.54it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.56it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.55it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.54it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:38,  2.65it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:40,  2.52it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:38,  2.62it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:37,  2.62it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:37,  2.59it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.50it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.54it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.54it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.59it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:36,  2.54it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:35,  2.56it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.54it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:34,  2.59it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.55it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.56it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:33,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.54it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.57it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.58it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.56it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:31,  2.60it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:32,  2.52it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:30,  2.59it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.53it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.52it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:30,  2.51it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:30,  2.53it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.53it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.54it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.60it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.52it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.58it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.59it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.52it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.57it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.55it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.58it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.54it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.52it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.53it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.51it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:23,  2.56it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:22,  2.57it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.53it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.58it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.58it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.52it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.53it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.61it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.56it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:20,  2.55it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.54it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.58it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.59it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.54it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.54it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.55it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.52it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:17,  2.52it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.54it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:15,  2.60it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.59it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.55it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:15,  2.51it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.64it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.51it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.52it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.61it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.58it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.57it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.54it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.55it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.58it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.55it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.57it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.53it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.63it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.51it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.55it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.58it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.53it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.56it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.59it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:06,  2.59it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.57it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.52it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.54it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.57it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.52it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.52it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.57it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.59it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.54it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.54it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.55it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.56it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.54it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.54it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.56it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.02it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.994736671447754, 'eval_runtime': 78.0626, 'eval_samples_per_second': 151.891, 'eval_steps_per_second': 2.383, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.78}
 59%|█████████████████████████████████████████████████████████████                                          | 1700/2865 [1:49:02<57:24,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.02it/s][A
                                                                                                                                                  [A[2025-10-12 04:57:55,245] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1700
 59%|███████████████████████████████████████████████████████████▉                                         | 1701/2865 [1:49:12<9:12:07, 28.46s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.03125, 'learning_rate': 2.1223045208891843e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 18707.14, 'epoch': 1.78}
 59%|███████████████████████████████████████████████████████████▉                                         | 1701/2865 [1:49:12<9:12:07, 28.46s/it] 59%|████████████████████████████████████████████████████████████                                         | 1702/2865 [1:49:15<6:43:18, 20.81s/it]                                                                                                                                                  {'loss': 11.0421, 'grad_norm': 1.0546875, 'learning_rate': 2.1192943977556783e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21561.24, 'epoch': 1.78}
 59%|████████████████████████████████████████████████████████████                                         | 1702/2865 [1:49:15<6:43:18, 20.81s/it] 59%|████████████████████████████████████████████████████████████                                         | 1703/2865 [1:49:18<4:59:15, 15.45s/it]                                                                                                                                                  {'loss': 11.0245, 'grad_norm': 1.03125, 'learning_rate': 2.116284839541295e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22714.22, 'epoch': 1.78}
 59%|████████████████████████████████████████████████████████████                                         | 1703/2865 [1:49:18<4:59:15, 15.45s/it] 59%|████████████████████████████████████████████████████████████                                         | 1704/2865 [1:49:21<3:46:25, 11.70s/it]                                                                                                                                                  {'loss': 11.017, 'grad_norm': 1.0703125, 'learning_rate': 2.1132758507118372e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21276.26, 'epoch': 1.78}
 59%|████████████████████████████████████████████████████████████                                         | 1704/2865 [1:49:21<3:46:25, 11.70s/it] 60%|████████████████████████████████████████████████████████████                                         | 1705/2865 [1:49:24<2:55:32,  9.08s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.03125, 'learning_rate': 2.110267435732267e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20595.76, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████                                         | 1705/2865 [1:49:24<2:55:32,  9.08s/it] 60%|████████████████████████████████████████████████████████████▏                                        | 1706/2865 [1:49:27<2:19:57,  7.25s/it]                                                                                                                                                  {'loss': 11.022, 'grad_norm': 1.046875, 'learning_rate': 2.107259599066692e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20985.94, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████▏                                        | 1706/2865 [1:49:27<2:19:57,  7.25s/it] 60%|████████████████████████████████████████████████████████████▏                                        | 1707/2865 [1:49:30<1:54:59,  5.96s/it]                                                                                                                                                  {'loss': 11.0254, 'grad_norm': 1.03125, 'learning_rate': 2.104252345178362e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20434.76, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████▏                                        | 1707/2865 [1:49:30<1:54:59,  5.96s/it] 60%|████████████████████████████████████████████████████████████▏                                        | 1708/2865 [1:49:33<1:37:29,  5.06s/it]                                                                                                                                                  {'loss': 11.0204, 'grad_norm': 1.046875, 'learning_rate': 2.1012456785296638e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20884.92, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████▏                                        | 1708/2865 [1:49:33<1:37:29,  5.06s/it] 60%|████████████████████████████████████████████████████████████▏                                        | 1709/2865 [1:49:36<1:25:15,  4.43s/it]                                                                                                                                                  {'loss': 11.0191, 'grad_norm': 1.0390625, 'learning_rate': 2.0982396035821105e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20165.24, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████▏                                        | 1709/2865 [1:49:36<1:25:15,  4.43s/it] 60%|████████████████████████████████████████████████████████████▎                                        | 1710/2865 [1:49:39<1:16:42,  3.98s/it]                                                                                                                                                  {'loss': 11.0037, 'grad_norm': 1.1015625, 'learning_rate': 2.09523412479634e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21314.7, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████▎                                        | 1710/2865 [1:49:39<1:16:42,  3.98s/it] 60%|████████████████████████████████████████████████████████████▎                                        | 1711/2865 [1:49:42<1:10:44,  3.68s/it]                                                                                                                                                  {'loss': 11.0233, 'grad_norm': 1.1484375, 'learning_rate': 2.0922292466321022e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20453.9, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████▎                                        | 1711/2865 [1:49:42<1:10:44,  3.68s/it] 60%|████████████████████████████████████████████████████████████▎                                        | 1712/2865 [1:49:45<1:06:32,  3.46s/it]                                                                                                                                                  {'loss': 11.0056, 'grad_norm': 1.0703125, 'learning_rate': 2.0892249735482595e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21763.85, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████▎                                        | 1712/2865 [1:49:45<1:06:32,  3.46s/it] 60%|████████████████████████████████████████████████████████████▍                                        | 1713/2865 [1:49:48<1:03:32,  3.31s/it]                                                                                                                                                  {'loss': 11.0184, 'grad_norm': 1.0625, 'learning_rate': 2.0862213100027717e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20752.57, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████▍                                        | 1713/2865 [1:49:48<1:03:32,  3.31s/it] 60%|████████████████████████████████████████████████████████████▍                                        | 1714/2865 [1:49:51<1:01:28,  3.20s/it]                                                                                                                                                  {'loss': 11.0131, 'grad_norm': 1.03125, 'learning_rate': 2.0832182604527e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21653.74, 'epoch': 1.79}
 60%|████████████████████████████████████████████████████████████▍                                        | 1714/2865 [1:49:51<1:01:28,  3.20s/it] 60%|█████████████████████████████████████████████████████████████▋                                         | 1715/2865 [1:49:54<59:58,  3.13s/it]                                                                                                                                                  {'loss': 11.0249, 'grad_norm': 1.0625, 'learning_rate': 2.080215829354189e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21778.99, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████▋                                         | 1715/2865 [1:49:54<59:58,  3.13s/it] 60%|█████████████████████████████████████████████████████████████▋                                         | 1716/2865 [1:49:57<58:54,  3.08s/it]                                                                                                                                                  {'loss': 11.0298, 'grad_norm': 1.1015625, 'learning_rate': 2.0772140211624687e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21416.37, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████▋                                         | 1716/2865 [1:49:57<58:54,  3.08s/it] 60%|█████████████████████████████████████████████████████████████▋                                         | 1717/2865 [1:50:00<58:11,  3.04s/it]                                                                                                                                                  {'loss': 11.0113, 'grad_norm': 1.0390625, 'learning_rate': 2.074212840331844e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21139.05, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████▋                                         | 1717/2865 [1:50:00<58:11,  3.04s/it] 60%|█████████████████████████████████████████████████████████████▊                                         | 1718/2865 [1:50:03<57:36,  3.01s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.1484375, 'learning_rate': 2.071212291315689e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20862.86, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████▊                                         | 1718/2865 [1:50:03<57:36,  3.01s/it] 60%|█████████████████████████████████████████████████████████████▊                                         | 1719/2865 [1:50:06<57:14,  3.00s/it]                                                                                                                                                  {'loss': 11.0232, 'grad_norm': 1.046875, 'learning_rate': 2.0682123785664407e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21307.83, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████▊                                         | 1719/2865 [1:50:06<57:14,  3.00s/it] 60%|█████████████████████████████████████████████████████████████▊                                         | 1720/2865 [1:50:08<56:57,  2.98s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.03125, 'learning_rate': 2.06521310653559e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19757.81, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████▊                                         | 1720/2865 [1:50:08<56:57,  2.98s/it] 60%|█████████████████████████████████████████████████████████████▊                                         | 1721/2865 [1:50:11<56:45,  2.98s/it]                                                                                                                                                  {'loss': 11.0102, 'grad_norm': 1.0390625, 'learning_rate': 2.0622144796736806e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22037.5, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████▊                                         | 1721/2865 [1:50:11<56:45,  2.98s/it] 60%|█████████████████████████████████████████████████████████████▉                                         | 1722/2865 [1:50:14<56:38,  2.97s/it]                                                                                                                                                  {'loss': 10.9986, 'grad_norm': 1.0390625, 'learning_rate': 2.0592165024302944e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22187.36, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████▉                                         | 1722/2865 [1:50:14<56:38,  2.97s/it] 60%|█████████████████████████████████████████████████████████████▉                                         | 1723/2865 [1:50:17<56:30,  2.97s/it]                                                                                                                                                  {'loss': 10.989, 'grad_norm': 1.2265625, 'learning_rate': 2.0562191792540543e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22100.15, 'epoch': 1.8}
 60%|█████████████████████████████████████████████████████████████▉                                         | 1723/2865 [1:50:17<56:30,  2.97s/it] 60%|█████████████████████████████████████████████████████████████▉                                         | 1724/2865 [1:50:20<56:23,  2.97s/it]                                                                                                                                                  {'loss': 11.0056, 'grad_norm': 1.1015625, 'learning_rate': 2.0532225145926082e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21129.31, 'epoch': 1.81}
 60%|█████████████████████████████████████████████████████████████▉                                         | 1724/2865 [1:50:20<56:23,  2.97s/it] 60%|██████████████████████████████████████████████████████████████                                         | 1725/2865 [1:50:23<56:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0035, 'grad_norm': 1.171875, 'learning_rate': 2.0502265128926285e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21085.09, 'epoch': 1.81}
 60%|██████████████████████████████████████████████████████████████                                         | 1725/2865 [1:50:23<56:17,  2.96s/it] 60%|██████████████████████████████████████████████████████████████                                         | 1726/2865 [1:50:26<56:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0176, 'grad_norm': 1.0390625, 'learning_rate': 2.0472311785998054e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20974.85, 'epoch': 1.81}
 60%|██████████████████████████████████████████████████████████████                                         | 1726/2865 [1:50:26<56:10,  2.96s/it] 60%|██████████████████████████████████████████████████████████████                                         | 1727/2865 [1:50:29<56:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0052, 'grad_norm': 1.03125, 'learning_rate': 2.044236516158836e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20859.4, 'epoch': 1.81}
 60%|██████████████████████████████████████████████████████████████                                         | 1727/2865 [1:50:29<56:06,  2.96s/it] 60%|██████████████████████████████████████████████████████████████                                         | 1728/2865 [1:50:32<56:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0257, 'grad_norm': 1.078125, 'learning_rate': 2.0412425300134232e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22113.77, 'epoch': 1.81}
 60%|██████████████████████████████████████████████████████████████                                         | 1728/2865 [1:50:32<56:03,  2.96s/it] 60%|██████████████████████████████████████████████████████████████▏                                        | 1729/2865 [1:50:35<56:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0086, 'grad_norm': 1.0546875, 'learning_rate': 2.0382492246062636e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22220.02, 'epoch': 1.81}
 60%|██████████████████████████████████████████████████████████████▏                                        | 1729/2865 [1:50:35<56:03,  2.96s/it] 60%|██████████████████████████████████████████████████████████████▏                                        | 1730/2865 [1:50:38<55:59,  2.96s/it]                                                                                                                                                  {'loss': 10.9922, 'grad_norm': 1.0625, 'learning_rate': 2.0352566043790468e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22120.52, 'epoch': 1.81}
 60%|██████████████████████████████████████████████████████████████▏                                        | 1730/2865 [1:50:38<55:59,  2.96s/it] 60%|██████████████████████████████████████████████████████████████▏                                        | 1731/2865 [1:50:41<55:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0231, 'grad_norm': 1.078125, 'learning_rate': 2.032264673772443e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22077.04, 'epoch': 1.81}
 60%|██████████████████████████████████████████████████████████████▏                                        | 1731/2865 [1:50:41<55:57,  2.96s/it] 60%|██████████████████████████████████████████████████████████████▎                                        | 1732/2865 [1:50:44<55:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0279, 'grad_norm': 1.03125, 'learning_rate': 2.0292734372260988e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21258.93, 'epoch': 1.81}
 60%|██████████████████████████████████████████████████████████████▎                                        | 1732/2865 [1:50:44<55:53,  2.96s/it] 60%|██████████████████████████████████████████████████████████████▎                                        | 1733/2865 [1:50:47<55:45,  2.96s/it]                                                                                                                                                  {'loss': 10.9867, 'grad_norm': 1.0546875, 'learning_rate': 2.0262828991786343e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20567.39, 'epoch': 1.81}
 60%|██████████████████████████████████████████████████████████████▎                                        | 1733/2865 [1:50:47<55:45,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▎                                        | 1734/2865 [1:50:50<55:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0283, 'grad_norm': 1.03125, 'learning_rate': 2.0232930640676297e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20308.3, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████▎                                        | 1734/2865 [1:50:50<55:43,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▍                                        | 1735/2865 [1:50:53<55:39,  2.95s/it]                                                                                                                                                  {'loss': 11.0402, 'grad_norm': 1.0390625, 'learning_rate': 2.020303936329624e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21460.09, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████▍                                        | 1735/2865 [1:50:53<55:39,  2.95s/it] 61%|██████████████████████████████████████████████████████████████▍                                        | 1736/2865 [1:50:56<55:38,  2.96s/it]                                                                                                                                                  {'loss': 11.006, 'grad_norm': 1.0859375, 'learning_rate': 2.0173155204001054e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22209.51, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████▍                                        | 1736/2865 [1:50:56<55:38,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▍                                        | 1737/2865 [1:50:59<55:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0357, 'grad_norm': 1.0390625, 'learning_rate': 2.014327820713507e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21783.25, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████▍                                        | 1737/2865 [1:50:59<55:37,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▍                                        | 1738/2865 [1:51:02<55:30,  2.96s/it]                                                                                                                                                  {'loss': 11.01, 'grad_norm': 1.1015625, 'learning_rate': 2.0113408417031984e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20864.73, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████▍                                        | 1738/2865 [1:51:02<55:30,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▌                                        | 1739/2865 [1:51:05<55:25,  2.95s/it]                                                                                                                                                  {'loss': 11.0159, 'grad_norm': 1.0390625, 'learning_rate': 2.00835458780148e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21288.7, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████▌                                        | 1739/2865 [1:51:05<55:25,  2.95s/it] 61%|██████████████████████████████████████████████████████████████▌                                        | 1740/2865 [1:51:08<55:28,  2.96s/it]                                                                                                                                                  {'loss': 11.01, 'grad_norm': 1.078125, 'learning_rate': 2.0053690634395758e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20602.45, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████▌                                        | 1740/2865 [1:51:08<55:28,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▌                                        | 1741/2865 [1:51:11<55:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0166, 'grad_norm': 1.1328125, 'learning_rate': 2.0023842730476268e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21547.0, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████▌                                        | 1741/2865 [1:51:11<55:23,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▋                                        | 1742/2865 [1:51:14<55:28,  2.96s/it]                                                                                                                                                  {'loss': 11.036, 'grad_norm': 1.234375, 'learning_rate': 1.999400221054688e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21041.82, 'epoch': 1.82}
 61%|██████████████████████████████████████████████████████████████▋                                        | 1742/2865 [1:51:14<55:28,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▋                                        | 1743/2865 [1:51:17<55:21,  2.96s/it]                                                                                                                                                  {'loss': 10.9983, 'grad_norm': 1.0546875, 'learning_rate': 1.9964169118887132e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21201.45, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▋                                        | 1743/2865 [1:51:17<55:21,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▋                                        | 1744/2865 [1:51:19<55:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0197, 'grad_norm': 1.0625, 'learning_rate': 1.9934343499765608e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22093.68, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▋                                        | 1744/2865 [1:51:19<55:20,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▋                                        | 1745/2865 [1:51:22<55:15,  2.96s/it]                                                                                                                                                  {'loss': 11.003, 'grad_norm': 1.0234375, 'learning_rate': 1.990452539743973e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21164.29, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▋                                        | 1745/2865 [1:51:22<55:15,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▊                                        | 1746/2865 [1:51:25<55:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0295, 'grad_norm': 1.046875, 'learning_rate': 1.9874714856155834e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21456.32, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▊                                        | 1746/2865 [1:51:25<55:14,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▊                                        | 1747/2865 [1:51:28<55:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0268, 'grad_norm': 1.0546875, 'learning_rate': 1.9844911920148977e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21357.86, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▊                                        | 1747/2865 [1:51:28<55:08,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▊                                        | 1748/2865 [1:51:31<55:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0236, 'grad_norm': 1.046875, 'learning_rate': 1.9815116633642993e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21250.62, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▊                                        | 1748/2865 [1:51:31<55:06,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▉                                        | 1749/2865 [1:51:34<55:03,  2.96s/it]                                                                                                                                                  {'loss': 10.9947, 'grad_norm': 1.03125, 'learning_rate': 1.9785329040850306e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22364.98, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▉                                        | 1749/2865 [1:51:34<55:03,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▉                                        | 1750/2865 [1:51:37<54:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0221, 'grad_norm': 1.0546875, 'learning_rate': 1.9755549185971947e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21273.53, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▉                                        | 1750/2865 [1:51:37<54:58,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▉                                        | 1751/2865 [1:51:40<54:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0118, 'grad_norm': 1.03125, 'learning_rate': 1.9725777113197484e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19206.58, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▉                                        | 1751/2865 [1:51:40<54:53,  2.96s/it] 61%|██████████████████████████████████████████████████████████████▉                                        | 1752/2865 [1:51:43<54:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0057, 'grad_norm': 1.0859375, 'learning_rate': 1.96960128667049e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20854.4, 'epoch': 1.83}
 61%|██████████████████████████████████████████████████████████████▉                                        | 1752/2865 [1:51:43<54:52,  2.96s/it] 61%|███████████████████████████████████████████████████████████████                                        | 1753/2865 [1:51:46<54:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0118, 'grad_norm': 1.09375, 'learning_rate': 1.9666256490660597e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21775.85, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████                                        | 1753/2865 [1:51:46<54:47,  2.96s/it] 61%|███████████████████████████████████████████████████████████████                                        | 1754/2865 [1:51:49<54:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0311, 'grad_norm': 1.03125, 'learning_rate': 1.9636508029219285e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21717.87, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████                                        | 1754/2865 [1:51:49<54:44,  2.96s/it] 61%|███████████████████████████████████████████████████████████████                                        | 1755/2865 [1:51:52<54:42,  2.96s/it]                                                                                                                                                  {'loss': 10.9915, 'grad_norm': 1.03125, 'learning_rate': 1.9606767526523933e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20111.98, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████                                        | 1755/2865 [1:51:52<54:42,  2.96s/it] 61%|███████████████████████████████████████████████████████████████▏                                       | 1756/2865 [1:51:55<54:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0131, 'grad_norm': 1.046875, 'learning_rate': 1.9577035026705697e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22517.43, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████▏                                       | 1756/2865 [1:51:55<54:40,  2.96s/it] 61%|███████████████████████████████████████████████████████████████▏                                       | 1757/2865 [1:51:58<54:43,  2.96s/it]                                                                                                                                                  {'loss': 11.023, 'grad_norm': 1.0703125, 'learning_rate': 1.954731057388385e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21441.49, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████▏                                       | 1757/2865 [1:51:58<54:43,  2.96s/it] 61%|███████████████████████████████████████████████████████████████▏                                       | 1758/2865 [1:52:01<54:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0255, 'grad_norm': 1.0390625, 'learning_rate': 1.9517594212165742e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21232.66, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████▏                                       | 1758/2865 [1:52:01<54:40,  2.96s/it] 61%|███████████████████████████████████████████████████████████████▏                                       | 1759/2865 [1:52:04<54:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0077, 'grad_norm': 1.0390625, 'learning_rate': 1.9487885985646697e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22433.11, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████▏                                       | 1759/2865 [1:52:04<54:37,  2.96s/it] 61%|███████████████████████████████████████████████████████████████▎                                       | 1760/2865 [1:52:07<54:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0196, 'grad_norm': 1.03125, 'learning_rate': 1.945818593841e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21783.92, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████▎                                       | 1760/2865 [1:52:07<54:31,  2.96s/it] 61%|███████████████████████████████████████████████████████████████▎                                       | 1761/2865 [1:52:10<54:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0143, 'grad_norm': 1.1640625, 'learning_rate': 1.9428494114526748e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21541.82, 'epoch': 1.84}
 61%|███████████████████████████████████████████████████████████████▎                                       | 1761/2865 [1:52:10<54:27,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▎                                       | 1762/2865 [1:52:13<54:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0217, 'grad_norm': 1.078125, 'learning_rate': 1.939881055805589e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21383.83, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▎                                       | 1762/2865 [1:52:13<54:25,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▍                                       | 1763/2865 [1:52:16<54:22,  2.96s/it]                                                                                                                                                  {'loss': 11.027, 'grad_norm': 1.0625, 'learning_rate': 1.9369135313044058e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22276.7, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▍                                       | 1763/2865 [1:52:16<54:22,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▍                                       | 1764/2865 [1:52:19<54:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0349, 'grad_norm': 1.03125, 'learning_rate': 1.9339468423525604e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21173.52, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▍                                       | 1764/2865 [1:52:19<54:17,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▍                                       | 1765/2865 [1:52:22<54:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0064, 'grad_norm': 1.109375, 'learning_rate': 1.9309809933522432e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21199.81, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▍                                       | 1765/2865 [1:52:22<54:12,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▍                                       | 1766/2865 [1:52:25<54:10,  2.96s/it]                                                                                                                                                  {'loss': 10.9945, 'grad_norm': 1.1640625, 'learning_rate': 1.9280159887044e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21842.64, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▍                                       | 1766/2865 [1:52:25<54:10,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▌                                       | 1767/2865 [1:52:28<54:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0254, 'grad_norm': 1.03125, 'learning_rate': 1.9250518328087252e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22011.19, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▌                                       | 1767/2865 [1:52:28<54:08,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▌                                       | 1768/2865 [1:52:30<53:58,  2.95s/it]                                                                                                                                                  {'loss': 11.0123, 'grad_norm': 1.2109375, 'learning_rate': 1.9220885300636513e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20712.66, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▌                                       | 1768/2865 [1:52:30<53:58,  2.95s/it] 62%|███████████████████████████████████████████████████████████████▌                                       | 1769/2865 [1:52:33<53:56,  2.95s/it]                                                                                                                                                  {'loss': 11.0099, 'grad_norm': 1.0546875, 'learning_rate': 1.9191260848663473e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21848.58, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▌                                       | 1769/2865 [1:52:33<53:56,  2.95s/it] 62%|███████████████████████████████████████████████████████████████▋                                       | 1770/2865 [1:52:36<53:52,  2.95s/it]                                                                                                                                                  {'loss': 10.9861, 'grad_norm': 1.1640625, 'learning_rate': 1.9161645016127066e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19954.56, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▋                                       | 1770/2865 [1:52:36<53:52,  2.95s/it] 62%|███████████████████████████████████████████████████████████████▋                                       | 1771/2865 [1:52:39<53:57,  2.96s/it]                                                                                                                                                  {'loss': 11.035, 'grad_norm': 1.171875, 'learning_rate': 1.9132037846973476e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21362.15, 'epoch': 1.85}
 62%|███████████████████████████████████████████████████████████████▋                                       | 1771/2865 [1:52:39<53:57,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▋                                       | 1772/2865 [1:52:42<53:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0256, 'grad_norm': 1.2734375, 'learning_rate': 1.910243938513599e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21325.81, 'epoch': 1.86}
 62%|███████████████████████████████████████████████████████████████▋                                       | 1772/2865 [1:52:42<53:58,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▋                                       | 1773/2865 [1:52:45<53:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0173, 'grad_norm': 1.0390625, 'learning_rate': 1.9072849674535008e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20420.57, 'epoch': 1.86}
 62%|███████████████████████████████████████████████████████████████▋                                       | 1773/2865 [1:52:45<53:53,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▊                                       | 1774/2865 [1:52:48<53:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0038, 'grad_norm': 1.109375, 'learning_rate': 1.9043268759077927e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21502.2, 'epoch': 1.86}
 62%|███████████████████████████████████████████████████████████████▊                                       | 1774/2865 [1:52:48<53:46,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▊                                       | 1775/2865 [1:52:51<53:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0356, 'grad_norm': 1.0546875, 'learning_rate': 1.901369668265909e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22768.06, 'epoch': 1.86}
 62%|███████████████████████████████████████████████████████████████▊                                       | 1775/2865 [1:52:51<53:45,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▊                                       | 1776/2865 [1:52:54<53:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0133, 'grad_norm': 1.171875, 'learning_rate': 1.8984133489159745e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21882.5, 'epoch': 1.86}
 62%|███████████████████████████████████████████████████████████████▊                                       | 1776/2865 [1:52:54<53:44,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▉                                       | 1777/2865 [1:52:57<53:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.09375, 'learning_rate': 1.895457922244792e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21347.08, 'epoch': 1.86}
 62%|███████████████████████████████████████████████████████████████▉                                       | 1777/2865 [1:52:57<53:42,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▉                                       | 1778/2865 [1:53:00<53:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0081, 'grad_norm': 1.2109375, 'learning_rate': 1.892503392637845e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19973.65, 'epoch': 1.86}
 62%|███████████████████████████████████████████████████████████████▉                                       | 1778/2865 [1:53:00<53:34,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▉                                       | 1779/2865 [1:53:03<53:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0208, 'grad_norm': 1.0703125, 'learning_rate': 1.8895497644792803e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20456.85, 'epoch': 1.86}
 62%|███████████████████████████████████████████████████████████████▉                                       | 1779/2865 [1:53:03<53:30,  2.96s/it] 62%|███████████████████████████████████████████████████████████████▉                                       | 1780/2865 [1:53:06<53:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0127, 'grad_norm': 1.0390625, 'learning_rate': 1.8865970421519122e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20812.39, 'epoch': 1.86}
 62%|███████████████████████████████████████████████████████████████▉                                       | 1780/2865 [1:53:06<53:27,  2.96s/it] 62%|████████████████████████████████████████████████████████████████                                       | 1781/2865 [1:53:09<53:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0317, 'grad_norm': 1.0390625, 'learning_rate': 1.8836452300372073e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21279.54, 'epoch': 1.86}
 62%|████████████████████████████████████████████████████████████████                                       | 1781/2865 [1:53:09<53:27,  2.96s/it] 62%|████████████████████████████████████████████████████████████████                                       | 1782/2865 [1:53:12<53:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0134, 'grad_norm': 1.078125, 'learning_rate': 1.8806943325152816e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20994.75, 'epoch': 1.87}
 62%|████████████████████████████████████████████████████████████████                                       | 1782/2865 [1:53:12<53:21,  2.96s/it] 62%|████████████████████████████████████████████████████████████████                                       | 1783/2865 [1:53:15<53:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0358, 'grad_norm': 1.1640625, 'learning_rate': 1.8777443539648972e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22562.2, 'epoch': 1.87}
 62%|████████████████████████████████████████████████████████████████                                       | 1783/2865 [1:53:15<53:19,  2.96s/it] 62%|████████████████████████████████████████████████████████████████▏                                      | 1784/2865 [1:53:18<53:20,  2.96s/it]                                                                                                                                                  {'loss': 10.9855, 'grad_norm': 1.1484375, 'learning_rate': 1.8747952987634477e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21997.28, 'epoch': 1.87}
 62%|████████████████████████████████████████████████████████████████▏                                      | 1784/2865 [1:53:18<53:20,  2.96s/it] 62%|████████████████████████████████████████████████████████████████▏                                      | 1785/2865 [1:53:21<53:15,  2.96s/it]                                                                                                                                                  {'loss': 11.01, 'grad_norm': 1.046875, 'learning_rate': 1.8718471712869624e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20774.07, 'epoch': 1.87}
 62%|████████████████████████████████████████████████████████████████▏                                      | 1785/2865 [1:53:21<53:15,  2.96s/it] 62%|████████████████████████████████████████████████████████████████▏                                      | 1786/2865 [1:53:24<53:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0198, 'grad_norm': 1.0390625, 'learning_rate': 1.8688999759100875e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22027.03, 'epoch': 1.87}
 62%|████████████████████████████████████████████████████████████████▏                                      | 1786/2865 [1:53:24<53:11,  2.96s/it] 62%|████████████████████████████████████████████████████████████████▏                                      | 1787/2865 [1:53:27<53:04,  2.95s/it]                                                                                                                                                  {'loss': 11.0122, 'grad_norm': 1.0390625, 'learning_rate': 1.8659537170060927e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21702.29, 'epoch': 1.87}
 62%|████████████████████████████████████████████████████████████████▏                                      | 1787/2865 [1:53:27<53:04,  2.95s/it] 62%|████████████████████████████████████████████████████████████████▎                                      | 1788/2865 [1:53:30<53:02,  2.95s/it]                                                                                                                                                  {'loss': 10.996, 'grad_norm': 1.046875, 'learning_rate': 1.863008398946852e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20010.74, 'epoch': 1.87}
 62%|████████████████████████████████████████████████████████████████▎                                      | 1788/2865 [1:53:30<53:02,  2.95s/it] 62%|████████████████████████████████████████████████████████████████▎                                      | 1789/2865 [1:53:33<53:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0244, 'grad_norm': 1.0703125, 'learning_rate': 1.8600640261028485e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22056.11, 'epoch': 1.87}
 62%|████████████████████████████████████████████████████████████████▎                                      | 1789/2865 [1:53:33<53:00,  2.96s/it] 62%|████████████████████████████████████████████████████████████████▎                                      | 1790/2865 [1:53:36<52:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0065, 'grad_norm': 1.0234375, 'learning_rate': 1.8571206028431588e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21105.13, 'epoch': 1.87}
 62%|████████████████████████████████████████████████████████████████▎                                      | 1790/2865 [1:53:36<52:53,  2.95s/it] 63%|████████████████████████████████████████████████████████████████▍                                      | 1791/2865 [1:53:38<52:49,  2.95s/it]                                                                                                                                                  {'loss': 11.0107, 'grad_norm': 1.0390625, 'learning_rate': 1.854178133535452e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21513.37, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▍                                      | 1791/2865 [1:53:38<52:49,  2.95s/it] 63%|████████████████████████████████████████████████████████████████▍                                      | 1792/2865 [1:53:41<52:47,  2.95s/it]                                                                                                                                                  {'loss': 11.0296, 'grad_norm': 1.046875, 'learning_rate': 1.851236622545982e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21778.53, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▍                                      | 1792/2865 [1:53:41<52:47,  2.95s/it] 63%|████████████████████████████████████████████████████████████████▍                                      | 1793/2865 [1:53:44<52:47,  2.95s/it]                                                                                                                                                  {'loss': 11.0419, 'grad_norm': 1.1171875, 'learning_rate': 1.8482960742395802e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21366.19, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▍                                      | 1793/2865 [1:53:44<52:47,  2.95s/it] 63%|████████████████████████████████████████████████████████████████▍                                      | 1794/2865 [1:53:47<52:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0128, 'grad_norm': 1.0390625, 'learning_rate': 1.84535649297965e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20960.56, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▍                                      | 1794/2865 [1:53:47<52:46,  2.96s/it] 63%|████████████████████████████████████████████████████████████████▌                                      | 1795/2865 [1:53:50<52:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0341, 'grad_norm': 1.171875, 'learning_rate': 1.8424178831281582e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21150.79, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▌                                      | 1795/2865 [1:53:50<52:49,  2.96s/it] 63%|████████████████████████████████████████████████████████████████▌                                      | 1796/2865 [1:53:53<52:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0209, 'grad_norm': 1.09375, 'learning_rate': 1.8394802490456336e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20422.59, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▌                                      | 1796/2865 [1:53:53<52:43,  2.96s/it] 63%|████████████████████████████████████████████████████████████████▌                                      | 1797/2865 [1:53:56<52:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0089, 'grad_norm': 1.03125, 'learning_rate': 1.836543595091152e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21903.68, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▌                                      | 1797/2865 [1:53:56<52:39,  2.96s/it] 63%|████████████████████████████████████████████████████████████████▋                                      | 1798/2865 [1:53:59<52:31,  2.95s/it]                                                                                                                                                  {'loss': 10.999, 'grad_norm': 1.1796875, 'learning_rate': 1.833607925622341e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20314.96, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▋                                      | 1798/2865 [1:53:59<52:31,  2.95s/it] 63%|████████████████████████████████████████████████████████████████▋                                      | 1799/2865 [1:54:02<52:29,  2.95s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.03125, 'learning_rate': 1.830673244995362e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20615.54, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▋                                      | 1799/2865 [1:54:02<52:29,  2.95s/it] 63%|████████████████████████████████████████████████████████████████▋                                      | 1800/2865 [1:54:05<52:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0092, 'grad_norm': 1.0234375, 'learning_rate': 1.8277395575649095e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21305.12, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▋                                      | 1800/2865 [1:54:05<52:23,  2.95s/it][2025-10-12 05:02:57,918] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:47,  1.24s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:43,  1.11it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:08,  1.41it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:46,  1.69it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:32,  1.93it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:27,  2.03it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:21,  2.18it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:14,  2.35it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:12,  2.42it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:12,  2.40it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:09,  2.49it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:08,  2.52it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:07,  2.54it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.53it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:07<01:06,  2.53it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.52it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:04,  2.57it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:04,  2.57it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:05,  2.54it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:09<01:03,  2.57it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:03,  2.55it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:03,  2.57it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:02,  2.57it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.58it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:01,  2.57it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:01,  2.57it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:01,  2.57it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:12<00:59,  2.64it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.54it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<01:00,  2.54it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<00:59,  2.56it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:59,  2.55it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:14<00:58,  2.58it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:57,  2.61it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:58,  2.56it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:59,  2.51it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.56it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:16<00:55,  2.62it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:57,  2.51it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:56,  2.54it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:55,  2.58it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:55,  2.55it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:18<00:55,  2.55it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:54,  2.58it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:54,  2.54it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:53,  2.56it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.58it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:52,  2.60it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.52it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:52,  2.53it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.52it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:52,  2.53it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:51,  2.56it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:50,  2.54it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:23<00:50,  2.55it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:48,  2.61it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:49,  2.57it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:48,  2.60it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:47,  2.63it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:25<00:46,  2.63it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.57it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:46,  2.61it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:46,  2.59it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:47,  2.51it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:45,  2.57it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:46,  2.54it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.55it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:44,  2.59it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:29<00:44,  2.56it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:42,  2.63it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:42,  2.63it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:30<00:43,  2.53it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.55it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:41,  2.60it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:42,  2.53it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.58it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:32<00:41,  2.54it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:41,  2.51it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:39,  2.58it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:40,  2.52it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:39,  2.54it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:34<00:38,  2.57it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:37,  2.61it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:37,  2.59it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.50it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:38,  2.52it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:36<00:37,  2.54it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:37,  2.52it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:35,  2.59it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:37<00:35,  2.59it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.53it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:38<00:35,  2.51it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:35,  2.51it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:34,  2.54it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:39<00:34,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.54it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:33,  2.54it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.59it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.55it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:41<00:32,  2.56it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.61it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.53it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:30,  2.63it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.53it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:43<00:30,  2.52it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:30,  2.53it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.53it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.56it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.58it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:28,  2.57it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:28,  2.52it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.55it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.55it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.56it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:26,  2.50it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.52it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:48<00:25,  2.55it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.58it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.58it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:23,  2.58it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.57it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:50<00:22,  2.57it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.55it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:21,  2.62it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.60it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:22,  2.49it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:52<00:21,  2.53it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.54it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:20,  2.56it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.58it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:18,  2.68it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:19,  2.55it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.55it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.56it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:55<00:17,  2.58it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.56it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:16,  2.59it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.54it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.56it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:57<00:15,  2.56it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.57it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.57it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.56it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:59<00:14,  2.54it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.58it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.57it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.59it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.54it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:01<00:11,  2.60it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.51it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.59it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:11,  2.54it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.54it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:03<00:10,  2.52it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.55it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.50it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:04<00:08,  2.58it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.58it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.53it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.52it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.56it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:06<00:06,  2.58it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.58it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.57it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.55it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.54it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:08<00:05,  2.57it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.62it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.62it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.50it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.55it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:10<00:03,  2.57it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.52it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.52it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.57it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:12<00:01,  2.51it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.53it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.52it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.00it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995250701904297, 'eval_runtime': 78.0071, 'eval_samples_per_second': 151.999, 'eval_steps_per_second': 2.384, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.88}
 63%|████████████████████████████████████████████████████████████████▋                                      | 1800/2865 [1:55:23<52:23,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.00it/s][A
                                                                                                                                                  [A[2025-10-12 05:04:15,946] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1800
 63%|███████████████████████████████████████████████████████████████▍                                     | 1801/2865 [1:55:34<8:27:20, 28.61s/it]                                                                                                                                                  {'loss': 10.9972, 'grad_norm': 1.03125, 'learning_rate': 1.824806867684209e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 18720.9, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████▍                                     | 1801/2865 [1:55:34<8:27:20, 28.61s/it] 63%|███████████████████████████████████████████████████████████████▌                                     | 1802/2865 [1:55:37<6:10:27, 20.91s/it]                                                                                                                                                  {'loss': 11.0133, 'grad_norm': 1.078125, 'learning_rate': 1.8218751797050006e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22143.0, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████▌                                     | 1802/2865 [1:55:37<6:10:27, 20.91s/it] 63%|███████████████████████████████████████████████████████████████▌                                     | 1803/2865 [1:55:39<4:34:43, 15.52s/it]                                                                                                                                                  {'loss': 11.0328, 'grad_norm': 1.03125, 'learning_rate': 1.818944497977541e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22087.33, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████▌                                     | 1803/2865 [1:55:39<4:34:43, 15.52s/it] 63%|███████████████████████████████████████████████████████████████▌                                     | 1804/2865 [1:55:42<3:27:44, 11.75s/it]                                                                                                                                                  {'loss': 11.013, 'grad_norm': 1.0703125, 'learning_rate': 1.8160148268505908e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21651.82, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████▌                                     | 1804/2865 [1:55:42<3:27:44, 11.75s/it] 63%|███████████████████████████████████████████████████████████████▋                                     | 1805/2865 [1:55:45<2:40:51,  9.11s/it]                                                                                                                                                  {'loss': 11.0118, 'grad_norm': 1.1796875, 'learning_rate': 1.8130861706714146e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20841.88, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████▋                                     | 1805/2865 [1:55:45<2:40:51,  9.11s/it] 63%|███████████████████████████████████████████████████████████████▋                                     | 1806/2865 [1:55:48<2:08:08,  7.26s/it]                                                                                                                                                  {'loss': 11.0196, 'grad_norm': 1.03125, 'learning_rate': 1.8101585337857667e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20593.44, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████▋                                     | 1806/2865 [1:55:48<2:08:08,  7.26s/it] 63%|███████████████████████████████████████████████████████████████▋                                     | 1807/2865 [1:55:51<1:45:15,  5.97s/it]                                                                                                                                                  {'loss': 11.0357, 'grad_norm': 1.109375, 'learning_rate': 1.807231920537894e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22229.82, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████▋                                     | 1807/2865 [1:55:51<1:45:15,  5.97s/it] 63%|███████████████████████████████████████████████████████████████▋                                     | 1808/2865 [1:55:54<1:29:18,  5.07s/it]                                                                                                                                                  {'loss': 11.0388, 'grad_norm': 1.421875, 'learning_rate': 1.8043063352705192e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21458.39, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████▋                                     | 1808/2865 [1:55:54<1:29:18,  5.07s/it] 63%|███████████████████████████████████████████████████████████████▊                                     | 1809/2865 [1:55:57<1:18:04,  4.44s/it]                                                                                                                                                  {'loss': 11.028, 'grad_norm': 1.1953125, 'learning_rate': 1.8013817823248428e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21162.19, 'epoch': 1.89}
 63%|███████████████████████████████████████████████████████████████▊                                     | 1809/2865 [1:55:57<1:18:04,  4.44s/it] 63%|███████████████████████████████████████████████████████████████▊                                     | 1810/2865 [1:56:00<1:10:10,  3.99s/it]                                                                                                                                                  {'loss': 11.0082, 'grad_norm': 1.0390625, 'learning_rate': 1.798458266040533e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21913.2, 'epoch': 1.9}
 63%|███████████████████████████████████████████████████████████████▊                                     | 1810/2865 [1:56:00<1:10:10,  3.99s/it] 63%|███████████████████████████████████████████████████████████████▊                                     | 1811/2865 [1:56:03<1:04:38,  3.68s/it]                                                                                                                                                  {'loss': 11.0132, 'grad_norm': 1.046875, 'learning_rate': 1.795535790755719e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21956.9, 'epoch': 1.9}
 63%|███████████████████████████████████████████████████████████████▊                                     | 1811/2865 [1:56:03<1:04:38,  3.68s/it] 63%|███████████████████████████████████████████████████████████████▉                                     | 1812/2865 [1:56:06<1:00:43,  3.46s/it]                                                                                                                                                  {'loss': 11.0163, 'grad_norm': 1.1171875, 'learning_rate': 1.792614360806986e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20651.33, 'epoch': 1.9}
 63%|███████████████████████████████████████████████████████████████▉                                     | 1812/2865 [1:56:06<1:00:43,  3.46s/it] 63%|█████████████████████████████████████████████████████████████████▏                                     | 1813/2865 [1:56:09<57:58,  3.31s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.0703125, 'learning_rate': 1.789693980529368e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20206.59, 'epoch': 1.9}
 63%|█████████████████████████████████████████████████████████████████▏                                     | 1813/2865 [1:56:09<57:58,  3.31s/it] 63%|█████████████████████████████████████████████████████████████████▏                                     | 1814/2865 [1:56:12<56:03,  3.20s/it]                                                                                                                                                  {'loss': 11.0194, 'grad_norm': 1.0546875, 'learning_rate': 1.78677465425634e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21723.09, 'epoch': 1.9}
 63%|█████████████████████████████████████████████████████████████████▏                                     | 1814/2865 [1:56:12<56:03,  3.20s/it] 63%|█████████████████████████████████████████████████████████████████▎                                     | 1815/2865 [1:56:15<54:45,  3.13s/it]                                                                                                                                                  {'loss': 11.018, 'grad_norm': 1.0703125, 'learning_rate': 1.7838563863198162e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20459.77, 'epoch': 1.9}
 63%|█████████████████████████████████████████████████████████████████▎                                     | 1815/2865 [1:56:15<54:45,  3.13s/it] 63%|█████████████████████████████████████████████████████████████████▎                                     | 1816/2865 [1:56:18<53:46,  3.08s/it]                                                                                                                                                  {'loss': 11.0149, 'grad_norm': 1.15625, 'learning_rate': 1.780939181050136e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20968.53, 'epoch': 1.9}
 63%|█████████████████████████████████████████████████████████████████▎                                     | 1816/2865 [1:56:18<53:46,  3.08s/it] 63%|█████████████████████████████████████████████████████████████████▎                                     | 1817/2865 [1:56:21<53:05,  3.04s/it]                                                                                                                                                  {'loss': 11.0223, 'grad_norm': 1.046875, 'learning_rate': 1.778023042776067e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21563.05, 'epoch': 1.9}
 63%|█████████████████████████████████████████████████████████████████▎                                     | 1817/2865 [1:56:21<53:05,  3.04s/it] 63%|█████████████████████████████████████████████████████████████████▎                                     | 1818/2865 [1:56:24<52:36,  3.01s/it]                                                                                                                                                  {'loss': 11.0194, 'grad_norm': 1.0390625, 'learning_rate': 1.7751079758247875e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21270.73, 'epoch': 1.9}
 63%|█████████████████████████████████████████████████████████████████▎                                     | 1818/2865 [1:56:24<52:36,  3.01s/it] 63%|█████████████████████████████████████████████████████████████████▍                                     | 1819/2865 [1:56:27<52:16,  3.00s/it]                                                                                                                                                  {'loss': 10.9974, 'grad_norm': 1.03125, 'learning_rate': 1.7721939845218925e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22595.55, 'epoch': 1.9}
 63%|█████████████████████████████████████████████████████████████████▍                                     | 1819/2865 [1:56:27<52:16,  3.00s/it] 64%|█████████████████████████████████████████████████████████████████▍                                     | 1820/2865 [1:56:30<52:00,  2.99s/it]                                                                                                                                                  {'loss': 11.0358, 'grad_norm': 1.0703125, 'learning_rate': 1.769281073191375e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20368.11, 'epoch': 1.91}
 64%|█████████████████████████████████████████████████████████████████▍                                     | 1820/2865 [1:56:30<52:00,  2.99s/it] 64%|█████████████████████████████████████████████████████████████████▍                                     | 1821/2865 [1:56:33<51:47,  2.98s/it]                                                                                                                                                  {'loss': 11.0134, 'grad_norm': 1.1484375, 'learning_rate': 1.766369246155631e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22217.85, 'epoch': 1.91}
 64%|█████████████████████████████████████████████████████████████████▍                                     | 1821/2865 [1:56:33<51:47,  2.98s/it] 64%|█████████████████████████████████████████████████████████████████▌                                     | 1822/2865 [1:56:36<51:39,  2.97s/it]                                                                                                                                                  {'loss': 11.0124, 'grad_norm': 1.03125, 'learning_rate': 1.7634585077354424e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20715.96, 'epoch': 1.91}
 64%|█████████████████████████████████████████████████████████████████▌                                     | 1822/2865 [1:56:36<51:39,  2.97s/it] 64%|█████████████████████████████████████████████████████████████████▌                                     | 1823/2865 [1:56:39<51:31,  2.97s/it]                                                                                                                                                  {'loss': 11.021, 'grad_norm': 1.109375, 'learning_rate': 1.76054886224998e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21880.44, 'epoch': 1.91}
 64%|█████████████████████████████████████████████████████████████████▌                                     | 1823/2865 [1:56:39<51:31,  2.97s/it] 64%|█████████████████████████████████████████████████████████████████▌                                     | 1824/2865 [1:56:42<51:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0181, 'grad_norm': 1.046875, 'learning_rate': 1.7576403140167898e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21891.21, 'epoch': 1.91}
 64%|█████████████████████████████████████████████████████████████████▌                                     | 1824/2865 [1:56:42<51:24,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▌                                     | 1825/2865 [1:56:44<51:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0244, 'grad_norm': 1.0703125, 'learning_rate': 1.75473286735179e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22213.35, 'epoch': 1.91}
 64%|█████████████████████████████████████████████████████████████████▌                                     | 1825/2865 [1:56:44<51:21,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▋                                     | 1826/2865 [1:56:47<51:14,  2.96s/it]                                                                                                                                                  {'loss': 10.9887, 'grad_norm': 1.21875, 'learning_rate': 1.7518265265692662e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20990.81, 'epoch': 1.91}
 64%|█████████████████████████████████████████████████████████████████▋                                     | 1826/2865 [1:56:47<51:14,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▋                                     | 1827/2865 [1:56:50<51:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0289, 'grad_norm': 1.09375, 'learning_rate': 1.7489212959818608e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20198.4, 'epoch': 1.91}
 64%|█████████████████████████████████████████████████████████████████▋                                     | 1827/2865 [1:56:50<51:10,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▋                                     | 1828/2865 [1:56:53<51:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0142, 'grad_norm': 1.21875, 'learning_rate': 1.7460171799005708e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21794.65, 'epoch': 1.91}
 64%|█████████████████████████████████████████████████████████████████▋                                     | 1828/2865 [1:56:53<51:05,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▊                                     | 1829/2865 [1:56:56<51:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0163, 'grad_norm': 1.2734375, 'learning_rate': 1.743114182634738e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21392.15, 'epoch': 1.92}
 64%|█████████████████████████████████████████████████████████████████▊                                     | 1829/2865 [1:56:56<51:01,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▊                                     | 1830/2865 [1:56:59<51:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0233, 'grad_norm': 1.09375, 'learning_rate': 1.740212308492044e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21206.95, 'epoch': 1.92}
 64%|█████████████████████████████████████████████████████████████████▊                                     | 1830/2865 [1:56:59<51:00,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▊                                     | 1831/2865 [1:57:02<50:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0036, 'grad_norm': 1.0390625, 'learning_rate': 1.7373115617785048e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21493.66, 'epoch': 1.92}
 64%|█████████████████████████████████████████████████████████████████▊                                     | 1831/2865 [1:57:02<50:59,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▊                                     | 1832/2865 [1:57:05<50:57,  2.96s/it]                                                                                                                                                  {'loss': 10.9997, 'grad_norm': 1.1015625, 'learning_rate': 1.7344119467984617e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22069.73, 'epoch': 1.92}
 64%|█████████████████████████████████████████████████████████████████▊                                     | 1832/2865 [1:57:05<50:57,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▉                                     | 1833/2865 [1:57:08<50:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0263, 'grad_norm': 1.0703125, 'learning_rate': 1.7315134678545798e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21226.18, 'epoch': 1.92}
 64%|█████████████████████████████████████████████████████████████████▉                                     | 1833/2865 [1:57:08<50:54,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▉                                     | 1834/2865 [1:57:11<50:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0301, 'grad_norm': 1.0703125, 'learning_rate': 1.7286161292478343e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21562.49, 'epoch': 1.92}
 64%|█████████████████████████████████████████████████████████████████▉                                     | 1834/2865 [1:57:11<50:49,  2.96s/it] 64%|█████████████████████████████████████████████████████████████████▉                                     | 1835/2865 [1:57:14<50:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0178, 'grad_norm': 1.125, 'learning_rate': 1.7257199352775123e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22543.47, 'epoch': 1.92}
 64%|█████████████████████████████████████████████████████████████████▉                                     | 1835/2865 [1:57:14<50:46,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████                                     | 1836/2865 [1:57:17<50:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0209, 'grad_norm': 1.0390625, 'learning_rate': 1.7228248902411985e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20507.4, 'epoch': 1.92}
 64%|██████████████████████████████████████████████████████████████████                                     | 1836/2865 [1:57:17<50:41,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████                                     | 1837/2865 [1:57:20<50:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.234375, 'learning_rate': 1.719930998434777e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21057.27, 'epoch': 1.92}
 64%|██████████████████████████████████████████████████████████████████                                     | 1837/2865 [1:57:20<50:37,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████                                     | 1838/2865 [1:57:23<50:34,  2.95s/it]                                                                                                                                                  {'loss': 11.016, 'grad_norm': 1.0625, 'learning_rate': 1.7170382641524162e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21404.8, 'epoch': 1.92}
 64%|██████████████████████████████████████████████████████████████████                                     | 1838/2865 [1:57:23<50:34,  2.95s/it] 64%|██████████████████████████████████████████████████████████████████                                     | 1839/2865 [1:57:26<50:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0033, 'grad_norm': 1.09375, 'learning_rate': 1.7141466916865717e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22923.0, 'epoch': 1.93}
 64%|██████████████████████████████████████████████████████████████████                                     | 1839/2865 [1:57:26<50:36,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████▏                                    | 1840/2865 [1:57:29<50:35,  2.96s/it]                                                                                                                                                  {'loss': 11.032, 'grad_norm': 1.0390625, 'learning_rate': 1.7112562853279712e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20614.3, 'epoch': 1.93}
 64%|██████████████████████████████████████████████████████████████████▏                                    | 1840/2865 [1:57:29<50:35,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████▏                                    | 1841/2865 [1:57:32<50:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0187, 'grad_norm': 1.0859375, 'learning_rate': 1.7083670493656123e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22442.18, 'epoch': 1.93}
 64%|██████████████████████████████████████████████████████████████████▏                                    | 1841/2865 [1:57:32<50:31,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████▏                                    | 1842/2865 [1:57:35<50:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0065, 'grad_norm': 1.1953125, 'learning_rate': 1.7054789880867585e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20683.38, 'epoch': 1.93}
 64%|██████████████████████████████████████████████████████████████████▏                                    | 1842/2865 [1:57:35<50:24,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████▎                                    | 1843/2865 [1:57:38<50:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0261, 'grad_norm': 1.171875, 'learning_rate': 1.7025921057769277e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21834.4, 'epoch': 1.93}
 64%|██████████████████████████████████████████████████████████████████▎                                    | 1843/2865 [1:57:38<50:22,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████▎                                    | 1844/2865 [1:57:41<50:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0082, 'grad_norm': 1.1015625, 'learning_rate': 1.6997064067198903e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20851.79, 'epoch': 1.93}
 64%|██████████████████████████████████████████████████████████████████▎                                    | 1844/2865 [1:57:41<50:18,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████▎                                    | 1845/2865 [1:57:44<50:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0171, 'grad_norm': 1.125, 'learning_rate': 1.6968218951976583e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21957.99, 'epoch': 1.93}
 64%|██████████████████████████████████████████████████████████████████▎                                    | 1845/2865 [1:57:44<50:15,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████▎                                    | 1846/2865 [1:57:47<50:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0374, 'grad_norm': 1.0390625, 'learning_rate': 1.6939385754904858e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20495.7, 'epoch': 1.93}
 64%|██████████████████████████████████████████████████████████████████▎                                    | 1846/2865 [1:57:47<50:12,  2.96s/it] 64%|██████████████████████████████████████████████████████████████████▍                                    | 1847/2865 [1:57:50<50:04,  2.95s/it]                                                                                                                                                  {'loss': 11.0114, 'grad_norm': 1.1484375, 'learning_rate': 1.6910564518768525e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20334.68, 'epoch': 1.93}
 64%|██████████████████████████████████████████████████████████████████▍                                    | 1847/2865 [1:57:50<50:04,  2.95s/it] 65%|██████████████████████████████████████████████████████████████████▍                                    | 1848/2865 [1:57:52<50:02,  2.95s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.03125, 'learning_rate': 1.6881755286334695e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20183.15, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▍                                    | 1848/2865 [1:57:52<50:02,  2.95s/it] 65%|██████████████████████████████████████████████████████████████████▍                                    | 1849/2865 [1:57:55<50:01,  2.95s/it]                                                                                                                                                  {'loss': 11.0433, 'grad_norm': 1.0546875, 'learning_rate': 1.6852958100352623e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21783.58, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▍                                    | 1849/2865 [1:57:55<50:01,  2.95s/it] 65%|██████████████████████████████████████████████████████████████████▌                                    | 1850/2865 [1:57:58<50:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0108, 'grad_norm': 1.109375, 'learning_rate': 1.6824173003553696e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23247.71, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▌                                    | 1850/2865 [1:57:58<50:03,  2.96s/it] 65%|██████████████████████████████████████████████████████████████████▌                                    | 1851/2865 [1:58:01<49:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0262, 'grad_norm': 1.0625, 'learning_rate': 1.679540003865139e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21626.63, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▌                                    | 1851/2865 [1:58:01<49:59,  2.96s/it] 65%|██████████████████████████████████████████████████████████████████▌                                    | 1852/2865 [1:58:04<49:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0056, 'grad_norm': 1.046875, 'learning_rate': 1.6766639248341132e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21745.87, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▌                                    | 1852/2865 [1:58:04<49:56,  2.96s/it] 65%|██████████████████████████████████████████████████████████████████▌                                    | 1853/2865 [1:58:07<49:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0082, 'grad_norm': 1.03125, 'learning_rate': 1.673789067530033e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20220.46, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▌                                    | 1853/2865 [1:58:07<49:55,  2.96s/it] 65%|██████████████████████████████████████████████████████████████████▋                                    | 1854/2865 [1:58:10<49:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0097, 'grad_norm': 1.2265625, 'learning_rate': 1.670915436218823e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21018.32, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▋                                    | 1854/2865 [1:58:10<49:49,  2.96s/it] 65%|██████████████████████████████████████████████████████████████████▋                                    | 1855/2865 [1:58:13<49:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0386, 'grad_norm': 1.109375, 'learning_rate': 1.668043035164591e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21303.51, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▋                                    | 1855/2865 [1:58:13<49:43,  2.95s/it] 65%|██████████████████████████████████████████████████████████████████▋                                    | 1856/2865 [1:58:16<49:40,  2.95s/it]                                                                                                                                                  {'loss': 11.023, 'grad_norm': 1.046875, 'learning_rate': 1.6651718686296165e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20914.46, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▋                                    | 1856/2865 [1:58:16<49:40,  2.95s/it] 65%|██████████████████████████████████████████████████████████████████▊                                    | 1857/2865 [1:58:19<49:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0143, 'grad_norm': 1.0390625, 'learning_rate': 1.66230194087435e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22926.96, 'epoch': 1.94}
 65%|██████████████████████████████████████████████████████████████████▊                                    | 1857/2865 [1:58:19<49:42,  2.96s/it] 65%|██████████████████████████████████████████████████████████████████▊                                    | 1858/2865 [1:58:22<49:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0289, 'grad_norm': 1.0390625, 'learning_rate': 1.6594332561574027e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20230.08, 'epoch': 1.95}
 65%|██████████████████████████████████████████████████████████████████▊                                    | 1858/2865 [1:58:22<49:37,  2.96s/it] 65%|██████████████████████████████████████████████████████████████████▊                                    | 1859/2865 [1:58:25<49:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0002, 'grad_norm': 1.0859375, 'learning_rate': 1.6565658187355392e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21098.0, 'epoch': 1.95}
 65%|██████████████████████████████████████████████████████████████████▊                                    | 1859/2865 [1:58:25<49:34,  2.96s/it] 65%|██████████████████████████████████████████████████████████████████▊                                    | 1860/2865 [1:58:28<49:29,  2.95s/it]                                                                                                                                                  {'loss': 11.0216, 'grad_norm': 1.0625, 'learning_rate': 1.6536996328636773e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21598.57, 'epoch': 1.95}
 65%|██████████████████████████████████████████████████████████████████▊                                    | 1860/2865 [1:58:28<49:29,  2.95s/it] 65%|██████████████████████████████████████████████████████████████████▉                                    | 1861/2865 [1:58:31<49:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0206, 'grad_norm': 1.0859375, 'learning_rate': 1.6508347027948734e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21127.26, 'epoch': 1.95}
 65%|██████████████████████████████████████████████████████████████████▉                                    | 1861/2865 [1:58:31<49:23,  2.95s/it] 65%|██████████████████████████████████████████████████████████████████▉                                    | 1862/2865 [1:58:34<49:21,  2.95s/it]                                                                                                                                                  {'loss': 11.0131, 'grad_norm': 1.09375, 'learning_rate': 1.6479710327803253e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21500.97, 'epoch': 1.95}
 65%|██████████████████████████████████████████████████████████████████▉                                    | 1862/2865 [1:58:34<49:21,  2.95s/it] 65%|██████████████████████████████████████████████████████████████████▉                                    | 1863/2865 [1:58:37<49:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0345, 'grad_norm': 1.3203125, 'learning_rate': 1.6451086270693557e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21534.77, 'epoch': 1.95}
 65%|██████████████████████████████████████████████████████████████████▉                                    | 1863/2865 [1:58:37<49:19,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████                                    | 1864/2865 [1:58:40<49:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0354, 'grad_norm': 1.109375, 'learning_rate': 1.6422474899094153e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22677.88, 'epoch': 1.95}
 65%|███████████████████████████████████████████████████████████████████                                    | 1864/2865 [1:58:40<49:18,  2.96s/it] 65%|███████████████████████████████████████████████████████████████████                                    | 1865/2865 [1:58:43<49:14,  2.95s/it]                                                                                                                                                  {'loss': 10.9939, 'grad_norm': 1.078125, 'learning_rate': 1.6393876255460705e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20933.58, 'epoch': 1.95}
 65%|███████████████████████████████████████████████████████████████████                                    | 1865/2865 [1:58:43<49:14,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████                                    | 1866/2865 [1:58:46<49:09,  2.95s/it]                                                                                                                                                  {'loss': 11.0012, 'grad_norm': 1.078125, 'learning_rate': 1.6365290382229994e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20693.52, 'epoch': 1.95}
 65%|███████████████████████████████████████████████████████████████████                                    | 1866/2865 [1:58:46<49:09,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████                                    | 1867/2865 [1:58:49<49:05,  2.95s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.09375, 'learning_rate': 1.6336717321819857e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21160.98, 'epoch': 1.95}
 65%|███████████████████████████████████████████████████████████████████                                    | 1867/2865 [1:58:49<49:05,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████▏                                   | 1868/2865 [1:58:52<49:00,  2.95s/it]                                                                                                                                                  {'loss': 10.9979, 'grad_norm': 1.046875, 'learning_rate': 1.63081571166291e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21603.5, 'epoch': 1.96}
 65%|███████████████████████████████████████████████████████████████████▏                                   | 1868/2865 [1:58:52<49:00,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████▏                                   | 1869/2865 [1:58:55<49:00,  2.95s/it]                                                                                                                                                  {'loss': 11.0089, 'grad_norm': 1.03125, 'learning_rate': 1.6279609809037492e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22131.68, 'epoch': 1.96}
 65%|███████████████████████████████████████████████████████████████████▏                                   | 1869/2865 [1:58:55<49:00,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████▏                                   | 1870/2865 [1:58:57<49:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0108, 'grad_norm': 1.0859375, 'learning_rate': 1.6251075441405616e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20826.88, 'epoch': 1.96}
 65%|███████████████████████████████████████████████████████████████████▏                                   | 1870/2865 [1:58:57<49:04,  2.96s/it] 65%|███████████████████████████████████████████████████████████████████▎                                   | 1871/2865 [1:59:00<48:56,  2.95s/it]                                                                                                                                                  {'loss': 11.0158, 'grad_norm': 1.2265625, 'learning_rate': 1.6222554056074896e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21475.56, 'epoch': 1.96}
 65%|███████████████████████████████████████████████████████████████████▎                                   | 1871/2865 [1:59:00<48:56,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████▎                                   | 1872/2865 [1:59:03<48:54,  2.95s/it]                                                                                                                                                  {'loss': 11.026, 'grad_norm': 1.03125, 'learning_rate': 1.6194045695367447e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22210.76, 'epoch': 1.96}
 65%|███████████████████████████████████████████████████████████████████▎                                   | 1872/2865 [1:59:03<48:54,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████▎                                   | 1873/2865 [1:59:06<48:51,  2.95s/it]                                                                                                                                                  {'loss': 11.0092, 'grad_norm': 1.03125, 'learning_rate': 1.616555040158611e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20873.58, 'epoch': 1.96}
 65%|███████████████████████████████████████████████████████████████████▎                                   | 1873/2865 [1:59:06<48:51,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████▎                                   | 1874/2865 [1:59:09<48:45,  2.95s/it]                                                                                                                                                  {'loss': 11.0127, 'grad_norm': 1.0234375, 'learning_rate': 1.6137068217014294e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21483.11, 'epoch': 1.96}
 65%|███████████████████████████████████████████████████████████████████▎                                   | 1874/2865 [1:59:09<48:45,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████▍                                   | 1875/2865 [1:59:12<48:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0118, 'grad_norm': 1.0390625, 'learning_rate': 1.6108599183915963e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21690.22, 'epoch': 1.96}
 65%|███████████████████████████████████████████████████████████████████▍                                   | 1875/2865 [1:59:12<48:43,  2.95s/it] 65%|███████████████████████████████████████████████████████████████████▍                                   | 1876/2865 [1:59:15<48:40,  2.95s/it]                                                                                                                                                  {'loss': 11.036, 'grad_norm': 1.09375, 'learning_rate': 1.608014334453559e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21760.1, 'epoch': 1.96}
 65%|███████████████████████████████████████████████████████████████████▍                                   | 1876/2865 [1:59:15<48:40,  2.95s/it] 66%|███████████████████████████████████████████████████████████████████▍                                   | 1877/2865 [1:59:18<48:40,  2.96s/it]                                                                                                                                                  {'loss': 11.014, 'grad_norm': 1.03125, 'learning_rate': 1.605170074109804e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21803.54, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▍                                   | 1877/2865 [1:59:18<48:40,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▌                                   | 1878/2865 [1:59:21<48:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0103, 'grad_norm': 1.0390625, 'learning_rate': 1.6023271415808566e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20977.84, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▌                                   | 1878/2865 [1:59:21<48:39,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▌                                   | 1879/2865 [1:59:24<48:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0364, 'grad_norm': 1.0234375, 'learning_rate': 1.5994855410852682e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22073.94, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▌                                   | 1879/2865 [1:59:24<48:35,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▌                                   | 1880/2865 [1:59:27<48:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0026, 'grad_norm': 1.03125, 'learning_rate': 1.5966452768396183e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21599.84, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▌                                   | 1880/2865 [1:59:27<48:32,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▌                                   | 1881/2865 [1:59:30<48:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0319, 'grad_norm': 1.0390625, 'learning_rate': 1.5938063530584983e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21853.01, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▌                                   | 1881/2865 [1:59:30<48:30,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▋                                   | 1882/2865 [1:59:33<48:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0348, 'grad_norm': 1.046875, 'learning_rate': 1.5909687739545153e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21650.39, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▋                                   | 1882/2865 [1:59:33<48:26,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▋                                   | 1883/2865 [1:59:36<48:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.1484375, 'learning_rate': 1.5881325437382784e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22647.31, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▋                                   | 1883/2865 [1:59:36<48:26,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▋                                   | 1884/2865 [1:59:39<48:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0026, 'grad_norm': 1.0859375, 'learning_rate': 1.5852976666183945e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21414.18, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▋                                   | 1884/2865 [1:59:39<48:22,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▊                                   | 1885/2865 [1:59:42<48:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0037, 'grad_norm': 1.0234375, 'learning_rate': 1.5824641468014655e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21946.21, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▊                                   | 1885/2865 [1:59:42<48:19,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▊                                   | 1886/2865 [1:59:45<48:16,  2.96s/it]                                                                                                                                                  {'loss': 11.014, 'grad_norm': 1.1171875, 'learning_rate': 1.5796319884920767e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21244.94, 'epoch': 1.97}
 66%|███████████████████████████████████████████████████████████████████▊                                   | 1886/2865 [1:59:45<48:16,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▊                                   | 1887/2865 [1:59:48<48:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0147, 'grad_norm': 1.109375, 'learning_rate': 1.5768011958927947e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21251.72, 'epoch': 1.98}
 66%|███████████████████████████████████████████████████████████████████▊                                   | 1887/2865 [1:59:48<48:13,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▉                                   | 1888/2865 [1:59:51<48:11,  2.96s/it]                                                                                                                                                  {'loss': 11.008, 'grad_norm': 1.03125, 'learning_rate': 1.5739717732041585e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21839.5, 'epoch': 1.98}
 66%|███████████████████████████████████████████████████████████████████▉                                   | 1888/2865 [1:59:51<48:11,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▉                                   | 1889/2865 [1:59:54<48:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0285, 'grad_norm': 1.2109375, 'learning_rate': 1.571143724624674e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20772.87, 'epoch': 1.98}
 66%|███████████████████████████████████████████████████████████████████▉                                   | 1889/2865 [1:59:54<48:04,  2.96s/it] 66%|███████████████████████████████████████████████████████████████████▉                                   | 1890/2865 [1:59:57<48:00,  2.95s/it]                                                                                                                                                  {'loss': 11.0275, 'grad_norm': 1.1015625, 'learning_rate': 1.5683170543508107e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21048.09, 'epoch': 1.98}
 66%|███████████████████████████████████████████████████████████████████▉                                   | 1890/2865 [1:59:57<48:00,  2.95s/it] 66%|███████████████████████████████████████████████████████████████████▉                                   | 1891/2865 [2:00:00<47:58,  2.96s/it]                                                                                                                                                  {'loss': 11.001, 'grad_norm': 1.03125, 'learning_rate': 1.565491766576988e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21807.46, 'epoch': 1.98}
 66%|███████████████████████████████████████████████████████████████████▉                                   | 1891/2865 [2:00:00<47:58,  2.96s/it] 66%|████████████████████████████████████████████████████████████████████                                   | 1892/2865 [2:00:03<47:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0358, 'grad_norm': 1.0390625, 'learning_rate': 1.56266786549558e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20452.08, 'epoch': 1.98}
 66%|████████████████████████████████████████████████████████████████████                                   | 1892/2865 [2:00:03<47:57,  2.96s/it] 66%|████████████████████████████████████████████████████████████████████                                   | 1893/2865 [2:00:05<47:53,  2.96s/it]                                                                                                                                                  {'loss': 10.9919, 'grad_norm': 1.046875, 'learning_rate': 1.559845355296897e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21655.01, 'epoch': 1.98}
 66%|████████████████████████████████████████████████████████████████████                                   | 1893/2865 [2:00:05<47:53,  2.96s/it] 66%|████████████████████████████████████████████████████████████████████                                   | 1894/2865 [2:00:08<47:48,  2.95s/it]                                                                                                                                                  {'loss': 11.0254, 'grad_norm': 1.03125, 'learning_rate': 1.5570242401691908e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21095.93, 'epoch': 1.98}
 66%|████████████████████████████████████████████████████████████████████                                   | 1894/2865 [2:00:08<47:48,  2.95s/it] 66%|████████████████████████████████████████████████████████████████████▏                                  | 1895/2865 [2:00:11<47:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0164, 'grad_norm': 1.046875, 'learning_rate': 1.5542045242986388e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19553.43, 'epoch': 1.98}
 66%|████████████████████████████████████████████████████████████████████▏                                  | 1895/2865 [2:00:11<47:48,  2.96s/it] 66%|████████████████████████████████████████████████████████████████████▏                                  | 1896/2865 [2:00:14<47:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0161, 'grad_norm': 1.0390625, 'learning_rate': 1.5513862118693456e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22543.79, 'epoch': 1.99}
 66%|████████████████████████████████████████████████████████████████████▏                                  | 1896/2865 [2:00:14<47:47,  2.96s/it] 66%|████████████████████████████████████████████████████████████████████▏                                  | 1897/2865 [2:00:17<47:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0059, 'grad_norm': 1.0625, 'learning_rate': 1.5485693070633295e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21228.35, 'epoch': 1.99}
 66%|████████████████████████████████████████████████████████████████████▏                                  | 1897/2865 [2:00:17<47:42,  2.96s/it] 66%|████████████████████████████████████████████████████████████████████▏                                  | 1898/2865 [2:00:20<47:37,  2.95s/it]                                                                                                                                                  {'loss': 10.9997, 'grad_norm': 1.078125, 'learning_rate': 1.5457538140605243e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20929.65, 'epoch': 1.99}
 66%|████████████████████████████████████████████████████████████████████▏                                  | 1898/2865 [2:00:20<47:37,  2.95s/it] 66%|████████████████████████████████████████████████████████████████████▎                                  | 1899/2865 [2:00:23<47:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0074, 'grad_norm': 1.0390625, 'learning_rate': 1.5429397370387654e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22559.74, 'epoch': 1.99}
 66%|████████████████████████████████████████████████████████████████████▎                                  | 1899/2865 [2:00:23<47:36,  2.96s/it] 66%|████████████████████████████████████████████████████████████████████▎                                  | 1900/2865 [2:00:26<47:30,  2.95s/it]                                                                                                                                                  {'loss': 11.0109, 'grad_norm': 1.109375, 'learning_rate': 1.5401270801737876e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20625.18, 'epoch': 1.99}
 66%|████████████████████████████████████████████████████████████████████▎                                  | 1900/2865 [2:00:26<47:30,  2.95s/it][2025-10-12 05:09:19,000] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:22,  1.11s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:27,  1.24it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<01:58,  1.52it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:40,  1.78it/s][A
  3%|███▌                                                                                                         | 6/185 [00:03<01:28,  2.03it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:24,  2.11it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:18,  2.24it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:04<01:14,  2.36it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:10,  2.48it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:05<01:11,  2.44it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:10,  2.46it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:08,  2.50it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:06<01:06,  2.58it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:08,  2.49it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:07<01:07,  2.49it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.51it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:06,  2.51it/s][A
 10%|███████████                                                                                                 | 19/185 [00:08<01:05,  2.54it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:03,  2.62it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:09<01:05,  2.49it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.51it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:04,  2.52it/s][A
 13%|██████████████                                                                                              | 24/185 [00:10<01:03,  2.54it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:01,  2.62it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:03,  2.52it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:02,  2.54it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:02,  2.52it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:12<01:01,  2.55it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<00:58,  2.64it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<01:00,  2.53it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:13<01:00,  2.53it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:58,  2.62it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:14<00:59,  2.54it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<01:00,  2.47it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:57,  2.61it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:15<00:56,  2.61it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:59,  2.48it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:16<00:58,  2.48it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:57,  2.53it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:58,  2.48it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:17<00:57,  2.49it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:56,  2.53it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:18<00:55,  2.54it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:54,  2.57it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:55,  2.50it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:19<00:55,  2.49it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:54,  2.52it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:52,  2.58it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.50it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:52,  2.54it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:21<00:52,  2.52it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:52,  2.52it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:51,  2.57it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:50,  2.54it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:23<00:47,  2.68it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:50,  2.52it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:49,  2.53it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:24<00:48,  2.59it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:48,  2.53it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:25<00:48,  2.55it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:48,  2.50it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:47,  2.54it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:26<00:47,  2.51it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.55it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:45,  2.60it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:45,  2.56it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.53it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:28<00:44,  2.56it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:43,  2.64it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:29<00:43,  2.63it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.52it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:45,  2.45it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:30<00:42,  2.58it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.55it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:43,  2.47it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:43,  2.47it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.55it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:32<00:41,  2.53it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:41,  2.51it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:40,  2.53it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:39,  2.58it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:40,  2.50it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:34<00:39,  2.51it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.54it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:38,  2.54it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.55it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.56it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:36<00:36,  2.58it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.57it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:37,  2.50it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:36,  2.52it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:34,  2.63it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:38<00:35,  2.51it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:33,  2.65it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:35,  2.51it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:39<00:34,  2.51it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.60it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:33,  2.53it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:33,  2.53it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.58it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:41<00:32,  2.49it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:32,  2.50it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.56it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.50it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:31,  2.50it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:43<00:30,  2.50it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.55it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.57it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.50it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.57it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:28,  2.56it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.56it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.58it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.50it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.52it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.58it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:24,  2.57it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.54it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.52it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:23,  2.60it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:22,  2.62it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:50<00:23,  2.53it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.59it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:22,  2.53it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:22,  2.53it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.55it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:52<00:21,  2.54it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:19,  2.65it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:20,  2.54it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:20,  2.55it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.60it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:19,  2.50it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:19,  2.51it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.53it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.55it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.55it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:16,  2.63it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.53it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.55it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.53it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.51it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.57it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.59it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.61it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:59<00:14,  2.52it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.51it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.51it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.55it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.58it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:01<00:12,  2.51it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.51it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.52it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:11,  2.50it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.54it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:03<00:10,  2.59it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.50it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.52it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.54it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.50it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.57it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.58it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.56it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.56it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.56it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.57it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.53it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.54it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.54it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.59it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.55it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.58it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.58it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:10<00:03,  2.55it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.57it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.57it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.55it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.56it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:12<00:01,  2.54it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.57it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.61it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.08it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995089530944824, 'eval_runtime': 78.6463, 'eval_samples_per_second': 150.764, 'eval_steps_per_second': 2.365, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 1.99}
 66%|████████████████████████████████████████████████████████████████████▎                                  | 1900/2865 [2:01:45<47:30,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.08it/s][A
                                                                                                                                                  [A[2025-10-12 05:10:37,666] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-1900
 66%|███████████████████████████████████████████████████████████████████                                  | 1901/2865 [2:01:55<7:40:27, 28.66s/it]                                                                                                                                                  {'loss': 11.0032, 'grad_norm': 1.03125, 'learning_rate': 1.5373158476392216e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 18795.13, 'epoch': 1.99}
 66%|███████████████████████████████████████████████████████████████████                                  | 1901/2865 [2:01:55<7:40:27, 28.66s/it] 66%|███████████████████████████████████████████████████████████████████                                  | 1902/2865 [2:01:58<5:36:12, 20.95s/it]                                                                                                                                                  {'loss': 10.9925, 'grad_norm': 1.09375, 'learning_rate': 1.5345060436065792e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20895.62, 'epoch': 1.99}
 66%|███████████████████████████████████████████████████████████████████                                  | 1902/2865 [2:01:58<5:36:12, 20.95s/it] 66%|███████████████████████████████████████████████████████████████████                                  | 1903/2865 [2:02:01<4:09:17, 15.55s/it]                                                                                                                                                  {'loss': 11.0085, 'grad_norm': 1.078125, 'learning_rate': 1.531697672245257e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21661.64, 'epoch': 1.99}
 66%|███████████████████████████████████████████████████████████████████                                  | 1903/2865 [2:02:01<4:09:17, 15.55s/it] 66%|███████████████████████████████████████████████████████████████████                                  | 1904/2865 [2:02:04<3:08:33, 11.77s/it]                                                                                                                                                  {'loss': 11.0626, 'grad_norm': 1.4296875, 'learning_rate': 1.5288907377225243e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21809.69, 'epoch': 1.99}
 66%|███████████████████████████████████████████████████████████████████                                  | 1904/2865 [2:02:04<3:08:33, 11.77s/it] 66%|███████████████████████████████████████████████████████████████████▏                                 | 1905/2865 [2:02:07<2:26:02,  9.13s/it]                                                                                                                                                  {'loss': 11.0051, 'grad_norm': 1.0234375, 'learning_rate': 1.5260852442035176e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20653.2, 'epoch': 1.99}
 66%|███████████████████████████████████████████████████████████████████▏                                 | 1905/2865 [2:02:07<2:26:02,  9.13s/it] 67%|███████████████████████████████████████████████████████████████████▏                                 | 1906/2865 [2:02:10<1:56:17,  7.28s/it]                                                                                                                                                  {'loss': 11.0034, 'grad_norm': 1.03125, 'learning_rate': 1.5232811958512355e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21574.14, 'epoch': 2.0}
 67%|███████████████████████████████████████████████████████████████████▏                                 | 1906/2865 [2:02:10<1:56:17,  7.28s/it] 67%|███████████████████████████████████████████████████████████████████▏                                 | 1907/2865 [2:02:13<1:35:26,  5.98s/it]                                                                                                                                                  {'loss': 10.9978, 'grad_norm': 1.0390625, 'learning_rate': 1.5204785968265325e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20965.4, 'epoch': 2.0}
 67%|███████████████████████████████████████████████████████████████████▏                                 | 1907/2865 [2:02:13<1:35:26,  5.98s/it] 67%|███████████████████████████████████████████████████████████████████▎                                 | 1908/2865 [2:02:15<1:20:53,  5.07s/it]                                                                                                                                                  {'loss': 11.0188, 'grad_norm': 1.109375, 'learning_rate': 1.5176774512881125e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20730.58, 'epoch': 2.0}
 67%|███████████████████████████████████████████████████████████████████▎                                 | 1908/2865 [2:02:16<1:20:53,  5.07s/it] 67%|███████████████████████████████████████████████████████████████████▎                                 | 1909/2865 [2:02:18<1:10:40,  4.44s/it]                                                                                                                                                  {'loss': 11.0112, 'grad_norm': 1.0625, 'learning_rate': 1.5148777633925213e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21770.12, 'epoch': 2.0}
 67%|███████████████████████████████████████████████████████████████████▎                                 | 1909/2865 [2:02:18<1:10:40,  4.44s/it] 67%|███████████████████████████████████████████████████████████████████▎                                 | 1910/2865 [2:02:23<1:08:58,  4.33s/it]                                                                                                                                                  {'loss': 11.0254, 'grad_norm': 1.1328125, 'learning_rate': 1.5120795372941443e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21966.54, 'epoch': 2.0}
 67%|███████████████████████████████████████████████████████████████████▎                                 | 1910/2865 [2:02:23<1:08:58,  4.33s/it] 67%|███████████████████████████████████████████████████████████████████▎                                 | 1911/2865 [2:02:31<1:26:13,  5.42s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.125, 'learning_rate': 1.5092827771451948e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 14031.16, 'epoch': 2.0}
 67%|███████████████████████████████████████████████████████████████████▎                                 | 1911/2865 [2:02:31<1:26:13,  5.42s/it] 67%|███████████████████████████████████████████████████████████████████▍                                 | 1912/2865 [2:02:33<1:14:26,  4.69s/it]                                                                                                                                                  {'loss': 11.0027, 'grad_norm': 1.0859375, 'learning_rate': 1.5064874870957138e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22419.26, 'epoch': 2.0}
 67%|███████████████████████████████████████████████████████████████████▍                                 | 1912/2865 [2:02:33<1:14:26,  4.69s/it] 67%|███████████████████████████████████████████████████████████████████▍                                 | 1913/2865 [2:02:36<1:06:11,  4.17s/it]                                                                                                                                                  {'loss': 11.0162, 'grad_norm': 1.09375, 'learning_rate': 1.5036936712935579e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20289.26, 'epoch': 2.0}
 67%|███████████████████████████████████████████████████████████████████▍                                 | 1913/2865 [2:02:36<1:06:11,  4.17s/it] 67%|███████████████████████████████████████████████████████████████████▍                                 | 1914/2865 [2:02:39<1:00:23,  3.81s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.046875, 'learning_rate': 1.500901333884399e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20707.7, 'epoch': 2.0}
 67%|███████████████████████████████████████████████████████████████████▍                                 | 1914/2865 [2:02:39<1:00:23,  3.81s/it] 67%|████████████████████████████████████████████████████████████████████▊                                  | 1915/2865 [2:02:42<56:24,  3.56s/it]                                                                                                                                                  {'loss': 11.0248, 'grad_norm': 1.03125, 'learning_rate': 1.4981104790117128e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21214.46, 'epoch': 2.01}
 67%|████████████████████████████████████████████████████████████████████▊                                  | 1915/2865 [2:02:42<56:24,  3.56s/it] 67%|████████████████████████████████████████████████████████████████████▉                                  | 1916/2865 [2:02:45<53:34,  3.39s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.03125, 'learning_rate': 1.4953211108167759e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20897.9, 'epoch': 2.01}
 67%|████████████████████████████████████████████████████████████████████▉                                  | 1916/2865 [2:02:45<53:34,  3.39s/it] 67%|████████████████████████████████████████████████████████████████████▉                                  | 1917/2865 [2:02:48<51:30,  3.26s/it]                                                                                                                                                  {'loss': 11.0139, 'grad_norm': 1.03125, 'learning_rate': 1.4925332334386598e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21517.88, 'epoch': 2.01}
 67%|████████████████████████████████████████████████████████████████████▉                                  | 1917/2865 [2:02:48<51:30,  3.26s/it] 67%|████████████████████████████████████████████████████████████████████▉                                  | 1918/2865 [2:02:51<50:05,  3.17s/it]                                                                                                                                                  {'loss': 11.012, 'grad_norm': 1.109375, 'learning_rate': 1.4897468510142227e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22505.82, 'epoch': 2.01}
 67%|████████████████████████████████████████████████████████████████████▉                                  | 1918/2865 [2:02:51<50:05,  3.17s/it] 67%|████████████████████████████████████████████████████████████████████▉                                  | 1919/2865 [2:02:54<49:03,  3.11s/it]                                                                                                                                                  {'loss': 11.0137, 'grad_norm': 1.0234375, 'learning_rate': 1.4869619676781056e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21631.52, 'epoch': 2.01}
 67%|████████████████████████████████████████████████████████████████████▉                                  | 1919/2865 [2:02:54<49:03,  3.11s/it] 67%|█████████████████████████████████████████████████████████████████████                                  | 1920/2865 [2:02:57<48:17,  3.07s/it]                                                                                                                                                  {'loss': 11.0228, 'grad_norm': 1.046875, 'learning_rate': 1.4841785875627222e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21228.39, 'epoch': 2.01}
 67%|█████████████████████████████████████████████████████████████████████                                  | 1920/2865 [2:02:57<48:17,  3.07s/it] 67%|█████████████████████████████████████████████████████████████████████                                  | 1921/2865 [2:03:00<47:46,  3.04s/it]                                                                                                                                                  {'loss': 10.9981, 'grad_norm': 1.15625, 'learning_rate': 1.4813967147982608e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21281.17, 'epoch': 2.01}
 67%|█████████████████████████████████████████████████████████████████████                                  | 1921/2865 [2:03:00<47:46,  3.04s/it] 67%|█████████████████████████████████████████████████████████████████████                                  | 1922/2865 [2:03:03<47:26,  3.02s/it]                                                                                                                                                  {'loss': 11.0201, 'grad_norm': 1.03125, 'learning_rate': 1.478616353512667e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21503.21, 'epoch': 2.01}
 67%|█████████████████████████████████████████████████████████████████████                                  | 1922/2865 [2:03:03<47:26,  3.02s/it] 67%|█████████████████████████████████████████████████████████████████████▏                                 | 1923/2865 [2:03:06<47:07,  3.00s/it]                                                                                                                                                  {'loss': 10.9957, 'grad_norm': 1.015625, 'learning_rate': 1.4758375078316482e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20574.6, 'epoch': 2.01}
 67%|█████████████████████████████████████████████████████████████████████▏                                 | 1923/2865 [2:03:06<47:07,  3.00s/it] 67%|█████████████████████████████████████████████████████████████████████▏                                 | 1924/2865 [2:03:09<46:57,  2.99s/it]                                                                                                                                                  {'loss': 10.9996, 'grad_norm': 1.109375, 'learning_rate': 1.4730601818786616e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21396.91, 'epoch': 2.01}
 67%|█████████████████████████████████████████████████████████████████████▏                                 | 1924/2865 [2:03:09<46:57,  2.99s/it] 67%|█████████████████████████████████████████████████████████████████████▏                                 | 1925/2865 [2:03:12<46:50,  2.99s/it]                                                                                                                                                  {'loss': 11.021, 'grad_norm': 1.078125, 'learning_rate': 1.4702843797749066e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23383.97, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████▏                                 | 1925/2865 [2:03:12<46:50,  2.99s/it] 67%|█████████████████████████████████████████████████████████████████████▏                                 | 1926/2865 [2:03:15<47:00,  3.00s/it]                                                                                                                                                  {'loss': 10.9962, 'grad_norm': 1.0234375, 'learning_rate': 1.4675101056393259e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21800.33, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████▏                                 | 1926/2865 [2:03:15<47:00,  3.00s/it] 67%|█████████████████████████████████████████████████████████████████████▎                                 | 1927/2865 [2:03:18<48:23,  3.09s/it]                                                                                                                                                  {'loss': 11.0207, 'grad_norm': 1.1796875, 'learning_rate': 1.4647373635885903e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20040.56, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████▎                                 | 1927/2865 [2:03:18<48:23,  3.09s/it] 67%|█████████████████████████████████████████████████████████████████████▎                                 | 1928/2865 [2:03:21<47:43,  3.06s/it]                                                                                                                                                  {'loss': 11.02, 'grad_norm': 1.0234375, 'learning_rate': 1.4619661577371018e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21058.75, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████▎                                 | 1928/2865 [2:03:21<47:43,  3.06s/it] 67%|█████████████████████████████████████████████████████████████████████▎                                 | 1929/2865 [2:03:24<47:14,  3.03s/it]                                                                                                                                                  {'loss': 10.9949, 'grad_norm': 1.0390625, 'learning_rate': 1.4591964921969786e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20630.91, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████▎                                 | 1929/2865 [2:03:24<47:14,  3.03s/it] 67%|█████████████████████████████████████████████████████████████████████▍                                 | 1930/2865 [2:03:27<46:50,  3.01s/it]                                                                                                                                                  {'loss': 10.9974, 'grad_norm': 1.0390625, 'learning_rate': 1.4564283710780568e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20626.79, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████▍                                 | 1930/2865 [2:03:27<46:50,  3.01s/it] 67%|█████████████████████████████████████████████████████████████████████▍                                 | 1931/2865 [2:03:30<46:33,  2.99s/it]                                                                                                                                                  {'loss': 11.0298, 'grad_norm': 1.046875, 'learning_rate': 1.4536617984878775e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21746.62, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████▍                                 | 1931/2865 [2:03:30<46:33,  2.99s/it] 67%|█████████████████████████████████████████████████████████████████████▍                                 | 1932/2865 [2:03:33<46:20,  2.98s/it]                                                                                                                                                  {'loss': 11.045, 'grad_norm': 1.0546875, 'learning_rate': 1.4508967785316876e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21864.7, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████▍                                 | 1932/2865 [2:03:33<46:20,  2.98s/it] 67%|█████████████████████████████████████████████████████████████████████▍                                 | 1933/2865 [2:03:36<46:12,  2.98s/it]                                                                                                                                                  {'loss': 11.0364, 'grad_norm': 1.046875, 'learning_rate': 1.4481333153124272e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22083.76, 'epoch': 2.02}
 67%|█████████████████████████████████████████████████████████████████████▍                                 | 1933/2865 [2:03:36<46:12,  2.98s/it] 68%|█████████████████████████████████████████████████████████████████████▌                                 | 1934/2865 [2:03:39<46:07,  2.97s/it]                                                                                                                                                  {'loss': 11.0302, 'grad_norm': 1.1875, 'learning_rate': 1.4453714129307264e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22111.54, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▌                                 | 1934/2865 [2:03:39<46:07,  2.97s/it] 68%|█████████████████████████████████████████████████████████████████████▌                                 | 1935/2865 [2:03:42<46:02,  2.97s/it]                                                                                                                                                  {'loss': 11.0035, 'grad_norm': 1.0234375, 'learning_rate': 1.442611075484902e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21621.28, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▌                                 | 1935/2865 [2:03:42<46:02,  2.97s/it] 68%|█████████████████████████████████████████████████████████████████████▌                                 | 1936/2865 [2:03:45<45:55,  2.97s/it]                                                                                                                                                  {'loss': 10.9967, 'grad_norm': 1.1953125, 'learning_rate': 1.4398523070709447e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22325.16, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▌                                 | 1936/2865 [2:03:45<45:55,  2.97s/it] 68%|█████████████████████████████████████████████████████████████████████▋                                 | 1937/2865 [2:03:48<45:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0211, 'grad_norm': 1.1171875, 'learning_rate': 1.4370951117825215e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22084.47, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▋                                 | 1937/2865 [2:03:48<45:48,  2.96s/it] 68%|█████████████████████████████████████████████████████████████████████▋                                 | 1938/2865 [2:03:51<45:44,  2.96s/it]                                                                                                                                                  {'loss': 11.013, 'grad_norm': 1.09375, 'learning_rate': 1.4343394937109603e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21400.64, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▋                                 | 1938/2865 [2:03:51<45:44,  2.96s/it] 68%|█████████████████████████████████████████████████████████████████████▋                                 | 1939/2865 [2:03:54<45:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0092, 'grad_norm': 1.0234375, 'learning_rate': 1.4315854569452531e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19149.78, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▋                                 | 1939/2865 [2:03:54<45:41,  2.96s/it] 68%|█████████████████████████████████████████████████████████████████████▋                                 | 1940/2865 [2:03:57<45:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0181, 'grad_norm': 1.25, 'learning_rate': 1.428833005572042e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21268.21, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▋                                 | 1940/2865 [2:03:57<45:33,  2.96s/it] 68%|█████████████████████████████████████████████████████████████████████▊                                 | 1941/2865 [2:04:00<45:28,  2.95s/it]                                                                                                                                                  {'loss': 11.0258, 'grad_norm': 1.0390625, 'learning_rate': 1.4260821436756173e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21154.61, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▊                                 | 1941/2865 [2:04:00<45:28,  2.95s/it] 68%|█████████████████████████████████████████████████████████████████████▊                                 | 1942/2865 [2:04:03<45:22,  2.95s/it]                                                                                                                                                  {'loss': 11.0038, 'grad_norm': 1.1015625, 'learning_rate': 1.4233328753379128e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20672.98, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▊                                 | 1942/2865 [2:04:03<45:22,  2.95s/it] 68%|█████████████████████████████████████████████████████████████████████▊                                 | 1943/2865 [2:04:06<46:53,  3.05s/it]                                                                                                                                                  {'loss': 11.0094, 'grad_norm': 1.0546875, 'learning_rate': 1.4205852046384943e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 18499.13, 'epoch': 2.03}
 68%|█████████████████████████████████████████████████████████████████████▊                                 | 1943/2865 [2:04:06<46:53,  3.05s/it] 68%|█████████████████████████████████████████████████████████████████████▉                                 | 1944/2865 [2:04:10<51:29,  3.35s/it]                                                                                                                                                  {'loss': 11.0127, 'grad_norm': 1.0625, 'learning_rate': 1.4178391356545605e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15467.88, 'epoch': 2.04}
 68%|█████████████████████████████████████████████████████████████████████▉                                 | 1944/2865 [2:04:10<51:29,  3.35s/it] 68%|█████████████████████████████████████████████████████████████████████▉                                 | 1945/2865 [2:04:14<54:43,  3.57s/it]                                                                                                                                                  {'loss': 11.017, 'grad_norm': 1.03125, 'learning_rate': 1.4150946724609305e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15631.67, 'epoch': 2.04}
 68%|█████████████████████████████████████████████████████████████████████▉                                 | 1945/2865 [2:04:14<54:43,  3.57s/it] 68%|█████████████████████████████████████████████████████████████████████▉                                 | 1946/2865 [2:04:18<56:59,  3.72s/it]                                                                                                                                                  {'loss': 11.0208, 'grad_norm': 1.0390625, 'learning_rate': 1.4123518191300428e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15753.42, 'epoch': 2.04}
 68%|█████████████████████████████████████████████████████████████████████▉                                 | 1946/2865 [2:04:18<56:59,  3.72s/it] 68%|█████████████████████████████████████████████████████████████████████▉                                 | 1947/2865 [2:04:22<58:32,  3.83s/it]                                                                                                                                                  {'loss': 11.0313, 'grad_norm': 1.2734375, 'learning_rate': 1.4096105797319444e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15392.43, 'epoch': 2.04}
 68%|█████████████████████████████████████████████████████████████████████▉                                 | 1947/2865 [2:04:22<58:32,  3.83s/it] 68%|██████████████████████████████████████████████████████████████████████                                 | 1948/2865 [2:04:26<59:37,  3.90s/it]                                                                                                                                                  {'loss': 11.0001, 'grad_norm': 1.0546875, 'learning_rate': 1.406870958334291e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15186.98, 'epoch': 2.04}
 68%|██████████████████████████████████████████████████████████████████████                                 | 1948/2865 [2:04:26<59:37,  3.90s/it] 68%|████████████████████████████████████████████████████████████████████▋                                | 1949/2865 [2:04:31<1:00:22,  3.96s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.1796875, 'learning_rate': 1.4041329590023334e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15779.76, 'epoch': 2.04}
 68%|████████████████████████████████████████████████████████████████████▋                                | 1949/2865 [2:04:31<1:00:22,  3.96s/it] 68%|████████████████████████████████████████████████████████████████████▋                                | 1950/2865 [2:04:35<1:00:57,  4.00s/it]                                                                                                                                                  {'loss': 11.0158, 'grad_norm': 1.1328125, 'learning_rate': 1.4013965857989189e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15757.71, 'epoch': 2.04}
 68%|████████████████████████████████████████████████████████████████████▋                                | 1950/2865 [2:04:35<1:00:57,  4.00s/it] 68%|████████████████████████████████████████████████████████████████████▊                                | 1951/2865 [2:04:39<1:01:12,  4.02s/it]                                                                                                                                                  {'loss': 11.0339, 'grad_norm': 1.03125, 'learning_rate': 1.3986618427844788e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 14619.28, 'epoch': 2.04}
 68%|████████████████████████████████████████████████████████████████████▊                                | 1951/2865 [2:04:39<1:01:12,  4.02s/it] 68%|████████████████████████████████████████████████████████████████████▊                                | 1952/2865 [2:04:43<1:01:02,  4.01s/it]                                                                                                                                                  {'loss': 11.0074, 'grad_norm': 1.1328125, 'learning_rate': 1.3959287340170297e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15518.45, 'epoch': 2.04}
 68%|████████████████████████████████████████████████████████████████████▊                                | 1952/2865 [2:04:43<1:01:02,  4.01s/it] 68%|██████████████████████████████████████████████████████████████████████▏                                | 1953/2865 [2:04:46<56:21,  3.71s/it]                                                                                                                                                  {'loss': 11.0282, 'grad_norm': 1.0859375, 'learning_rate': 1.393197263552157e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21536.68, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▏                                | 1953/2865 [2:04:46<56:21,  3.71s/it] 68%|██████████████████████████████████████████████████████████████████████▏                                | 1954/2865 [2:04:49<52:53,  3.48s/it]                                                                                                                                                  {'loss': 11.0187, 'grad_norm': 1.1328125, 'learning_rate': 1.3904674354430208e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21444.21, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▏                                | 1954/2865 [2:04:49<52:53,  3.48s/it] 68%|██████████████████████████████████████████████████████████████████████▎                                | 1955/2865 [2:04:52<50:24,  3.32s/it]                                                                                                                                                  {'loss': 11.0091, 'grad_norm': 1.0546875, 'learning_rate': 1.3877392537403421e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21667.49, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▎                                | 1955/2865 [2:04:52<50:24,  3.32s/it] 68%|██████████████████████████████████████████████████████████████████████▎                                | 1956/2865 [2:04:55<48:41,  3.21s/it]                                                                                                                                                  {'loss': 11.0265, 'grad_norm': 1.03125, 'learning_rate': 1.385012722492397e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21943.65, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▎                                | 1956/2865 [2:04:55<48:41,  3.21s/it] 68%|██████████████████████████████████████████████████████████████████████▎                                | 1957/2865 [2:04:57<47:23,  3.13s/it]                                                                                                                                                  {'loss': 11.019, 'grad_norm': 1.0546875, 'learning_rate': 1.3822878457450161e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20897.34, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▎                                | 1957/2865 [2:04:57<47:23,  3.13s/it] 68%|██████████████████████████████████████████████████████████████████████▍                                | 1958/2865 [2:05:00<46:37,  3.08s/it]                                                                                                                                                  {'loss': 11.0166, 'grad_norm': 1.140625, 'learning_rate': 1.3795646275415724e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21485.75, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▍                                | 1958/2865 [2:05:00<46:37,  3.08s/it] 68%|██████████████████████████████████████████████████████████████████████▍                                | 1959/2865 [2:05:03<45:59,  3.05s/it]                                                                                                                                                  {'loss': 11.0126, 'grad_norm': 1.0625, 'learning_rate': 1.3768430719229766e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20625.0, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▍                                | 1959/2865 [2:05:03<45:59,  3.05s/it] 68%|██████████████████████████████████████████████████████████████████████▍                                | 1960/2865 [2:05:06<45:32,  3.02s/it]                                                                                                                                                  {'loss': 11.0295, 'grad_norm': 1.2109375, 'learning_rate': 1.3741231829276768e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21244.14, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▍                                | 1960/2865 [2:05:06<45:32,  3.02s/it] 68%|██████████████████████████████████████████████████████████████████████▌                                | 1961/2865 [2:05:09<45:12,  3.00s/it]                                                                                                                                                  {'loss': 11.0227, 'grad_norm': 1.0546875, 'learning_rate': 1.3714049645916428e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20658.1, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▌                                | 1961/2865 [2:05:09<45:12,  3.00s/it] 68%|██████████████████████████████████████████████████████████████████████▌                                | 1962/2865 [2:05:12<44:58,  2.99s/it]                                                                                                                                                  {'loss': 11.0151, 'grad_norm': 1.0390625, 'learning_rate': 1.3686884209483708e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21409.72, 'epoch': 2.05}
 68%|██████████████████████████████████████████████████████████████████████▌                                | 1962/2865 [2:05:12<44:58,  2.99s/it] 69%|██████████████████████████████████████████████████████████████████████▌                                | 1963/2865 [2:05:15<44:47,  2.98s/it]                                                                                                                                                  {'loss': 11.0076, 'grad_norm': 1.0390625, 'learning_rate': 1.365973556028866e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21857.07, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▌                                | 1963/2865 [2:05:15<44:47,  2.98s/it] 69%|██████████████████████████████████████████████████████████████████████▌                                | 1964/2865 [2:05:18<44:35,  2.97s/it]                                                                                                                                                  {'loss': 11.0043, 'grad_norm': 1.09375, 'learning_rate': 1.363260373861649e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20607.82, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▌                                | 1964/2865 [2:05:18<44:35,  2.97s/it] 69%|██████████████████████████████████████████████████████████████████████▋                                | 1965/2865 [2:05:21<44:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0226, 'grad_norm': 1.0234375, 'learning_rate': 1.360548878472738e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20616.22, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▋                                | 1965/2865 [2:05:21<44:26,  2.96s/it] 69%|██████████████████████████████████████████████████████████████████████▋                                | 1966/2865 [2:05:24<44:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0189, 'grad_norm': 1.0390625, 'learning_rate': 1.35783907388565e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21824.16, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▋                                | 1966/2865 [2:05:24<44:19,  2.96s/it] 69%|██████████████████████████████████████████████████████████████████████▋                                | 1967/2865 [2:05:27<44:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0007, 'grad_norm': 1.03125, 'learning_rate': 1.355130964121395e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21817.46, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▋                                | 1967/2865 [2:05:27<44:19,  2.96s/it] 69%|██████████████████████████████████████████████████████████████████████▊                                | 1968/2865 [2:05:30<44:14,  2.96s/it]                                                                                                                                                  {'loss': 11.026, 'grad_norm': 1.0625, 'learning_rate': 1.3524245531984648e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21700.29, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▊                                | 1968/2865 [2:05:30<44:14,  2.96s/it] 69%|██████████████████████████████████████████████████████████████████████▊                                | 1969/2865 [2:05:33<44:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0116, 'grad_norm': 1.0234375, 'learning_rate': 1.3497198451328341e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21305.06, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▊                                | 1969/2865 [2:05:33<44:10,  2.96s/it] 69%|██████████████████████████████████████████████████████████████████████▊                                | 1970/2865 [2:05:36<44:03,  2.95s/it]                                                                                                                                                  {'loss': 11.0058, 'grad_norm': 1.1953125, 'learning_rate': 1.3470168439379464e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20335.66, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▊                                | 1970/2865 [2:05:36<44:03,  2.95s/it] 69%|██████████████████████████████████████████████████████████████████████▊                                | 1971/2865 [2:05:39<44:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0237, 'grad_norm': 1.0234375, 'learning_rate': 1.3443155536247166e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21127.28, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▊                                | 1971/2865 [2:05:39<44:03,  2.96s/it] 69%|██████████████████████████████████████████████████████████████████████▉                                | 1972/2865 [2:05:42<43:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0573, 'grad_norm': 1.03125, 'learning_rate': 1.3416159782015176e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21067.07, 'epoch': 2.06}
 69%|██████████████████████████████████████████████████████████████████████▉                                | 1972/2865 [2:05:42<43:59,  2.96s/it] 69%|██████████████████████████████████████████████████████████████████████▉                                | 1973/2865 [2:05:45<43:55,  2.95s/it]                                                                                                                                                  {'loss': 11.0359, 'grad_norm': 1.0234375, 'learning_rate': 1.3389181216741806e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21353.02, 'epoch': 2.07}
 69%|██████████████████████████████████████████████████████████████████████▉                                | 1973/2865 [2:05:45<43:55,  2.95s/it] 69%|██████████████████████████████████████████████████████████████████████▉                                | 1974/2865 [2:05:48<43:50,  2.95s/it]                                                                                                                                                  {'loss': 11.013, 'grad_norm': 1.0625, 'learning_rate': 1.3362219880459836e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21519.44, 'epoch': 2.07}
 69%|██████████████████████████████████████████████████████████████████████▉                                | 1974/2865 [2:05:48<43:50,  2.95s/it] 69%|███████████████████████████████████████████████████████████████████████                                | 1975/2865 [2:05:51<43:48,  2.95s/it]                                                                                                                                                  {'loss': 11.0247, 'grad_norm': 1.0390625, 'learning_rate': 1.3335275813176482e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21483.45, 'epoch': 2.07}
 69%|███████████████████████████████████████████████████████████████████████                                | 1975/2865 [2:05:51<43:48,  2.95s/it] 69%|███████████████████████████████████████████████████████████████████████                                | 1976/2865 [2:05:54<43:44,  2.95s/it]                                                                                                                                                  {'loss': 10.9996, 'grad_norm': 1.03125, 'learning_rate': 1.3308349054873363e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21371.1, 'epoch': 2.07}
 69%|███████████████████████████████████████████████████████████████████████                                | 1976/2865 [2:05:54<43:44,  2.95s/it] 69%|███████████████████████████████████████████████████████████████████████                                | 1977/2865 [2:05:57<43:43,  2.95s/it]                                                                                                                                                  {'loss': 11.0227, 'grad_norm': 1.0390625, 'learning_rate': 1.3281439645506372e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20486.62, 'epoch': 2.07}
 69%|███████████████████████████████████████████████████████████████████████                                | 1977/2865 [2:05:57<43:43,  2.95s/it] 69%|███████████████████████████████████████████████████████████████████████                                | 1978/2865 [2:06:00<43:40,  2.95s/it]                                                                                                                                                  {'loss': 11.0154, 'grad_norm': 1.078125, 'learning_rate': 1.32545476250057e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21231.49, 'epoch': 2.07}
 69%|███████████████████████████████████████████████████████████████████████                                | 1978/2865 [2:06:00<43:40,  2.95s/it] 69%|███████████████████████████████████████████████████████████████████████▏                               | 1979/2865 [2:06:02<43:37,  2.95s/it]                                                                                                                                                  {'loss': 11.0056, 'grad_norm': 1.0234375, 'learning_rate': 1.3227673033275701e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21582.67, 'epoch': 2.07}
 69%|███████████████████████████████████████████████████████████████████████▏                               | 1979/2865 [2:06:03<43:37,  2.95s/it] 69%|███████████████████████████████████████████████████████████████████████▏                               | 1980/2865 [2:06:05<43:33,  2.95s/it]                                                                                                                                                  {'loss': 10.9977, 'grad_norm': 1.1015625, 'learning_rate': 1.3200815910194891e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21150.73, 'epoch': 2.07}
 69%|███████████████████████████████████████████████████████████████████████▏                               | 1980/2865 [2:06:05<43:33,  2.95s/it] 69%|███████████████████████████████████████████████████████████████████████▏                               | 1981/2865 [2:06:09<44:12,  3.00s/it]                                                                                                                                                  {'loss': 11.009, 'grad_norm': 1.0390625, 'learning_rate': 1.3173976295615848e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19890.8, 'epoch': 2.07}
 69%|███████████████████████████████████████████████████████████████████████▏                               | 1981/2865 [2:06:09<44:12,  3.00s/it] 69%|███████████████████████████████████████████████████████████████████████▎                               | 1982/2865 [2:06:12<44:57,  3.05s/it]                                                                                                                                                  {'loss': 11.0306, 'grad_norm': 1.0390625, 'learning_rate': 1.3147154229365183e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19948.24, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▎                               | 1982/2865 [2:06:12<44:57,  3.05s/it] 69%|███████████████████████████████████████████████████████████████████████▎                               | 1983/2865 [2:06:15<44:25,  3.02s/it]                                                                                                                                                  {'loss': 11.0099, 'grad_norm': 1.0859375, 'learning_rate': 1.3120349751243461e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20267.84, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▎                               | 1983/2865 [2:06:15<44:25,  3.02s/it] 69%|███████████████████████████████████████████████████████████████████████▎                               | 1984/2865 [2:06:18<44:05,  3.00s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.03125, 'learning_rate': 1.3093562901025135e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21011.61, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▎                               | 1984/2865 [2:06:18<44:05,  3.00s/it] 69%|███████████████████████████████████████████████████████████████████████▎                               | 1985/2865 [2:06:21<43:47,  2.99s/it]                                                                                                                                                  {'loss': 11.0224, 'grad_norm': 1.0390625, 'learning_rate': 1.3066793718458537e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21024.88, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▎                               | 1985/2865 [2:06:21<43:47,  2.99s/it] 69%|███████████████████████████████████████████████████████████████████████▍                               | 1986/2865 [2:06:24<43:33,  2.97s/it]                                                                                                                                                  {'loss': 11.0042, 'grad_norm': 1.0234375, 'learning_rate': 1.3040042243265732e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21105.56, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▍                               | 1986/2865 [2:06:24<43:33,  2.97s/it] 69%|███████████████████████████████████████████████████████████████████████▍                               | 1987/2865 [2:06:26<43:29,  2.97s/it]                                                                                                                                                  {'loss': 11.0194, 'grad_norm': 1.0546875, 'learning_rate': 1.3013308515142553e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21495.66, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▍                               | 1987/2865 [2:06:27<43:29,  2.97s/it] 69%|███████████████████████████████████████████████████████████████████████▍                               | 1988/2865 [2:06:29<43:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0097, 'grad_norm': 1.046875, 'learning_rate': 1.2986592573758494e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20947.71, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▍                               | 1988/2865 [2:06:29<43:20,  2.96s/it] 69%|███████████████████████████████████████████████████████████████████████▌                               | 1989/2865 [2:06:32<43:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0116, 'grad_norm': 1.0625, 'learning_rate': 1.2959894458756617e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20449.79, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▌                               | 1989/2865 [2:06:32<43:11,  2.96s/it] 69%|███████████████████████████████████████████████████████████████████████▌                               | 1990/2865 [2:06:35<43:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0182, 'grad_norm': 1.2421875, 'learning_rate': 1.2933214209753586e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21258.88, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▌                               | 1990/2865 [2:06:35<43:05,  2.96s/it] 69%|███████████████████████████████████████████████████████████████████████▌                               | 1991/2865 [2:06:38<43:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0259, 'grad_norm': 1.0234375, 'learning_rate': 1.2906551866339503e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20183.54, 'epoch': 2.08}
 69%|███████████████████████████████████████████████████████████████████████▌                               | 1991/2865 [2:06:38<43:04,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████▌                               | 1992/2865 [2:06:41<43:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0277, 'grad_norm': 1.0703125, 'learning_rate': 1.2879907468077945e-05, 'memory/max_active (GiB)': 15.76, 'memory/max_allocated (GiB)': 15.76, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 18201.3, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▌                               | 1992/2865 [2:06:41<43:00,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████▋                               | 1993/2865 [2:06:44<42:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0118, 'grad_norm': 1.03125, 'learning_rate': 1.2853281054505822e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20475.08, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▋                               | 1993/2865 [2:06:44<42:58,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████▋                               | 1994/2865 [2:06:47<42:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0007, 'grad_norm': 1.0234375, 'learning_rate': 1.2826672665133393e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20830.33, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▋                               | 1994/2865 [2:06:47<42:56,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████▋                               | 1995/2865 [2:06:50<42:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0238, 'grad_norm': 1.1171875, 'learning_rate': 1.280008233944414e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21767.23, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▋                               | 1995/2865 [2:06:50<42:53,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████▊                               | 1996/2865 [2:06:53<42:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0131, 'grad_norm': 1.1171875, 'learning_rate': 1.2773510116894766e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21164.53, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▊                               | 1996/2865 [2:06:53<42:49,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████▊                               | 1997/2865 [2:06:56<42:47,  2.96s/it]                                                                                                                                                  {'loss': 10.9967, 'grad_norm': 1.0234375, 'learning_rate': 1.2746956036915081e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22053.71, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▊                               | 1997/2865 [2:06:56<42:47,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████▊                               | 1998/2865 [2:06:59<42:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0079, 'grad_norm': 1.125, 'learning_rate': 1.2720420138908012e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21595.84, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▊                               | 1998/2865 [2:06:59<42:42,  2.96s/it] 70%|███████████████████████████████████████████████████████████████████████▊                               | 1999/2865 [2:07:02<42:54,  2.97s/it]                                                                                                                                                  {'loss': 11.0237, 'grad_norm': 1.171875, 'learning_rate': 1.2693902462249485e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21260.14, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▊                               | 1999/2865 [2:07:02<42:54,  2.97s/it] 70%|███████████████████████████████████████████████████████████████████████▉                               | 2000/2865 [2:07:05<44:11,  3.07s/it]                                                                                                                                                  {'loss': 11.0142, 'grad_norm': 1.1328125, 'learning_rate': 1.2667403046288367e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19020.66, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▉                               | 2000/2865 [2:07:05<44:11,  3.07s/it][2025-10-12 05:15:58,116] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:03<04:52,  1.60s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:20,  1.10s/it][A
  2%|██▎                                                                                                          | 4/185 [00:04<02:31,  1.19it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<02:02,  1.46it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:45,  1.70it/s][A
  4%|████                                                                                                         | 7/185 [00:05<01:34,  1.89it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:26,  2.06it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:19,  2.22it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:15,  2.32it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.37it/s][A
  6%|███████                                                                                                     | 12/185 [00:07<01:10,  2.45it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:10,  2.45it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:08,  2.50it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:08,  2.49it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:06,  2.54it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:09<01:06,  2.53it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:06,  2.52it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:05,  2.55it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:10<01:04,  2.55it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:03,  2.57it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:11<01:03,  2.58it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:04,  2.51it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.53it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:12<01:03,  2.53it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:02,  2.54it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:13<01:01,  2.56it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:01,  2.56it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:01,  2.52it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:14<01:01,  2.54it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.54it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.54it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.55it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:59,  2.54it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:16<00:58,  2.56it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:57,  2.59it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:57,  2.57it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:55,  2.63it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:56,  2.58it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:18<00:57,  2.51it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:57,  2.52it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:54,  2.63it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:19<00:54,  2.58it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:55,  2.53it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:20<00:55,  2.51it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.53it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:52,  2.61it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:21<00:53,  2.54it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:53,  2.55it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:22<00:53,  2.53it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:52,  2.53it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.55it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:23<00:50,  2.59it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.53it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:51,  2.50it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.53it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:25<00:50,  2.54it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:49,  2.52it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:26<00:50,  2.47it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:49,  2.49it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.51it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:27<00:47,  2.55it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:48,  2.52it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:46,  2.58it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:28<00:48,  2.46it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:51,  2.28it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:29<00:49,  2.38it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:47,  2.45it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:30<00:47,  2.40it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:30<00:46,  2.45it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:45,  2.46it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:31<00:45,  2.46it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.57it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:32<00:44,  2.46it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:32<00:43,  2.51it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:43,  2.49it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:33<00:44,  2.43it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:34<00:55,  1.91it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:34<00:55,  1.90it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:35<00:52,  2.00it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:35<00:48,  2.12it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:35<00:45,  2.23it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:36<00:44,  2.29it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:36<00:41,  2.39it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:37<00:40,  2.43it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:37<00:40,  2.43it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:37<00:39,  2.46it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:38<00:38,  2.52it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:38<00:37,  2.51it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:39<00:37,  2.51it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:39<00:37,  2.50it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:39<00:36,  2.51it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:40<00:36,  2.52it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:40<00:36,  2.50it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:41<00:35,  2.51it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:41<00:34,  2.55it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:41<00:34,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:42<00:34,  2.51it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:42<00:33,  2.56it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:42<00:32,  2.58it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:43<00:33,  2.50it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:43<00:32,  2.50it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:44<00:31,  2.54it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:44<00:31,  2.54it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:44<00:31,  2.54it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:45<00:30,  2.55it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:45<00:30,  2.52it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:46<00:29,  2.55it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:46<00:29,  2.53it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:46<00:28,  2.58it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:47<00:29,  2.50it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:47<00:28,  2.51it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:48<00:28,  2.53it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:48<00:27,  2.58it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:48<00:27,  2.51it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:49<00:26,  2.53it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:49<00:26,  2.51it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:50<00:26,  2.52it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:50<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:50<00:25,  2.52it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:51<00:24,  2.54it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:51<00:24,  2.57it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:52<00:24,  2.48it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:52<00:23,  2.51it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:52<00:23,  2.49it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:53<00:22,  2.56it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:53<00:22,  2.51it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:54<00:21,  2.57it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:54<00:21,  2.53it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:54<00:21,  2.53it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:55<00:20,  2.56it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:55<00:20,  2.58it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:56<00:20,  2.52it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:56<00:19,  2.54it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:56<00:19,  2.54it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:57<00:19,  2.51it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:57<00:18,  2.59it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:57<00:18,  2.51it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:58<00:17,  2.53it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:58<00:17,  2.51it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:59<00:17,  2.49it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:59<00:16,  2.52it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:59<00:16,  2.51it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [01:00<00:16,  2.48it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [01:00<00:15,  2.52it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [01:01<00:15,  2.50it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:01<00:14,  2.57it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:01<00:14,  2.57it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:02<00:13,  2.52it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:02<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:03<00:12,  2.55it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:03<00:12,  2.51it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:03<00:12,  2.51it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:04<00:12,  2.49it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:04<00:11,  2.50it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:05<00:11,  2.50it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:05<00:10,  2.55it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:05<00:10,  2.54it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:06<00:09,  2.51it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:06<00:09,  2.50it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:07<00:09,  2.50it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:07<00:08,  2.58it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:07<00:08,  2.52it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:08<00:08,  2.49it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:08<00:07,  2.49it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:09<00:06,  2.58it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:09<00:06,  2.49it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:09<00:06,  2.53it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:10<00:05,  2.58it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:10<00:05,  2.49it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:11<00:05,  2.50it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:11<00:04,  2.52it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:11<00:04,  2.55it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:12<00:04,  2.50it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:12<00:03,  2.56it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:13<00:03,  2.52it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:13<00:02,  2.55it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:13<00:02,  2.57it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:14<00:01,  2.52it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:14<00:01,  2.53it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:15<00:01,  2.52it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:15<00:00,  2.51it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:15<00:00,  2.55it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:16<00:00,  2.01it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995336532592773, 'eval_runtime': 79.7476, 'eval_samples_per_second': 148.682, 'eval_steps_per_second': 2.332, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 2.09}
 70%|███████████████████████████████████████████████████████████████████████▉                               | 2000/2865 [2:08:25<44:11,  3.07s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:16<00:00,  2.01it/s][A
                                                                                                                                                  [A[2025-10-12 05:17:17,885] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2000
 70%|██████████████████████████████████████████████████████████████████████▌                              | 2001/2865 [2:08:36<7:00:46, 29.22s/it]                                                                                                                                                  {'loss': 11.0019, 'grad_norm': 1.1328125, 'learning_rate': 1.264092193034648e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 18886.92, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▌                              | 2001/2865 [2:08:36<7:00:46, 29.22s/it] 70%|██████████████████████████████████████████████████████████████████████▌                              | 2002/2865 [2:08:39<5:08:35, 21.45s/it]                                                                                                                                                  {'loss': 11.0219, 'grad_norm': 1.1171875, 'learning_rate': 1.2614459153718439e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 18917.31, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▌                              | 2002/2865 [2:08:39<5:08:35, 21.45s/it] 70%|██████████████████████████████████████████████████████████████████████▌                              | 2003/2865 [2:08:43<3:53:25, 16.25s/it]                                                                                                                                                  {'loss': 11.0073, 'grad_norm': 1.0390625, 'learning_rate': 1.2588014755671684e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 16166.89, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▌                              | 2003/2865 [2:08:43<3:53:25, 16.25s/it] 70%|██████████████████████████████████████████████████████████████████████▋                              | 2004/2865 [2:08:47<3:00:48, 12.60s/it]                                                                                                                                                  {'loss': 11.0035, 'grad_norm': 1.109375, 'learning_rate': 1.2561588775446353e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15906.22, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▋                              | 2004/2865 [2:08:47<3:00:48, 12.60s/it] 70%|██████████████████████████████████████████████████████████████████████▋                              | 2005/2865 [2:08:51<2:23:57, 10.04s/it]                                                                                                                                                  {'loss': 11.0191, 'grad_norm': 1.03125, 'learning_rate': 1.253518125225529e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 14571.79, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▋                              | 2005/2865 [2:08:51<2:23:57, 10.04s/it] 70%|██████████████████████████████████████████████████████████████████████▋                              | 2006/2865 [2:08:55<1:58:20,  8.27s/it]                                                                                                                                                  {'loss': 11.0274, 'grad_norm': 1.1171875, 'learning_rate': 1.2508792225283907e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15859.86, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▋                              | 2006/2865 [2:08:55<1:58:20,  8.27s/it] 70%|██████████████████████████████████████████████████████████████████████▊                              | 2007/2865 [2:08:59<1:40:16,  7.01s/it]                                                                                                                                                  {'loss': 11.006, 'grad_norm': 1.0390625, 'learning_rate': 1.2482421733690217e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 14841.44, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▊                              | 2007/2865 [2:08:59<1:40:16,  7.01s/it] 70%|██████████████████████████████████████████████████████████████████████▊                              | 2008/2865 [2:09:03<1:27:44,  6.14s/it]                                                                                                                                                  {'loss': 11.0332, 'grad_norm': 1.03125, 'learning_rate': 1.2456069816604692e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15870.52, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▊                              | 2008/2865 [2:09:03<1:27:44,  6.14s/it] 70%|██████████████████████████████████████████████████████████████████████▊                              | 2009/2865 [2:09:08<1:18:53,  5.53s/it]                                                                                                                                                  {'loss': 11.0, 'grad_norm': 1.1015625, 'learning_rate': 1.2429736513130246e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 14888.32, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▊                              | 2009/2865 [2:09:08<1:18:53,  5.53s/it] 70%|██████████████████████████████████████████████████████████████████████▊                              | 2010/2865 [2:09:12<1:12:46,  5.11s/it]                                                                                                                                                  {'loss': 11.0204, 'grad_norm': 1.0390625, 'learning_rate': 1.2403421862342205e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15961.24, 'epoch': 2.1}
 70%|██████████████████████████████████████████████████████████████████████▊                              | 2010/2865 [2:09:12<1:12:46,  5.11s/it] 70%|██████████████████████████████████████████████████████████████████████▉                              | 2011/2865 [2:09:16<1:08:08,  4.79s/it]                                                                                                                                                  {'loss': 11.0124, 'grad_norm': 1.0234375, 'learning_rate': 1.237712590328817e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15483.11, 'epoch': 2.11}
 70%|██████████████████████████████████████████████████████████████████████▉                              | 2011/2865 [2:09:16<1:08:08,  4.79s/it] 70%|██████████████████████████████████████████████████████████████████████▉                              | 2012/2865 [2:09:19<1:00:31,  4.26s/it]                                                                                                                                                  {'loss': 11.0062, 'grad_norm': 1.0234375, 'learning_rate': 1.2350848674988047e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21816.92, 'epoch': 2.11}
 70%|██████████████████████████████████████████████████████████████████████▉                              | 2012/2865 [2:09:19<1:00:31,  4.26s/it] 70%|████████████████████████████████████████████████████████████████████████▎                              | 2013/2865 [2:09:22<54:58,  3.87s/it]                                                                                                                                                  {'loss': 11.0415, 'grad_norm': 1.125, 'learning_rate': 1.2324590216433914e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21429.92, 'epoch': 2.11}
 70%|████████████████████████████████████████████████████████████████████████▎                              | 2013/2865 [2:09:22<54:58,  3.87s/it] 70%|████████████████████████████████████████████████████████████████████████▍                              | 2014/2865 [2:09:25<51:03,  3.60s/it]                                                                                                                                                  {'loss': 11.0125, 'grad_norm': 1.03125, 'learning_rate': 1.2298350566590036e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22213.89, 'epoch': 2.11}
 70%|████████████████████████████████████████████████████████████████████████▍                              | 2014/2865 [2:09:25<51:03,  3.60s/it] 70%|████████████████████████████████████████████████████████████████████████▍                              | 2015/2865 [2:09:28<48:19,  3.41s/it]                                                                                                                                                  {'loss': 11.0433, 'grad_norm': 1.0703125, 'learning_rate': 1.2272129764392728e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21962.44, 'epoch': 2.11}
 70%|████████████████████████████████████████████████████████████████████████▍                              | 2015/2865 [2:09:28<48:19,  3.41s/it] 70%|████████████████████████████████████████████████████████████████████████▍                              | 2016/2865 [2:09:31<46:20,  3.28s/it]                                                                                                                                                  {'loss': 11.0173, 'grad_norm': 1.0390625, 'learning_rate': 1.2245927848750352e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20933.51, 'epoch': 2.11}
 70%|████████████████████████████████████████████████████████████████████████▍                              | 2016/2865 [2:09:31<46:20,  3.28s/it] 70%|████████████████████████████████████████████████████████████████████████▌                              | 2017/2865 [2:09:34<44:58,  3.18s/it]                                                                                                                                                  {'loss': 11.0329, 'grad_norm': 1.1171875, 'learning_rate': 1.2219744858543264e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22436.02, 'epoch': 2.11}
 70%|████████████████████████████████████████████████████████████████████████▌                              | 2017/2865 [2:09:34<44:58,  3.18s/it] 70%|████████████████████████████████████████████████████████████████████████▌                              | 2018/2865 [2:09:37<43:55,  3.11s/it]                                                                                                                                                  {'loss': 10.9935, 'grad_norm': 1.109375, 'learning_rate': 1.2193580832623702e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20942.57, 'epoch': 2.11}
 70%|████████████████████████████████████████████████████████████████████████▌                              | 2018/2865 [2:09:37<43:55,  3.11s/it] 70%|████████████████████████████████████████████████████████████████████████▌                              | 2019/2865 [2:09:39<43:12,  3.06s/it]                                                                                                                                                  {'loss': 11.0263, 'grad_norm': 1.03125, 'learning_rate': 1.2167435809815799e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21437.63, 'epoch': 2.11}
 70%|████████████████████████████████████████████████████████████████████████▌                              | 2019/2865 [2:09:39<43:12,  3.06s/it] 71%|████████████████████████████████████████████████████████████████████████▌                              | 2020/2865 [2:09:42<42:40,  3.03s/it]                                                                                                                                                  {'loss': 11.0145, 'grad_norm': 1.0546875, 'learning_rate': 1.214130982891546e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21428.52, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▌                              | 2020/2865 [2:09:42<42:40,  3.03s/it] 71%|████████████████████████████████████████████████████████████████████████▋                              | 2021/2865 [2:09:45<42:18,  3.01s/it]                                                                                                                                                  {'loss': 11.0092, 'grad_norm': 1.0234375, 'learning_rate': 1.2115202928690362e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22025.96, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▋                              | 2021/2865 [2:09:45<42:18,  3.01s/it] 71%|████████████████████████████████████████████████████████████████████████▋                              | 2022/2865 [2:09:48<42:03,  2.99s/it]                                                                                                                                                  {'loss': 11.0265, 'grad_norm': 1.1328125, 'learning_rate': 1.2089115147879833e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21417.5, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▋                              | 2022/2865 [2:09:48<42:03,  2.99s/it] 71%|████████████████████████████████████████████████████████████████████████▋                              | 2023/2865 [2:09:51<41:50,  2.98s/it]                                                                                                                                                  {'loss': 11.0255, 'grad_norm': 1.0390625, 'learning_rate': 1.2063046525194877e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22231.2, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▋                              | 2023/2865 [2:09:51<41:50,  2.98s/it] 71%|████████████████████████████████████████████████████████████████████████▊                              | 2024/2865 [2:09:54<41:40,  2.97s/it]                                                                                                                                                  {'loss': 11.0256, 'grad_norm': 1.03125, 'learning_rate': 1.2036997099318018e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21720.07, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▊                              | 2024/2865 [2:09:54<41:40,  2.97s/it] 71%|████████████████████████████████████████████████████████████████████████▊                              | 2025/2865 [2:09:57<41:33,  2.97s/it]                                                                                                                                                  {'loss': 11.0312, 'grad_norm': 1.0234375, 'learning_rate': 1.201096690890334e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21691.02, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▊                              | 2025/2865 [2:09:57<41:33,  2.97s/it] 71%|████████████████████████████████████████████████████████████████████████▊                              | 2026/2865 [2:10:00<41:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0165, 'grad_norm': 1.0234375, 'learning_rate': 1.198495599257635e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20089.42, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▊                              | 2026/2865 [2:10:00<41:26,  2.96s/it] 71%|████████████████████████████████████████████████████████████████████████▊                              | 2027/2865 [2:10:03<41:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0215, 'grad_norm': 1.0390625, 'learning_rate': 1.1958964388933972e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22098.5, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▊                              | 2027/2865 [2:10:03<41:22,  2.96s/it] 71%|████████████████████████████████████████████████████████████████████████▉                              | 2028/2865 [2:10:06<41:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0055, 'grad_norm': 1.1328125, 'learning_rate': 1.1932992136544483e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21370.45, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▉                              | 2028/2865 [2:10:06<41:15,  2.96s/it] 71%|████████████████████████████████████████████████████████████████████████▉                              | 2029/2865 [2:10:09<41:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0397, 'grad_norm': 1.0625, 'learning_rate': 1.1907039273947412e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20477.75, 'epoch': 2.12}
 71%|████████████████████████████████████████████████████████████████████████▉                              | 2029/2865 [2:10:09<41:11,  2.96s/it] 71%|████████████████████████████████████████████████████████████████████████▉                              | 2030/2865 [2:10:12<41:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0064, 'grad_norm': 1.140625, 'learning_rate': 1.1881105839653553e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20209.45, 'epoch': 2.13}
 71%|████████████████████████████████████████████████████████████████████████▉                              | 2030/2865 [2:10:12<41:09,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████                              | 2031/2865 [2:10:15<41:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0161, 'grad_norm': 1.0546875, 'learning_rate': 1.1855191872144836e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20372.13, 'epoch': 2.13}
 71%|█████████████████████████████████████████████████████████████████████████                              | 2031/2865 [2:10:15<41:06,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████                              | 2032/2865 [2:10:18<41:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0181, 'grad_norm': 1.0859375, 'learning_rate': 1.1829297409874338e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22461.86, 'epoch': 2.13}
 71%|█████████████████████████████████████████████████████████████████████████                              | 2032/2865 [2:10:18<41:05,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████                              | 2033/2865 [2:10:21<41:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0016, 'grad_norm': 1.0625, 'learning_rate': 1.1803422491266172e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21193.72, 'epoch': 2.13}
 71%|█████████████████████████████████████████████████████████████████████████                              | 2033/2865 [2:10:21<41:04,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████                              | 2034/2865 [2:10:24<40:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0144, 'grad_norm': 1.0546875, 'learning_rate': 1.177756715471544e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21526.75, 'epoch': 2.13}
 71%|█████████████████████████████████████████████████████████████████████████                              | 2034/2865 [2:10:24<40:58,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▏                             | 2035/2865 [2:10:27<40:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0352, 'grad_norm': 1.125, 'learning_rate': 1.1751731438588228e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21159.91, 'epoch': 2.13}
 71%|█████████████████████████████████████████████████████████████████████████▏                             | 2035/2865 [2:10:27<40:56,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▏                             | 2036/2865 [2:10:30<40:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0161, 'grad_norm': 1.0625, 'learning_rate': 1.1725915381221459e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21097.81, 'epoch': 2.13}
 71%|█████████████████████████████████████████████████████████████████████████▏                             | 2036/2865 [2:10:30<40:53,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▏                             | 2037/2865 [2:10:33<40:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0192, 'grad_norm': 1.03125, 'learning_rate': 1.1700119020922922e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22138.73, 'epoch': 2.13}
 71%|█████████████████████████████████████████████████████████████████████████▏                             | 2037/2865 [2:10:33<40:50,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▎                             | 2038/2865 [2:10:36<40:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0154, 'grad_norm': 1.0234375, 'learning_rate': 1.1674342395971155e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20633.7, 'epoch': 2.13}
 71%|█████████████████████████████████████████████████████████████████████████▎                             | 2038/2865 [2:10:36<40:46,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▎                             | 2039/2865 [2:10:39<40:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0205, 'grad_norm': 1.046875, 'learning_rate': 1.1648585544615432e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21920.89, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▎                             | 2039/2865 [2:10:39<40:44,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▎                             | 2040/2865 [2:10:42<40:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0231, 'grad_norm': 1.0390625, 'learning_rate': 1.1622848505075665e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21581.71, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▎                             | 2040/2865 [2:10:42<40:42,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▍                             | 2041/2865 [2:10:45<40:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0032, 'grad_norm': 1.0234375, 'learning_rate': 1.1597131315542368e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22845.93, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▍                             | 2041/2865 [2:10:45<40:41,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▍                             | 2042/2865 [2:10:48<40:38,  2.96s/it]                                                                                                                                                  {'loss': 11.021, 'grad_norm': 1.125, 'learning_rate': 1.1571434014176625e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21748.77, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▍                             | 2042/2865 [2:10:48<40:38,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▍                             | 2043/2865 [2:10:50<40:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0121, 'grad_norm': 1.1953125, 'learning_rate': 1.1545756639109976e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22027.14, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▍                             | 2043/2865 [2:10:50<40:36,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▍                             | 2044/2865 [2:10:53<40:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.046875, 'learning_rate': 1.1520099228444426e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20923.44, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▍                             | 2044/2865 [2:10:53<40:30,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▌                             | 2045/2865 [2:10:56<40:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.078125, 'learning_rate': 1.1494461820252317e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21459.24, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▌                             | 2045/2865 [2:10:56<40:25,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▌                             | 2046/2865 [2:10:59<40:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0194, 'grad_norm': 1.03125, 'learning_rate': 1.1468844452576354e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21586.09, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▌                             | 2046/2865 [2:10:59<40:21,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▌                             | 2047/2865 [2:11:02<40:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0367, 'grad_norm': 1.0390625, 'learning_rate': 1.144324716342946e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21081.7, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▌                             | 2047/2865 [2:11:02<40:17,  2.96s/it] 71%|█████████████████████████████████████████████████████████████████████████▋                             | 2048/2865 [2:11:05<40:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0309, 'grad_norm': 1.0390625, 'learning_rate': 1.1417669990794805e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22228.57, 'epoch': 2.14}
 71%|█████████████████████████████████████████████████████████████████████████▋                             | 2048/2865 [2:11:05<40:16,  2.96s/it] 72%|█████████████████████████████████████████████████████████████████████████▋                             | 2049/2865 [2:11:08<40:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0196, 'grad_norm': 1.03125, 'learning_rate': 1.1392112972625678e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21681.01, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▋                             | 2049/2865 [2:11:08<40:13,  2.96s/it] 72%|█████████████████████████████████████████████████████████████████████████▋                             | 2050/2865 [2:11:11<40:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0032, 'grad_norm': 1.0703125, 'learning_rate': 1.1366576146845467e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20211.67, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▋                             | 2050/2865 [2:11:11<40:09,  2.96s/it] 72%|█████████████████████████████████████████████████████████████████████████▋                             | 2051/2865 [2:11:14<40:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0035, 'grad_norm': 1.03125, 'learning_rate': 1.1341059551347616e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21037.03, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▋                             | 2051/2865 [2:11:14<40:05,  2.96s/it] 72%|█████████████████████████████████████████████████████████████████████████▊                             | 2052/2865 [2:11:17<40:00,  2.95s/it]                                                                                                                                                  {'loss': 10.9928, 'grad_norm': 1.359375, 'learning_rate': 1.1315563223995518e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20327.4, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▊                             | 2052/2865 [2:11:17<40:00,  2.95s/it] 72%|█████████████████████████████████████████████████████████████████████████▊                             | 2053/2865 [2:11:20<40:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0175, 'grad_norm': 1.1484375, 'learning_rate': 1.1290087202622529e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22995.89, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▊                             | 2053/2865 [2:11:20<40:00,  2.96s/it] 72%|█████████████████████████████████████████████████████████████████████████▊                             | 2054/2865 [2:11:23<39:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0425, 'grad_norm': 1.046875, 'learning_rate': 1.1264631525031834e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21049.41, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▊                             | 2054/2865 [2:11:23<39:59,  2.96s/it] 72%|█████████████████████████████████████████████████████████████████████████▉                             | 2055/2865 [2:11:26<39:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0134, 'grad_norm': 1.0703125, 'learning_rate': 1.1239196228996468e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20769.67, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▉                             | 2055/2865 [2:11:26<39:55,  2.96s/it] 72%|█████████████████████████████████████████████████████████████████████████▉                             | 2056/2865 [2:11:29<39:52,  2.96s/it]                                                                                                                                                  {'loss': 11.012, 'grad_norm': 1.234375, 'learning_rate': 1.1213781352259187e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21562.75, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▉                             | 2056/2865 [2:11:29<39:52,  2.96s/it] 72%|█████████████████████████████████████████████████████████████████████████▉                             | 2057/2865 [2:11:32<39:47,  2.95s/it]                                                                                                                                                  {'loss': 11.0373, 'grad_norm': 1.046875, 'learning_rate': 1.118838693253248e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21316.71, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▉                             | 2057/2865 [2:11:32<39:47,  2.95s/it] 72%|█████████████████████████████████████████████████████████████████████████▉                             | 2058/2865 [2:11:35<39:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0192, 'grad_norm': 1.046875, 'learning_rate': 1.1163013007498458e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23644.85, 'epoch': 2.15}
 72%|█████████████████████████████████████████████████████████████████████████▉                             | 2058/2865 [2:11:35<39:49,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████                             | 2059/2865 [2:11:38<39:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0175, 'grad_norm': 1.0234375, 'learning_rate': 1.1137659614808815e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22177.18, 'epoch': 2.16}
 72%|██████████████████████████████████████████████████████████████████████████                             | 2059/2865 [2:11:38<39:45,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████                             | 2060/2865 [2:11:41<39:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0171, 'grad_norm': 1.0546875, 'learning_rate': 1.1112326792084812e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22617.86, 'epoch': 2.16}
 72%|██████████████████████████████████████████████████████████████████████████                             | 2060/2865 [2:11:41<39:44,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████                             | 2061/2865 [2:11:44<39:38,  2.96s/it]                                                                                                                                                  {'loss': 10.9993, 'grad_norm': 1.2734375, 'learning_rate': 1.1087014576917143e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21132.7, 'epoch': 2.16}
 72%|██████████████████████████████████████████████████████████████████████████                             | 2061/2865 [2:11:44<39:38,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▏                            | 2062/2865 [2:11:47<39:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0243, 'grad_norm': 1.0234375, 'learning_rate': 1.1061723006865953e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21214.82, 'epoch': 2.16}
 72%|██████████████████████████████████████████████████████████████████████████▏                            | 2062/2865 [2:11:47<39:34,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▏                            | 2063/2865 [2:11:50<39:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0127, 'grad_norm': 1.046875, 'learning_rate': 1.1036452119460755e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20253.54, 'epoch': 2.16}
 72%|██████████████████████████████████████████████████████████████████████████▏                            | 2063/2865 [2:11:50<39:33,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▏                            | 2064/2865 [2:11:53<39:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0149, 'grad_norm': 1.0625, 'learning_rate': 1.101120195220034e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20723.67, 'epoch': 2.16}
 72%|██████████████████████████████████████████████████████████████████████████▏                            | 2064/2865 [2:11:53<39:32,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▏                            | 2065/2865 [2:11:56<39:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0133, 'grad_norm': 1.2578125, 'learning_rate': 1.0985972542552795e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21268.39, 'epoch': 2.16}
 72%|██████████████████████████████████████████████████████████████████████████▏                            | 2065/2865 [2:11:56<39:29,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▎                            | 2066/2865 [2:11:58<39:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0112, 'grad_norm': 1.0859375, 'learning_rate': 1.0960763927955362e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20830.52, 'epoch': 2.16}
 72%|██████████████████████████████████████████████████████████████████████████▎                            | 2066/2865 [2:11:59<39:24,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▎                            | 2067/2865 [2:12:01<39:19,  2.96s/it]                                                                                                                                                  {'loss': 10.9954, 'grad_norm': 1.15625, 'learning_rate': 1.0935576145814464e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20492.91, 'epoch': 2.16}
 72%|██████████████████████████████████████████████████████████████████████████▎                            | 2067/2865 [2:12:01<39:19,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▎                            | 2068/2865 [2:12:04<39:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0126, 'grad_norm': 1.1015625, 'learning_rate': 1.091040923350558e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22883.58, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▎                            | 2068/2865 [2:12:04<39:19,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▍                            | 2069/2865 [2:12:07<39:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0141, 'grad_norm': 1.0859375, 'learning_rate': 1.0885263228373252e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21518.77, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▍                            | 2069/2865 [2:12:07<39:15,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▍                            | 2070/2865 [2:12:10<39:12,  2.96s/it]                                                                                                                                                  {'loss': 11.026, 'grad_norm': 1.0546875, 'learning_rate': 1.0860138167730965e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22403.38, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▍                            | 2070/2865 [2:12:10<39:12,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▍                            | 2071/2865 [2:12:13<39:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0136, 'grad_norm': 1.0703125, 'learning_rate': 1.0835034088861156e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21333.55, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▍                            | 2071/2865 [2:12:13<39:08,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▍                            | 2072/2865 [2:12:16<39:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.03125, 'learning_rate': 1.0809951029015101e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21550.42, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▍                            | 2072/2865 [2:12:16<39:06,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▌                            | 2073/2865 [2:12:19<39:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0177, 'grad_norm': 1.0859375, 'learning_rate': 1.0784889025412912e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22219.41, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▌                            | 2073/2865 [2:12:19<39:04,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▌                            | 2074/2865 [2:12:22<39:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0341, 'grad_norm': 1.0546875, 'learning_rate': 1.0759848115243431e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21569.86, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▌                            | 2074/2865 [2:12:22<39:01,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▌                            | 2075/2865 [2:12:25<38:56,  2.96s/it]                                                                                                                                                  {'loss': 10.9954, 'grad_norm': 1.09375, 'learning_rate': 1.0734828335664213e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21286.39, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▌                            | 2075/2865 [2:12:25<38:56,  2.96s/it] 72%|██████████████████████████████████████████████████████████████████████████▋                            | 2076/2865 [2:12:28<38:50,  2.95s/it]                                                                                                                                                  {'loss': 11.0151, 'grad_norm': 1.03125, 'learning_rate': 1.0709829723801468e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21522.82, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▋                            | 2076/2865 [2:12:28<38:50,  2.95s/it] 72%|██████████████████████████████████████████████████████████████████████████▋                            | 2077/2865 [2:12:31<38:46,  2.95s/it]                                                                                                                                                  {'loss': 11.0075, 'grad_norm': 1.0390625, 'learning_rate': 1.0684852316749968e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21410.77, 'epoch': 2.17}
 72%|██████████████████████████████████████████████████████████████████████████▋                            | 2077/2865 [2:12:31<38:46,  2.95s/it] 73%|██████████████████████████████████████████████████████████████████████████▋                            | 2078/2865 [2:12:34<38:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0426, 'grad_norm': 1.046875, 'learning_rate': 1.0659896151573055e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22575.56, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████▋                            | 2078/2865 [2:12:34<38:49,  2.96s/it] 73%|██████████████████████████████████████████████████████████████████████████▋                            | 2079/2865 [2:12:37<38:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0067, 'grad_norm': 1.0859375, 'learning_rate': 1.0634961265302512e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22461.47, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████▋                            | 2079/2865 [2:12:37<38:45,  2.96s/it] 73%|██████████████████████████████████████████████████████████████████████████▊                            | 2080/2865 [2:12:40<38:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0219, 'grad_norm': 1.1640625, 'learning_rate': 1.0610047694938585e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22144.22, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████▊                            | 2080/2865 [2:12:40<38:42,  2.96s/it] 73%|██████████████████████████████████████████████████████████████████████████▊                            | 2081/2865 [2:12:43<38:39,  2.96s/it]                                                                                                                                                  {'loss': 11.006, 'grad_norm': 1.0390625, 'learning_rate': 1.058515547744986e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21068.67, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████▊                            | 2081/2865 [2:12:43<38:39,  2.96s/it] 73%|██████████████████████████████████████████████████████████████████████████▊                            | 2082/2865 [2:12:46<38:34,  2.96s/it]                                                                                                                                                  {'loss': 11.009, 'grad_norm': 1.09375, 'learning_rate': 1.0560284649773259e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21660.47, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████▊                            | 2082/2865 [2:12:46<38:34,  2.96s/it] 73%|██████████████████████████████████████████████████████████████████████████▉                            | 2083/2865 [2:12:49<38:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0085, 'grad_norm': 1.03125, 'learning_rate': 1.0535435248813951e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21633.38, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████▉                            | 2083/2865 [2:12:49<38:32,  2.96s/it] 73%|██████████████████████████████████████████████████████████████████████████▉                            | 2084/2865 [2:12:52<38:26,  2.95s/it]                                                                                                                                                  {'loss': 11.0038, 'grad_norm': 1.09375, 'learning_rate': 1.0510607311445305e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20000.44, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████▉                            | 2084/2865 [2:12:52<38:26,  2.95s/it] 73%|██████████████████████████████████████████████████████████████████████████▉                            | 2085/2865 [2:12:55<38:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0272, 'grad_norm': 1.0546875, 'learning_rate': 1.0485800874508867e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21168.57, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████▉                            | 2085/2865 [2:12:55<38:25,  2.96s/it] 73%|██████████████████████████████████████████████████████████████████████████▉                            | 2086/2865 [2:12:58<38:20,  2.95s/it]                                                                                                                                                  {'loss': 11.0343, 'grad_norm': 1.1484375, 'learning_rate': 1.0461015974814245e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21661.07, 'epoch': 2.18}
 73%|██████████████████████████████████████████████████████████████████████████▉                            | 2086/2865 [2:12:58<38:20,  2.95s/it] 73%|███████████████████████████████████████████████████████████████████████████                            | 2087/2865 [2:13:01<38:18,  2.95s/it]                                                                                                                                                  {'loss': 11.0306, 'grad_norm': 1.0234375, 'learning_rate': 1.0436252649139124e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21039.32, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████                            | 2087/2865 [2:13:01<38:18,  2.95s/it] 73%|███████████████████████████████████████████████████████████████████████████                            | 2088/2865 [2:13:04<38:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0452, 'grad_norm': 1.0390625, 'learning_rate': 1.041151093422914e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20801.16, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████                            | 2088/2865 [2:13:04<38:16,  2.96s/it] 73%|███████████████████████████████████████████████████████████████████████████                            | 2089/2865 [2:13:07<38:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0148, 'grad_norm': 1.1015625, 'learning_rate': 1.0386790866797896e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21852.42, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████                            | 2089/2865 [2:13:07<38:14,  2.96s/it] 73%|███████████████████████████████████████████████████████████████████████████▏                           | 2090/2865 [2:13:09<38:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0056, 'grad_norm': 1.03125, 'learning_rate': 1.0362092483526847e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21898.1, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████▏                           | 2090/2865 [2:13:09<38:12,  2.96s/it] 73%|███████████████████████████████████████████████████████████████████████████▏                           | 2091/2865 [2:13:12<38:08,  2.96s/it]                                                                                                                                                  {'loss': 10.9983, 'grad_norm': 1.03125, 'learning_rate': 1.0337415821065275e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21293.36, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████▏                           | 2091/2865 [2:13:12<38:08,  2.96s/it] 73%|███████████████████████████████████████████████████████████████████████████▏                           | 2092/2865 [2:13:15<38:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0113, 'grad_norm': 1.0234375, 'learning_rate': 1.0312760916030245e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21080.61, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████▏                           | 2092/2865 [2:13:15<38:05,  2.96s/it] 73%|███████████████████████████████████████████████████████████████████████████▏                           | 2093/2865 [2:13:18<38:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0364, 'grad_norm': 1.0546875, 'learning_rate': 1.028812780500652e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20819.43, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████▏                           | 2093/2865 [2:13:18<38:02,  2.96s/it] 73%|███████████████████████████████████████████████████████████████████████████▎                           | 2094/2865 [2:13:21<37:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0292, 'grad_norm': 1.0703125, 'learning_rate': 1.0263516524546543e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21369.0, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████▎                           | 2094/2865 [2:13:21<37:58,  2.96s/it] 73%|███████████████████████████████████████████████████████████████████████████▎                           | 2095/2865 [2:13:24<37:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0046, 'grad_norm': 1.1484375, 'learning_rate': 1.0238927111170335e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20664.05, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████▎                           | 2095/2865 [2:13:24<37:53,  2.95s/it] 73%|███████████████████████████████████████████████████████████████████████████▎                           | 2096/2865 [2:13:27<37:52,  2.95s/it]                                                                                                                                                  {'loss': 11.0396, 'grad_norm': 1.0703125, 'learning_rate': 1.0214359601365506e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21082.0, 'epoch': 2.19}
 73%|███████████████████████████████████████████████████████████████████████████▎                           | 2096/2865 [2:13:27<37:52,  2.95s/it] 73%|███████████████████████████████████████████████████████████████████████████▍                           | 2097/2865 [2:13:30<37:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0256, 'grad_norm': 1.0390625, 'learning_rate': 1.0189814031587124e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22052.79, 'epoch': 2.2}
 73%|███████████████████████████████████████████████████████████████████████████▍                           | 2097/2865 [2:13:30<37:50,  2.96s/it] 73%|███████████████████████████████████████████████████████████████████████████▍                           | 2098/2865 [2:13:33<37:45,  2.95s/it]                                                                                                                                                  {'loss': 11.0426, 'grad_norm': 1.03125, 'learning_rate': 1.016529043825774e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20773.54, 'epoch': 2.2}
 73%|███████████████████████████████████████████████████████████████████████████▍                           | 2098/2865 [2:13:33<37:45,  2.95s/it] 73%|███████████████████████████████████████████████████████████████████████████▍                           | 2099/2865 [2:13:36<37:42,  2.95s/it]                                                                                                                                                  {'loss': 11.0051, 'grad_norm': 1.1015625, 'learning_rate': 1.0140788857767254e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21244.58, 'epoch': 2.2}
 73%|███████████████████████████████████████████████████████████████████████████▍                           | 2099/2865 [2:13:36<37:42,  2.95s/it] 73%|███████████████████████████████████████████████████████████████████████████▍                           | 2100/2865 [2:13:39<37:39,  2.95s/it]                                                                                                                                                  {'loss': 11.0302, 'grad_norm': 1.0859375, 'learning_rate': 1.0116309326472942e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21995.25, 'epoch': 2.2}
 73%|███████████████████████████████████████████████████████████████████████████▍                           | 2100/2865 [2:13:39<37:39,  2.95s/it][2025-10-12 05:22:31,838] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:15,  1.07s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:31,  1.20it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:00,  1.50it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:41,  1.77it/s][A
  3%|███▌                                                                                                         | 6/185 [00:03<01:31,  1.96it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:24,  2.12it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:19,  2.23it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:04<01:16,  2.30it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:13,  2.38it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:05<01:12,  2.41it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:07,  2.54it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:09,  2.46it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:06<01:07,  2.55it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.54it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:07<01:05,  2.59it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.51it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:05,  2.55it/s][A
 10%|███████████                                                                                                 | 19/185 [00:08<01:05,  2.52it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:05,  2.51it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:09<01:04,  2.55it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.52it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:04,  2.53it/s][A
 13%|██████████████                                                                                              | 24/185 [00:10<01:02,  2.56it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.56it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:02,  2.56it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:01,  2.56it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:00,  2.59it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:12<01:01,  2.55it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<00:59,  2.62it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<01:00,  2.55it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:13<01:00,  2.54it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:58,  2.58it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:14<00:58,  2.58it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:58,  2.56it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:58,  2.56it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:15<00:57,  2.59it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.57it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:16<00:55,  2.63it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:56,  2.58it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:55,  2.58it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:17<00:56,  2.54it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:55,  2.56it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:18<00:56,  2.51it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:55,  2.53it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:54,  2.56it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:19<00:53,  2.60it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.56it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:53,  2.54it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:20<00:52,  2.57it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:52,  2.54it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:21<00:52,  2.56it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:51,  2.57it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:51,  2.55it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:22<00:51,  2.54it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:50,  2.56it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:23<00:50,  2.52it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:49,  2.57it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:49,  2.57it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:24<00:49,  2.53it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:46,  2.68it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:25<00:49,  2.49it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.56it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:47,  2.54it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:26<00:46,  2.58it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.56it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:46,  2.56it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:27<00:43,  2.67it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.55it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:28<00:44,  2.56it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:45,  2.51it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:29<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:29<00:43,  2.56it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:43,  2.53it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:30<00:42,  2.57it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:41,  2.61it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:42,  2.54it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:31<00:42,  2.53it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.56it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:32<00:41,  2.56it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.60it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:40,  2.54it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:33<00:40,  2.55it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:40,  2.52it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:34<00:38,  2.57it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.59it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:38,  2.55it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:35<00:37,  2.58it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.53it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:36<00:36,  2.57it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:37,  2.53it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:35,  2.65it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:37<00:35,  2.56it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.54it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:38<00:35,  2.54it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:38<00:35,  2.53it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:33,  2.59it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:39<00:34,  2.53it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.54it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:34,  2.49it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:40<00:32,  2.56it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:31,  2.63it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:41<00:32,  2.50it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.55it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.53it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:42<00:31,  2.53it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.60it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:43<00:30,  2.56it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.57it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.54it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:44<00:29,  2.54it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:27,  2.61it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:28,  2.53it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.54it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.53it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:46<00:27,  2.56it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:26,  2.57it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:47<00:25,  2.54it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.53it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:48<00:24,  2.58it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.53it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.53it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:49<00:23,  2.55it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.56it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:50<00:23,  2.53it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.56it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:22,  2.52it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:51<00:22,  2.53it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.56it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:52<00:20,  2.59it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.53it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:19,  2.62it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:53<00:19,  2.62it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.52it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:19,  2.57it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.54it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.51it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:55<00:17,  2.58it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.55it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:16,  2.65it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:17,  2.51it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.53it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:57<00:15,  2.58it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.52it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.53it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:58<00:14,  2.54it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.54it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:59<00:13,  2.58it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.59it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:00<00:12,  2.55it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.52it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:01<00:12,  2.58it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.68it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.51it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:02<00:10,  2.60it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.50it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:03<00:10,  2.53it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.54it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.54it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:04<00:09,  2.55it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.60it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.54it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.55it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.56it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:06<00:06,  2.67it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.53it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:07<00:05,  2.53it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.55it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:08<00:04,  2.61it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.53it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.55it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:09<00:03,  2.54it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.53it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:10<00:03,  2.59it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.54it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.54it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:11<00:01,  2.59it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.68it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:12<00:01,  2.56it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.53it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.51it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.04it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995052337646484, 'eval_runtime': 78.4664, 'eval_samples_per_second': 151.109, 'eval_steps_per_second': 2.37, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 2.2}
 73%|███████████████████████████████████████████████████████████████████████████▍                           | 2100/2865 [2:14:58<37:39,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.04it/s][A
                                                                                                                                                  [A[2025-10-12 05:23:50,328] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2100
 73%|██████████████████████████████████████████████████████████████████████████                           | 2101/2865 [2:15:07<6:01:11, 28.37s/it]                                                                                                                                                  {'loss': 11.023, 'grad_norm': 1.03125, 'learning_rate': 1.0091851880699327e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 18953.0, 'epoch': 2.2}
 73%|██████████████████████████████████████████████████████████████████████████                           | 2101/2865 [2:15:07<6:01:11, 28.37s/it] 73%|██████████████████████████████████████████████████████████████████████████                           | 2102/2865 [2:15:10<4:23:45, 20.74s/it]                                                                                                                                                  {'loss': 11.0129, 'grad_norm': 1.046875, 'learning_rate': 1.006741655673818e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21740.4, 'epoch': 2.2}
 73%|██████████████████████████████████████████████████████████████████████████                           | 2102/2865 [2:15:10<4:23:45, 20.74s/it] 73%|██████████████████████████████████████████████████████████████████████████▏                          | 2103/2865 [2:15:13<3:15:36, 15.40s/it]                                                                                                                                                  {'loss': 11.0061, 'grad_norm': 1.109375, 'learning_rate': 1.0043003390848451e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22691.05, 'epoch': 2.2}
 73%|██████████████████████████████████████████████████████████████████████████▏                          | 2103/2865 [2:15:13<3:15:36, 15.40s/it] 73%|██████████████████████████████████████████████████████████████████████████▏                          | 2104/2865 [2:15:16<2:27:58, 11.67s/it]                                                                                                                                                  {'loss': 11.0234, 'grad_norm': 1.1015625, 'learning_rate': 1.0018612419256188e-05, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22606.53, 'epoch': 2.2}
 73%|██████████████████████████████████████████████████████████████████████████▏                          | 2104/2865 [2:15:16<2:27:58, 11.67s/it] 73%|██████████████████████████████████████████████████████████████████████████▏                          | 2105/2865 [2:15:18<1:54:40,  9.05s/it]                                                                                                                                                  {'loss': 11.0099, 'grad_norm': 1.0234375, 'learning_rate': 9.99424367815453e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21772.54, 'epoch': 2.2}
 73%|██████████████████████████████████████████████████████████████████████████▏                          | 2105/2865 [2:15:18<1:54:40,  9.05s/it] 74%|██████████████████████████████████████████████████████████████████████████▏                          | 2106/2865 [2:15:21<1:31:22,  7.22s/it]                                                                                                                                                  {'loss': 11.0317, 'grad_norm': 1.0390625, 'learning_rate': 9.969897203703602e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21471.91, 'epoch': 2.21}
 74%|██████████████████████████████████████████████████████████████████████████▏                          | 2106/2865 [2:15:21<1:31:22,  7.22s/it] 74%|██████████████████████████████████████████████████████████████████████████▎                          | 2107/2865 [2:15:24<1:15:04,  5.94s/it]                                                                                                                                                  {'loss': 11.0233, 'grad_norm': 1.046875, 'learning_rate': 9.94557303203052e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21407.55, 'epoch': 2.21}
 74%|██████████████████████████████████████████████████████████████████████████▎                          | 2107/2865 [2:15:24<1:15:04,  5.94s/it] 74%|██████████████████████████████████████████████████████████████████████████▎                          | 2108/2865 [2:15:27<1:03:41,  5.05s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.0234375, 'learning_rate': 9.92127119922928e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20472.44, 'epoch': 2.21}
 74%|██████████████████████████████████████████████████████████████████████████▎                          | 2108/2865 [2:15:27<1:03:41,  5.05s/it] 74%|███████████████████████████████████████████████████████████████████████████▊                           | 2109/2865 [2:15:30<55:45,  4.42s/it]                                                                                                                                                  {'loss': 11.0164, 'grad_norm': 1.0390625, 'learning_rate': 9.896991741360726e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22926.19, 'epoch': 2.21}
 74%|███████████████████████████████████████████████████████████████████████████▊                           | 2109/2865 [2:15:30<55:45,  4.42s/it] 74%|███████████████████████████████████████████████████████████████████████████▊                           | 2110/2865 [2:15:33<50:08,  3.98s/it]                                                                                                                                                  {'loss': 11.0231, 'grad_norm': 1.0390625, 'learning_rate': 9.872734694452534e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22400.33, 'epoch': 2.21}
 74%|███████████████████████████████████████████████████████████████████████████▊                           | 2110/2865 [2:15:33<50:08,  3.98s/it] 74%|███████████████████████████████████████████████████████████████████████████▉                           | 2111/2865 [2:15:36<46:12,  3.68s/it]                                                                                                                                                  {'loss': 11.0154, 'grad_norm': 1.03125, 'learning_rate': 9.848500094499089e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21118.39, 'epoch': 2.21}
 74%|███████████████████████████████████████████████████████████████████████████▉                           | 2111/2865 [2:15:36<46:12,  3.68s/it] 74%|███████████████████████████████████████████████████████████████████████████▉                           | 2112/2865 [2:15:39<43:27,  3.46s/it]                                                                                                                                                  {'loss': 11.0127, 'grad_norm': 1.0234375, 'learning_rate': 9.824287977461494e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22772.45, 'epoch': 2.21}
 74%|███████████████████████████████████████████████████████████████████████████▉                           | 2112/2865 [2:15:39<43:27,  3.46s/it] 74%|███████████████████████████████████████████████████████████████████████████▉                           | 2113/2865 [2:15:42<41:31,  3.31s/it]                                                                                                                                                  {'loss': 11.0103, 'grad_norm': 1.0234375, 'learning_rate': 9.800098379267463e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20020.67, 'epoch': 2.21}
 74%|███████████████████████████████████████████████████████████████████████████▉                           | 2113/2865 [2:15:42<41:31,  3.31s/it] 74%|████████████████████████████████████████████████████████████████████████████                           | 2114/2865 [2:15:45<40:07,  3.21s/it]                                                                                                                                                  {'loss': 11.0165, 'grad_norm': 1.1328125, 'learning_rate': 9.77593133581133e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21729.93, 'epoch': 2.21}
 74%|████████████████████████████████████████████████████████████████████████████                           | 2114/2865 [2:15:45<40:07,  3.21s/it] 74%|████████████████████████████████████████████████████████████████████████████                           | 2115/2865 [2:15:48<39:08,  3.13s/it]                                                                                                                                                  {'loss': 11.0215, 'grad_norm': 1.0703125, 'learning_rate': 9.751786882953931e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22253.93, 'epoch': 2.21}
 74%|████████████████████████████████████████████████████████████████████████████                           | 2115/2865 [2:15:48<39:08,  3.13s/it] 74%|████████████████████████████████████████████████████████████████████████████                           | 2116/2865 [2:15:51<38:26,  3.08s/it]                                                                                                                                                  {'loss': 10.9954, 'grad_norm': 1.1796875, 'learning_rate': 9.727665056522577e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20581.34, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████                           | 2116/2865 [2:15:51<38:26,  3.08s/it] 74%|████████████████████████████████████████████████████████████████████████████                           | 2117/2865 [2:15:54<37:56,  3.04s/it]                                                                                                                                                  {'loss': 11.0226, 'grad_norm': 1.0703125, 'learning_rate': 9.703565892311045e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20677.77, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████                           | 2117/2865 [2:15:54<37:56,  3.04s/it] 74%|████████████████████████████████████████████████████████████████████████████▏                          | 2118/2865 [2:15:57<37:36,  3.02s/it]                                                                                                                                                  {'loss': 11.0081, 'grad_norm': 1.046875, 'learning_rate': 9.67948942607943e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22142.22, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████▏                          | 2118/2865 [2:15:57<37:36,  3.02s/it] 74%|████████████████████████████████████████████████████████████████████████████▏                          | 2119/2865 [2:16:00<37:17,  3.00s/it]                                                                                                                                                  {'loss': 11.0182, 'grad_norm': 1.0390625, 'learning_rate': 9.655435693554194e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21644.45, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████▏                          | 2119/2865 [2:16:00<37:17,  3.00s/it] 74%|████████████████████████████████████████████████████████████████████████████▏                          | 2120/2865 [2:16:03<37:05,  2.99s/it]                                                                                                                                                  {'loss': 11.0362, 'grad_norm': 1.03125, 'learning_rate': 9.631404730428025e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21623.47, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████▏                          | 2120/2865 [2:16:03<37:05,  2.99s/it] 74%|████████████████████████████████████████████████████████████████████████████▎                          | 2121/2865 [2:16:06<36:55,  2.98s/it]                                                                                                                                                  {'loss': 11.0151, 'grad_norm': 1.0234375, 'learning_rate': 9.607396572359864e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21315.5, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████▎                          | 2121/2865 [2:16:06<36:55,  2.98s/it] 74%|████████████████████████████████████████████████████████████████████████████▎                          | 2122/2865 [2:16:09<36:49,  2.97s/it]                                                                                                                                                  {'loss': 11.0054, 'grad_norm': 1.0546875, 'learning_rate': 9.583411254974766e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20718.37, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████▎                          | 2122/2865 [2:16:09<36:49,  2.97s/it] 74%|████████████████████████████████████████████████████████████████████████████▎                          | 2123/2865 [2:16:12<36:41,  2.97s/it]                                                                                                                                                  {'loss': 10.9994, 'grad_norm': 1.2890625, 'learning_rate': 9.559448813863947e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20843.27, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████▎                          | 2123/2865 [2:16:12<36:41,  2.97s/it] 74%|████████████████████████████████████████████████████████████████████████████▎                          | 2124/2865 [2:16:15<36:34,  2.96s/it]                                                                                                                                                  {'loss': 11.019, 'grad_norm': 1.171875, 'learning_rate': 9.535509284584632e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21066.38, 'epoch': 2.22}
 74%|████████████████████████████████████████████████████████████████████████████▎                          | 2124/2865 [2:16:15<36:34,  2.96s/it] 74%|████████████████████████████████████████████████████████████████████████████▍                          | 2125/2865 [2:16:18<36:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0432, 'grad_norm': 1.09375, 'learning_rate': 9.511592702660054e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22609.86, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▍                          | 2125/2865 [2:16:18<36:31,  2.96s/it] 74%|████████████████████████████████████████████████████████████████████████████▍                          | 2126/2865 [2:16:21<36:26,  2.96s/it]                                                                                                                                                  {'loss': 11.029, 'grad_norm': 1.0625, 'learning_rate': 9.48769910357943e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19906.74, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▍                          | 2126/2865 [2:16:21<36:26,  2.96s/it] 74%|████████████████████████████████████████████████████████████████████████████▍                          | 2127/2865 [2:16:24<36:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0231, 'grad_norm': 1.0625, 'learning_rate': 9.46382852279783e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22022.99, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▍                          | 2127/2865 [2:16:24<36:22,  2.96s/it] 74%|████████████████████████████████████████████████████████████████████████████▌                          | 2128/2865 [2:16:27<36:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0264, 'grad_norm': 1.0390625, 'learning_rate': 9.4399809957362e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21898.89, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▌                          | 2128/2865 [2:16:27<36:19,  2.96s/it] 74%|████████████████████████████████████████████████████████████████████████████▌                          | 2129/2865 [2:16:29<36:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.0625, 'learning_rate': 9.416156557781253e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20791.15, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▌                          | 2129/2865 [2:16:29<36:17,  2.96s/it] 74%|████████████████████████████████████████████████████████████████████████████▌                          | 2130/2865 [2:16:32<36:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0105, 'grad_norm': 1.0390625, 'learning_rate': 9.392355244285461e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21515.89, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▌                          | 2130/2865 [2:16:32<36:12,  2.96s/it] 74%|████████████████████████████████████████████████████████████████████████████▌                          | 2131/2865 [2:16:35<36:08,  2.95s/it]                                                                                                                                                  {'loss': 11.0149, 'grad_norm': 1.1640625, 'learning_rate': 9.36857709056696e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21182.67, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▌                          | 2131/2865 [2:16:35<36:08,  2.95s/it] 74%|████████████████████████████████████████████████████████████████████████████▋                          | 2132/2865 [2:16:38<36:05,  2.95s/it]                                                                                                                                                  {'loss': 11.032, 'grad_norm': 1.046875, 'learning_rate': 9.34482213190955e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21834.41, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▋                          | 2132/2865 [2:16:38<36:05,  2.95s/it] 74%|████████████████████████████████████████████████████████████████████████████▋                          | 2133/2865 [2:16:41<36:01,  2.95s/it]                                                                                                                                                  {'loss': 11.0111, 'grad_norm': 1.0234375, 'learning_rate': 9.321090403562589e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21719.93, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▋                          | 2133/2865 [2:16:41<36:01,  2.95s/it] 74%|████████████████████████████████████████████████████████████████████████████▋                          | 2134/2865 [2:16:44<35:58,  2.95s/it]                                                                                                                                                  {'loss': 11.0178, 'grad_norm': 1.0625, 'learning_rate': 9.297381940740954e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21675.21, 'epoch': 2.23}
 74%|████████████████████████████████████████████████████████████████████████████▋                          | 2134/2865 [2:16:44<35:58,  2.95s/it] 75%|████████████████████████████████████████████████████████████████████████████▊                          | 2135/2865 [2:16:47<36:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0291, 'grad_norm': 1.0625, 'learning_rate': 9.27369677862503e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20874.99, 'epoch': 2.24}
 75%|████████████████████████████████████████████████████████████████████████████▊                          | 2135/2865 [2:16:47<36:00,  2.96s/it] 75%|████████████████████████████████████████████████████████████████████████████▊                          | 2136/2865 [2:16:50<35:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0269, 'grad_norm': 1.03125, 'learning_rate': 9.25003495236062e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22212.14, 'epoch': 2.24}
 75%|████████████████████████████████████████████████████████████████████████████▊                          | 2136/2865 [2:16:50<35:57,  2.96s/it] 75%|████████████████████████████████████████████████████████████████████████████▊                          | 2137/2865 [2:16:53<35:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0192, 'grad_norm': 1.0390625, 'learning_rate': 9.22639649705887e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20037.97, 'epoch': 2.24}
 75%|████████████████████████████████████████████████████████████████████████████▊                          | 2137/2865 [2:16:53<35:53,  2.96s/it] 75%|████████████████████████████████████████████████████████████████████████████▊                          | 2138/2865 [2:16:56<35:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0124, 'grad_norm': 1.09375, 'learning_rate': 9.202781447796291e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20684.61, 'epoch': 2.24}
 75%|████████████████████████████████████████████████████████████████████████████▊                          | 2138/2865 [2:16:56<35:51,  2.96s/it] 75%|████████████████████████████████████████████████████████████████████████████▉                          | 2139/2865 [2:16:59<35:48,  2.96s/it]                                                                                                                                                  {'loss': 11.032, 'grad_norm': 1.03125, 'learning_rate': 9.179189839614616e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20665.15, 'epoch': 2.24}
 75%|████████████████████████████████████████████████████████████████████████████▉                          | 2139/2865 [2:16:59<35:48,  2.96s/it] 75%|████████████████████████████████████████████████████████████████████████████▉                          | 2140/2865 [2:17:02<35:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0074, 'grad_norm': 1.1015625, 'learning_rate': 9.155621707520839e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22021.01, 'epoch': 2.24}
 75%|████████████████████████████████████████████████████████████████████████████▉                          | 2140/2865 [2:17:02<35:45,  2.96s/it] 75%|████████████████████████████████████████████████████████████████████████████▉                          | 2141/2865 [2:17:05<35:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0323, 'grad_norm': 1.28125, 'learning_rate': 9.132077086487079e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20577.15, 'epoch': 2.24}
 75%|████████████████████████████████████████████████████████████████████████████▉                          | 2141/2865 [2:17:05<35:43,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████                          | 2142/2865 [2:17:08<35:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0095, 'grad_norm': 1.0234375, 'learning_rate': 9.1085560114506e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21090.93, 'epoch': 2.24}
 75%|█████████████████████████████████████████████████████████████████████████████                          | 2142/2865 [2:17:08<35:38,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████                          | 2143/2865 [2:17:11<35:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0075, 'grad_norm': 1.03125, 'learning_rate': 9.085058517313696e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21590.54, 'epoch': 2.24}
 75%|█████████████████████████████████████████████████████████████████████████████                          | 2143/2865 [2:17:11<35:36,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████                          | 2144/2865 [2:17:14<35:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0215, 'grad_norm': 1.0546875, 'learning_rate': 9.061584638943708e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21117.97, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████                          | 2144/2865 [2:17:14<35:31,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████                          | 2145/2865 [2:17:17<35:30,  2.96s/it]                                                                                                                                                  {'loss': 11.017, 'grad_norm': 1.0546875, 'learning_rate': 9.038134411172888e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22781.66, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████                          | 2145/2865 [2:17:17<35:30,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▏                         | 2146/2865 [2:17:20<35:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0228, 'grad_norm': 1.03125, 'learning_rate': 9.01470786879844e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20077.91, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████▏                         | 2146/2865 [2:17:20<35:27,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▏                         | 2147/2865 [2:17:23<35:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0302, 'grad_norm': 1.03125, 'learning_rate': 8.991305046582386e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21443.76, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████▏                         | 2147/2865 [2:17:23<35:23,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▏                         | 2148/2865 [2:17:26<35:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0104, 'grad_norm': 1.109375, 'learning_rate': 8.967925979251571e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20163.33, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████▏                         | 2148/2865 [2:17:26<35:22,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▎                         | 2149/2865 [2:17:29<35:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0316, 'grad_norm': 1.0546875, 'learning_rate': 8.944570701497581e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20132.61, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████▎                         | 2149/2865 [2:17:29<35:20,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▎                         | 2150/2865 [2:17:32<35:16,  2.96s/it]                                                                                                                                                  {'loss': 10.9959, 'grad_norm': 1.0625, 'learning_rate': 8.921239247976695e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22377.12, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████▎                         | 2150/2865 [2:17:32<35:16,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▎                         | 2151/2865 [2:17:35<35:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0302, 'grad_norm': 1.03125, 'learning_rate': 8.897931653309866e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20955.55, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████▎                         | 2151/2865 [2:17:35<35:12,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▎                         | 2152/2865 [2:17:37<35:07,  2.96s/it]                                                                                                                                                  {'loss': 10.987, 'grad_norm': 1.0859375, 'learning_rate': 8.87464795208261e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21487.87, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████▎                         | 2152/2865 [2:17:38<35:07,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▍                         | 2153/2865 [2:17:40<35:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0233, 'grad_norm': 1.0546875, 'learning_rate': 8.851388178845018e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21557.77, 'epoch': 2.25}
 75%|█████████████████████████████████████████████████████████████████████████████▍                         | 2153/2865 [2:17:40<35:06,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▍                         | 2154/2865 [2:17:43<35:02,  2.96s/it]                                                                                                                                                  {'loss': 10.9822, 'grad_norm': 1.203125, 'learning_rate': 8.82815236811165e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21721.67, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▍                         | 2154/2865 [2:17:43<35:02,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▍                         | 2155/2865 [2:17:46<34:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.09375, 'learning_rate': 8.804940554361533e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22082.84, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▍                         | 2155/2865 [2:17:46<34:58,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▌                         | 2156/2865 [2:17:49<34:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0046, 'grad_norm': 1.0390625, 'learning_rate': 8.781752772038058e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21933.55, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▌                         | 2156/2865 [2:17:49<34:58,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▌                         | 2157/2865 [2:17:52<34:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.1171875, 'learning_rate': 8.758589055548982e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21342.86, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▌                         | 2157/2865 [2:17:52<34:55,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▌                         | 2158/2865 [2:17:55<34:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0176, 'grad_norm': 1.109375, 'learning_rate': 8.735449439266338e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21971.22, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▌                         | 2158/2865 [2:17:55<34:51,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▌                         | 2159/2865 [2:17:58<34:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.0625, 'learning_rate': 8.712333957526391e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20982.83, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▌                         | 2159/2865 [2:17:58<34:47,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▋                         | 2160/2865 [2:18:01<34:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0506, 'grad_norm': 1.0390625, 'learning_rate': 8.689242644629613e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20710.39, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▋                         | 2160/2865 [2:18:01<34:46,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▋                         | 2161/2865 [2:18:04<34:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0121, 'grad_norm': 1.09375, 'learning_rate': 8.666175534840593e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21491.55, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▋                         | 2161/2865 [2:18:04<34:42,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▋                         | 2162/2865 [2:18:07<34:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0145, 'grad_norm': 1.3046875, 'learning_rate': 8.643132662388023e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21554.56, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▋                         | 2162/2865 [2:18:07<34:41,  2.96s/it] 75%|█████████████████████████████████████████████████████████████████████████████▊                         | 2163/2865 [2:18:10<34:41,  2.97s/it]                                                                                                                                                  {'loss': 11.0134, 'grad_norm': 1.1328125, 'learning_rate': 8.62011406146461e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21602.52, 'epoch': 2.26}
 75%|█████████████████████████████████████████████████████████████████████████████▊                         | 2163/2865 [2:18:10<34:41,  2.97s/it] 76%|█████████████████████████████████████████████████████████████████████████████▊                         | 2164/2865 [2:18:13<34:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0025, 'grad_norm': 1.0703125, 'learning_rate': 8.59711976622707e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20925.42, 'epoch': 2.27}
 76%|█████████████████████████████████████████████████████████████████████████████▊                         | 2164/2865 [2:18:13<34:36,  2.96s/it] 76%|█████████████████████████████████████████████████████████████████████████████▊                         | 2165/2865 [2:18:16<34:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0283, 'grad_norm': 1.03125, 'learning_rate': 8.574149810796028e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21393.17, 'epoch': 2.27}
 76%|█████████████████████████████████████████████████████████████████████████████▊                         | 2165/2865 [2:18:16<34:33,  2.96s/it] 76%|█████████████████████████████████████████████████████████████████████████████▊                         | 2166/2865 [2:18:19<34:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0089, 'grad_norm': 1.046875, 'learning_rate': 8.551204229255999e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20928.98, 'epoch': 2.27}
 76%|█████████████████████████████████████████████████████████████████████████████▊                         | 2166/2865 [2:18:19<34:28,  2.96s/it] 76%|█████████████████████████████████████████████████████████████████████████████▉                         | 2167/2865 [2:18:22<34:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0297, 'grad_norm': 1.0859375, 'learning_rate': 8.528283055655345e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22044.96, 'epoch': 2.27}
 76%|█████████████████████████████████████████████████████████████████████████████▉                         | 2167/2865 [2:18:22<34:24,  2.96s/it] 76%|█████████████████████████████████████████████████████████████████████████████▉                         | 2168/2865 [2:18:25<34:24,  2.96s/it]                                                                                                                                                  {'loss': 11.036, 'grad_norm': 1.3046875, 'learning_rate': 8.505386324006184e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21559.04, 'epoch': 2.27}
 76%|█████████████████████████████████████████████████████████████████████████████▉                         | 2168/2865 [2:18:25<34:24,  2.96s/it] 76%|█████████████████████████████████████████████████████████████████████████████▉                         | 2169/2865 [2:18:28<34:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0054, 'grad_norm': 1.078125, 'learning_rate': 8.482514068284397e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21956.65, 'epoch': 2.27}
 76%|█████████████████████████████████████████████████████████████████████████████▉                         | 2169/2865 [2:18:28<34:19,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████                         | 2170/2865 [2:18:31<34:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0257, 'grad_norm': 1.046875, 'learning_rate': 8.45966632242951e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21754.29, 'epoch': 2.27}
 76%|██████████████████████████████████████████████████████████████████████████████                         | 2170/2865 [2:18:31<34:16,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████                         | 2171/2865 [2:18:34<34:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0167, 'grad_norm': 1.09375, 'learning_rate': 8.436843120344714e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21422.74, 'epoch': 2.27}
 76%|██████████████████████████████████████████████████████████████████████████████                         | 2171/2865 [2:18:34<34:13,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████                         | 2172/2865 [2:18:37<34:11,  2.96s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.0390625, 'learning_rate': 8.41404449589675e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21099.59, 'epoch': 2.27}
 76%|██████████████████████████████████████████████████████████████████████████████                         | 2172/2865 [2:18:37<34:11,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████                         | 2173/2865 [2:18:40<34:07,  2.96s/it]                                                                                                                                                  {'loss': 10.9946, 'grad_norm': 1.078125, 'learning_rate': 8.391270482915916e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21436.94, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████                         | 2173/2865 [2:18:40<34:07,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████▏                        | 2174/2865 [2:18:43<34:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0204, 'grad_norm': 1.09375, 'learning_rate': 8.36852111519596e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21615.1, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████▏                        | 2174/2865 [2:18:43<34:04,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████▏                        | 2175/2865 [2:18:46<34:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0263, 'grad_norm': 1.0625, 'learning_rate': 8.345796426494096e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22412.18, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████▏                        | 2175/2865 [2:18:46<34:01,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████▏                        | 2176/2865 [2:18:49<33:55,  2.95s/it]                                                                                                                                                  {'loss': 10.9999, 'grad_norm': 1.1484375, 'learning_rate': 8.323096450530874e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20345.48, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████▏                        | 2176/2865 [2:18:49<33:55,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▎                        | 2177/2865 [2:18:51<33:54,  2.96s/it]                                                                                                                                                  {'loss': 11.051, 'grad_norm': 1.171875, 'learning_rate': 8.300421220990212e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22008.59, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████▎                        | 2177/2865 [2:18:51<33:54,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████▎                        | 2178/2865 [2:18:54<33:49,  2.95s/it]                                                                                                                                                  {'loss': 10.9954, 'grad_norm': 1.15625, 'learning_rate': 8.277770771519298e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20725.61, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████▎                        | 2178/2865 [2:18:54<33:49,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▎                        | 2179/2865 [2:18:57<33:45,  2.95s/it]                                                                                                                                                  {'loss': 11.0113, 'grad_norm': 1.0625, 'learning_rate': 8.255145135728524e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20995.52, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████▎                        | 2179/2865 [2:18:57<33:45,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▎                        | 2180/2865 [2:19:00<33:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0194, 'grad_norm': 1.046875, 'learning_rate': 8.2325443471915e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21525.87, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████▎                        | 2180/2865 [2:19:00<33:41,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▍                        | 2181/2865 [2:19:03<33:39,  2.95s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.078125, 'learning_rate': 8.209968439444935e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22138.82, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████▍                        | 2181/2865 [2:19:03<33:39,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▍                        | 2182/2865 [2:19:06<33:36,  2.95s/it]                                                                                                                                                  {'loss': 11.0221, 'grad_norm': 1.0390625, 'learning_rate': 8.187417445988641e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20798.37, 'epoch': 2.28}
 76%|██████████████████████████████████████████████████████████████████████████████▍                        | 2182/2865 [2:19:06<33:36,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▍                        | 2183/2865 [2:19:09<33:35,  2.95s/it]                                                                                                                                                  {'loss': 11.018, 'grad_norm': 1.0625, 'learning_rate': 8.164891400285444e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21642.33, 'epoch': 2.29}
 76%|██████████████████████████████████████████████████████████████████████████████▍                        | 2183/2865 [2:19:09<33:35,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▌                        | 2184/2865 [2:19:12<33:32,  2.95s/it]                                                                                                                                                  {'loss': 11.0589, 'grad_norm': 1.2890625, 'learning_rate': 8.142390335761144e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20804.34, 'epoch': 2.29}
 76%|██████████████████████████████████████████████████████████████████████████████▌                        | 2184/2865 [2:19:12<33:32,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▌                        | 2185/2865 [2:19:15<33:27,  2.95s/it]                                                                                                                                                  {'loss': 11.0365, 'grad_norm': 1.03125, 'learning_rate': 8.119914285804505e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21374.95, 'epoch': 2.29}
 76%|██████████████████████████████████████████████████████████████████████████████▌                        | 2185/2865 [2:19:15<33:27,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▌                        | 2186/2865 [2:19:18<33:25,  2.95s/it]                                                                                                                                                  {'loss': 10.9988, 'grad_norm': 1.0234375, 'learning_rate': 8.097463283767137e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21887.72, 'epoch': 2.29}
 76%|██████████████████████████████████████████████████████████████████████████████▌                        | 2186/2865 [2:19:18<33:25,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▋                        | 2187/2865 [2:19:21<33:22,  2.95s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.046875, 'learning_rate': 8.075037362963505e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21895.01, 'epoch': 2.29}
 76%|██████████████████████████████████████████████████████████████████████████████▋                        | 2187/2865 [2:19:21<33:22,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▋                        | 2188/2865 [2:19:24<33:18,  2.95s/it]                                                                                                                                                  {'loss': 10.9997, 'grad_norm': 1.109375, 'learning_rate': 8.052636556670842e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21601.63, 'epoch': 2.29}
 76%|██████████████████████████████████████████████████████████████████████████████▋                        | 2188/2865 [2:19:24<33:18,  2.95s/it] 76%|██████████████████████████████████████████████████████████████████████████████▋                        | 2189/2865 [2:19:27<33:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0174, 'grad_norm': 1.0546875, 'learning_rate': 8.03026089812913e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21386.49, 'epoch': 2.29}
 76%|██████████████████████████████████████████████████████████████████████████████▋                        | 2189/2865 [2:19:27<33:17,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████▋                        | 2190/2865 [2:19:30<33:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0181, 'grad_norm': 1.0625, 'learning_rate': 8.00791042054102e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21702.6, 'epoch': 2.29}
 76%|██████████████████████████████████████████████████████████████████████████████▋                        | 2190/2865 [2:19:30<33:16,  2.96s/it] 76%|██████████████████████████████████████████████████████████████████████████████▊                        | 2191/2865 [2:19:33<33:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0594, 'grad_norm': 1.0390625, 'learning_rate': 7.985585157071795e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22078.05, 'epoch': 2.29}
 76%|██████████████████████████████████████████████████████████████████████████████▊                        | 2191/2865 [2:19:33<33:13,  2.96s/it] 77%|██████████████████████████████████████████████████████████████████████████████▊                        | 2192/2865 [2:19:36<33:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0255, 'grad_norm': 1.1015625, 'learning_rate': 7.963285140849347e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21269.76, 'epoch': 2.3}
 77%|██████████████████████████████████████████████████████████████████████████████▊                        | 2192/2865 [2:19:36<33:10,  2.96s/it] 77%|██████████████████████████████████████████████████████████████████████████████▊                        | 2193/2865 [2:19:39<33:07,  2.96s/it]                                                                                                                                                  {'loss': 11.0197, 'grad_norm': 1.1875, 'learning_rate': 7.941010404964072e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22058.88, 'epoch': 2.3}
 77%|██████████████████████████████████████████████████████████████████████████████▊                        | 2193/2865 [2:19:39<33:07,  2.96s/it] 77%|██████████████████████████████████████████████████████████████████████████████▉                        | 2194/2865 [2:19:42<33:03,  2.96s/it]                                                                                                                                                  {'loss': 10.9906, 'grad_norm': 1.234375, 'learning_rate': 7.918760982468889e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22402.9, 'epoch': 2.3}
 77%|██████████████████████████████████████████████████████████████████████████████▉                        | 2194/2865 [2:19:42<33:03,  2.96s/it] 77%|██████████████████████████████████████████████████████████████████████████████▉                        | 2195/2865 [2:19:45<32:59,  2.95s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.0703125, 'learning_rate': 7.896536906379121e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21609.02, 'epoch': 2.3}
 77%|██████████████████████████████████████████████████████████████████████████████▉                        | 2195/2865 [2:19:45<32:59,  2.95s/it] 77%|██████████████████████████████████████████████████████████████████████████████▉                        | 2196/2865 [2:19:48<32:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0279, 'grad_norm': 1.03125, 'learning_rate': 7.874338209672507e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20203.17, 'epoch': 2.3}
 77%|██████████████████████████████████████████████████████████████████████████████▉                        | 2196/2865 [2:19:48<32:57,  2.96s/it] 77%|██████████████████████████████████████████████████████████████████████████████▉                        | 2197/2865 [2:19:51<32:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0057, 'grad_norm': 1.0546875, 'learning_rate': 7.852164925289102e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20919.43, 'epoch': 2.3}
 77%|██████████████████████████████████████████████████████████████████████████████▉                        | 2197/2865 [2:19:51<32:56,  2.96s/it] 77%|███████████████████████████████████████████████████████████████████████████████                        | 2198/2865 [2:19:54<32:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0303, 'grad_norm': 1.0390625, 'learning_rate': 7.830017086131275e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21440.26, 'epoch': 2.3}
 77%|███████████████████████████████████████████████████████████████████████████████                        | 2198/2865 [2:19:54<32:53,  2.96s/it] 77%|███████████████████████████████████████████████████████████████████████████████                        | 2199/2865 [2:19:56<32:50,  2.96s/it]                                                                                                                                                  {'loss': 10.9968, 'grad_norm': 1.015625, 'learning_rate': 7.807894725063627e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21373.33, 'epoch': 2.3}
 77%|███████████████████████████████████████████████████████████████████████████████                        | 2199/2865 [2:19:56<32:50,  2.96s/it] 77%|███████████████████████████████████████████████████████████████████████████████                        | 2200/2865 [2:19:59<32:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0133, 'grad_norm': 1.0703125, 'learning_rate': 7.785797874912943e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21571.05, 'epoch': 2.3}
 77%|███████████████████████████████████████████████████████████████████████████████                        | 2200/2865 [2:19:59<32:45,  2.96s/it][2025-10-12 05:28:52,260] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<03:27,  1.13s/it][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:31,  1.20it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<01:59,  1.51it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:42,  1.75it/s][A
  3%|███▌                                                                                                         | 6/185 [00:03<01:30,  1.99it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:24,  2.11it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:19,  2.22it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:04<01:13,  2.39it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:14,  2.35it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:05<01:12,  2.41it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:11,  2.43it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:09,  2.47it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:06<01:08,  2.51it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.51it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:07<01:05,  2.57it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.54it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:07,  2.49it/s][A
 10%|███████████                                                                                                 | 19/185 [00:08<01:06,  2.50it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:05,  2.51it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:09<01:02,  2.61it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:03,  2.59it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:03,  2.53it/s][A
 13%|██████████████                                                                                              | 24/185 [00:10<01:04,  2.51it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:03,  2.54it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:01,  2.58it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:00,  2.61it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:01,  2.55it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:12<01:01,  2.53it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.56it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<01:01,  2.50it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.52it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:56,  2.67it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:14<01:00,  2.49it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:59,  2.53it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:58,  2.54it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:59,  2.48it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:59,  2.49it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:16<00:58,  2.52it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:56,  2.58it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:56,  2.56it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.52it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:54,  2.60it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:18<00:55,  2.56it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:55,  2.52it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:54,  2.56it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:19<00:54,  2.55it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:52,  2.59it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:51,  2.65it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.52it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:52,  2.54it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:21<00:51,  2.56it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:52,  2.51it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:51,  2.55it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:50,  2.55it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:51,  2.52it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:23<00:50,  2.56it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:50,  2.52it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:50,  2.52it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.53it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:49,  2.52it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:25<00:48,  2.54it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:48,  2.50it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:47,  2.54it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.53it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:45,  2.63it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:46,  2.53it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:46,  2.53it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:44,  2.59it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:28<00:43,  2.62it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.57it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:29<00:45,  2.49it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.52it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:44,  2.52it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:30<00:43,  2.51it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:43,  2.52it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:42,  2.56it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:41,  2.60it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.53it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:32<00:41,  2.53it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.55it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:40,  2.53it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:39,  2.55it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:39,  2.56it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:34<00:37,  2.67it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.55it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:38,  2.52it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.51it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.57it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:36<00:36,  2.60it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:37,  2.52it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:36,  2.56it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:36,  2.55it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.53it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:38<00:35,  2.55it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.58it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:34,  2.56it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:39<00:34,  2.53it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.60it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:33,  2.54it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.56it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.55it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:41<00:32,  2.51it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:32,  2.53it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:30,  2.61it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.55it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.54it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:43<00:30,  2.52it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:30,  2.53it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:29,  2.55it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.53it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:29,  2.51it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:28,  2.55it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:28,  2.50it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.51it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:26,  2.60it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.61it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:25,  2.63it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:26,  2.52it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:26,  2.46it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.50it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:24,  2.57it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.57it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:24,  2.53it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.52it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:50<00:23,  2.53it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.58it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:21,  2.60it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:22,  2.53it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.54it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:52<00:21,  2.54it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.53it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:20,  2.53it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.57it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.51it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:19,  2.56it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.57it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.53it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.55it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.53it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:17,  2.54it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.56it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:16,  2.56it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:15,  2.57it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.61it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.55it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.61it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.58it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:59<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.60it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.58it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.57it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:01<00:12,  2.52it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.55it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.58it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.57it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.67it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:03<00:10,  2.54it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.51it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.54it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.54it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.54it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.54it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.58it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.58it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:06<00:06,  2.58it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.57it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.55it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.66it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:08<00:05,  2.60it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.55it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.54it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.60it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.54it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:10<00:03,  2.57it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.58it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.53it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.52it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.56it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:12<00:01,  2.54it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.57it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.53it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.04it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995134353637695, 'eval_runtime': 78.2233, 'eval_samples_per_second': 151.579, 'eval_steps_per_second': 2.378, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 2.3}
 77%|███████████████████████████████████████████████████████████████████████████████                        | 2200/2865 [2:21:18<32:45,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.04it/s][A
                                                                                                                                                  [A[2025-10-12 05:30:10,504] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2200
 77%|█████████████████████████████████████████████████████████████████████████████▌                       | 2201/2865 [2:21:26<5:11:49, 28.18s/it]                                                                                                                                                  {'loss': 11.0089, 'grad_norm': 1.046875, 'learning_rate': 7.763726568468178e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 20034.59, 'epoch': 2.3}
 77%|█████████████████████████████████████████████████████████████████████████████▌                       | 2201/2865 [2:21:26<5:11:49, 28.18s/it] 77%|█████████████████████████████████████████████████████████████████████████████▋                       | 2202/2865 [2:21:29<3:47:43, 20.61s/it]                                                                                                                                                  {'loss': 11.0329, 'grad_norm': 1.03125, 'learning_rate': 7.741680838480348e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21693.44, 'epoch': 2.31}
 77%|█████████████████████████████████████████████████████████████████████████████▋                       | 2202/2865 [2:21:29<3:47:43, 20.61s/it] 77%|█████████████████████████████████████████████████████████████████████████████▋                       | 2203/2865 [2:21:32<2:48:55, 15.31s/it]                                                                                                                                                  {'loss': 11.0282, 'grad_norm': 1.0703125, 'learning_rate': 7.719660717662562e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21998.47, 'epoch': 2.31}
 77%|█████████████████████████████████████████████████████████████████████████████▋                       | 2203/2865 [2:21:32<2:48:55, 15.31s/it] 77%|█████████████████████████████████████████████████████████████████████████████▋                       | 2204/2865 [2:21:35<2:07:48, 11.60s/it]                                                                                                                                                  {'loss': 11.016, 'grad_norm': 1.03125, 'learning_rate': 7.69766623868988e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21526.57, 'epoch': 2.31}
 77%|█████████████████████████████████████████████████████████████████████████████▋                       | 2204/2865 [2:21:35<2:07:48, 11.60s/it] 77%|█████████████████████████████████████████████████████████████████████████████▋                       | 2205/2865 [2:21:38<1:39:06,  9.01s/it]                                                                                                                                                  {'loss': 11.008, 'grad_norm': 1.03125, 'learning_rate': 7.675697434199355e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20543.14, 'epoch': 2.31}
 77%|█████████████████████████████████████████████████████████████████████████████▋                       | 2205/2865 [2:21:38<1:39:06,  9.01s/it] 77%|█████████████████████████████████████████████████████████████████████████████▊                       | 2206/2865 [2:21:41<1:18:59,  7.19s/it]                                                                                                                                                  {'loss': 10.9938, 'grad_norm': 1.1484375, 'learning_rate': 7.653754336789909e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21203.82, 'epoch': 2.31}
 77%|█████████████████████████████████████████████████████████████████████████████▊                       | 2206/2865 [2:21:41<1:18:59,  7.19s/it] 77%|█████████████████████████████████████████████████████████████████████████████▊                       | 2207/2865 [2:21:44<1:04:55,  5.92s/it]                                                                                                                                                  {'loss': 11.0333, 'grad_norm': 1.1171875, 'learning_rate': 7.631836979022346e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21944.18, 'epoch': 2.31}
 77%|█████████████████████████████████████████████████████████████████████████████▊                       | 2207/2865 [2:21:44<1:04:55,  5.92s/it] 77%|███████████████████████████████████████████████████████████████████████████████▍                       | 2208/2865 [2:21:47<55:06,  5.03s/it]                                                                                                                                                  {'loss': 11.0091, 'grad_norm': 1.03125, 'learning_rate': 7.609945393419255e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21268.44, 'epoch': 2.31}
 77%|███████████████████████████████████████████████████████████████████████████████▍                       | 2208/2865 [2:21:47<55:06,  5.03s/it] 77%|███████████████████████████████████████████████████████████████████████████████▍                       | 2209/2865 [2:21:50<48:12,  4.41s/it]                                                                                                                                                  {'loss': 11.0051, 'grad_norm': 1.03125, 'learning_rate': 7.5880796124649825e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21893.19, 'epoch': 2.31}
 77%|███████████████████████████████████████████████████████████████████████████████▍                       | 2209/2865 [2:21:50<48:12,  4.41s/it] 77%|███████████████████████████████████████████████████████████████████████████████▍                       | 2210/2865 [2:21:53<43:21,  3.97s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.0234375, 'learning_rate': 7.5662396686055955e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21420.77, 'epoch': 2.31}
 77%|███████████████████████████████████████████████████████████████████████████████▍                       | 2210/2865 [2:21:53<43:21,  3.97s/it] 77%|███████████████████████████████████████████████████████████████████████████████▍                       | 2211/2865 [2:21:56<39:57,  3.67s/it]                                                                                                                                                  {'loss': 11.0031, 'grad_norm': 1.0234375, 'learning_rate': 7.54442559424883e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20891.74, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▍                       | 2211/2865 [2:21:56<39:57,  3.67s/it] 77%|███████████████████████████████████████████████████████████████████████████████▌                       | 2212/2865 [2:21:59<37:32,  3.45s/it]                                                                                                                                                  {'loss': 10.9989, 'grad_norm': 1.0234375, 'learning_rate': 7.522637421764001e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21233.55, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▌                       | 2212/2865 [2:21:59<37:32,  3.45s/it] 77%|███████████████████████████████████████████████████████████████████████████████▌                       | 2213/2865 [2:22:02<35:53,  3.30s/it]                                                                                                                                                  {'loss': 11.0059, 'grad_norm': 1.09375, 'learning_rate': 7.500875183482031e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21604.44, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▌                       | 2213/2865 [2:22:02<35:53,  3.30s/it] 77%|███████████████████████████████████████████████████████████████████████████████▌                       | 2214/2865 [2:22:05<34:39,  3.19s/it]                                                                                                                                                  {'loss': 11.033, 'grad_norm': 1.3671875, 'learning_rate': 7.479138911695321e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20873.47, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▌                       | 2214/2865 [2:22:05<34:39,  3.19s/it] 77%|███████████████████████████████████████████████████████████████████████████████▋                       | 2215/2865 [2:22:08<33:48,  3.12s/it]                                                                                                                                                  {'loss': 11.0187, 'grad_norm': 1.0234375, 'learning_rate': 7.4574286386577735e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21499.21, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▋                       | 2215/2865 [2:22:08<33:48,  3.12s/it] 77%|███████████████████████████████████████████████████████████████████████████████▋                       | 2216/2865 [2:22:11<33:12,  3.07s/it]                                                                                                                                                  {'loss': 11.0052, 'grad_norm': 1.0390625, 'learning_rate': 7.435744396584679e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20985.49, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▋                       | 2216/2865 [2:22:11<33:12,  3.07s/it] 77%|███████████████████████████████████████████████████████████████████████████████▋                       | 2217/2865 [2:22:14<32:47,  3.04s/it]                                                                                                                                                  {'loss': 11.0149, 'grad_norm': 1.0703125, 'learning_rate': 7.414086217652738e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21979.1, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▋                       | 2217/2865 [2:22:14<32:47,  3.04s/it] 77%|███████████████████████████████████████████████████████████████████████████████▋                       | 2218/2865 [2:22:17<32:27,  3.01s/it]                                                                                                                                                  {'loss': 10.9966, 'grad_norm': 1.046875, 'learning_rate': 7.3924541339999405e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20449.4, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▋                       | 2218/2865 [2:22:17<32:27,  3.01s/it] 77%|███████████████████████████████████████████████████████████████████████████████▊                       | 2219/2865 [2:22:20<32:13,  2.99s/it]                                                                                                                                                  {'loss': 11.001, 'grad_norm': 1.0234375, 'learning_rate': 7.370848177725589e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21890.43, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▊                       | 2219/2865 [2:22:20<32:13,  2.99s/it] 77%|███████████████████████████████████████████████████████████████████████████████▊                       | 2220/2865 [2:22:23<32:02,  2.98s/it]                                                                                                                                                  {'loss': 11.0106, 'grad_norm': 1.0234375, 'learning_rate': 7.349268380890181e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21496.22, 'epoch': 2.32}
 77%|███████████████████████████████████████████████████████████████████████████████▊                       | 2220/2865 [2:22:23<32:02,  2.98s/it] 78%|███████████████████████████████████████████████████████████████████████████████▊                       | 2221/2865 [2:22:26<31:54,  2.97s/it]                                                                                                                                                  {'loss': 11.0177, 'grad_norm': 1.1796875, 'learning_rate': 7.3277147755154315e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21088.12, 'epoch': 2.33}
 78%|███████████████████████████████████████████████████████████████████████████████▊                       | 2221/2865 [2:22:26<31:54,  2.97s/it] 78%|███████████████████████████████████████████████████████████████████████████████▉                       | 2222/2865 [2:22:28<31:47,  2.97s/it]                                                                                                                                                  {'loss': 11.0312, 'grad_norm': 1.140625, 'learning_rate': 7.306187393584157e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20768.6, 'epoch': 2.33}
 78%|███████████████████████████████████████████████████████████████████████████████▉                       | 2222/2865 [2:22:28<31:47,  2.97s/it] 78%|███████████████████████████████████████████████████████████████████████████████▉                       | 2223/2865 [2:22:31<31:43,  2.97s/it]                                                                                                                                                  {'loss': 11.0383, 'grad_norm': 1.0703125, 'learning_rate': 7.284686267040297e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20790.73, 'epoch': 2.33}
 78%|███████████████████████████████████████████████████████████████████████████████▉                       | 2223/2865 [2:22:31<31:43,  2.97s/it] 78%|███████████████████████████████████████████████████████████████████████████████▉                       | 2224/2865 [2:22:34<31:38,  2.96s/it]                                                                                                                                                  {'loss': 10.9774, 'grad_norm': 1.390625, 'learning_rate': 7.263211427788802e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20577.33, 'epoch': 2.33}
 78%|███████████████████████████████████████████████████████████████████████████████▉                       | 2224/2865 [2:22:34<31:38,  2.96s/it] 78%|███████████████████████████████████████████████████████████████████████████████▉                       | 2225/2865 [2:22:37<31:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0211, 'grad_norm': 1.0546875, 'learning_rate': 7.241762907695621e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21179.57, 'epoch': 2.33}
 78%|███████████████████████████████████████████████████████████████████████████████▉                       | 2225/2865 [2:22:37<31:34,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████                       | 2226/2865 [2:22:40<31:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0056, 'grad_norm': 1.15625, 'learning_rate': 7.220340738587669e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20755.58, 'epoch': 2.33}
 78%|████████████████████████████████████████████████████████████████████████████████                       | 2226/2865 [2:22:40<31:29,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████                       | 2227/2865 [2:22:43<31:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0082, 'grad_norm': 1.0546875, 'learning_rate': 7.198944952252726e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22182.34, 'epoch': 2.33}
 78%|████████████████████████████████████████████████████████████████████████████████                       | 2227/2865 [2:22:43<31:27,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████                       | 2228/2865 [2:22:46<31:24,  2.96s/it]                                                                                                                                                  {'loss': 10.9991, 'grad_norm': 1.03125, 'learning_rate': 7.177575580439461e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21188.8, 'epoch': 2.33}
 78%|████████████████████████████████████████████████████████████████████████████████                       | 2228/2865 [2:22:46<31:24,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▏                      | 2229/2865 [2:22:49<31:19,  2.96s/it]                                                                                                                                                  {'loss': 10.9981, 'grad_norm': 1.0234375, 'learning_rate': 7.156232654857309e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21035.57, 'epoch': 2.33}
 78%|████████████████████████████████████████████████████████████████████████████████▏                      | 2229/2865 [2:22:49<31:19,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▏                      | 2230/2865 [2:22:52<31:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0031, 'grad_norm': 1.0703125, 'learning_rate': 7.134916207176501e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22045.74, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▏                      | 2230/2865 [2:22:52<31:16,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▏                      | 2231/2865 [2:22:55<31:11,  2.95s/it]                                                                                                                                                  {'loss': 11.0245, 'grad_norm': 1.0546875, 'learning_rate': 7.113626269027937e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21529.88, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▏                      | 2231/2865 [2:22:55<31:11,  2.95s/it] 78%|████████████████████████████████████████████████████████████████████████████████▏                      | 2232/2865 [2:22:58<31:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0281, 'grad_norm': 1.1953125, 'learning_rate': 7.092362872003222e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22464.0, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▏                      | 2232/2865 [2:22:58<31:11,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▎                      | 2233/2865 [2:23:01<31:07,  2.95s/it]                                                                                                                                                  {'loss': 11.0129, 'grad_norm': 1.03125, 'learning_rate': 7.071126047654547e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20516.44, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▎                      | 2233/2865 [2:23:01<31:07,  2.95s/it] 78%|████████████████████████████████████████████████████████████████████████████████▎                      | 2234/2865 [2:23:04<31:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0045, 'grad_norm': 1.015625, 'learning_rate': 7.049915827494674e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22355.68, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▎                      | 2234/2865 [2:23:04<31:04,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▎                      | 2235/2865 [2:23:07<31:01,  2.95s/it]                                                                                                                                                  {'loss': 11.0075, 'grad_norm': 1.1953125, 'learning_rate': 7.02873224299691e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20908.26, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▎                      | 2235/2865 [2:23:07<31:01,  2.95s/it] 78%|████████████████████████████████████████████████████████████████████████████████▍                      | 2236/2865 [2:23:10<30:58,  2.95s/it]                                                                                                                                                  {'loss': 11.037, 'grad_norm': 1.078125, 'learning_rate': 7.007575325595012e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21262.77, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▍                      | 2236/2865 [2:23:10<30:58,  2.95s/it] 78%|████████████████████████████████████████████████████████████████████████████████▍                      | 2237/2865 [2:23:13<30:54,  2.95s/it]                                                                                                                                                  {'loss': 11.0174, 'grad_norm': 1.0703125, 'learning_rate': 6.986445106683193e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21030.1, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▍                      | 2237/2865 [2:23:13<30:54,  2.95s/it] 78%|████████████████████████████████████████████████████████████████████████████████▍                      | 2238/2865 [2:23:16<30:51,  2.95s/it]                                                                                                                                                  {'loss': 11.0145, 'grad_norm': 1.03125, 'learning_rate': 6.965341617616017e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21486.77, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▍                      | 2238/2865 [2:23:16<30:51,  2.95s/it] 78%|████████████████████████████████████████████████████████████████████████████████▍                      | 2239/2865 [2:23:19<30:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0223, 'grad_norm': 1.078125, 'learning_rate': 6.944264889708418e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20766.65, 'epoch': 2.34}
 78%|████████████████████████████████████████████████████████████████████████████████▍                      | 2239/2865 [2:23:19<30:50,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▌                      | 2240/2865 [2:23:22<30:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0236, 'grad_norm': 1.0390625, 'learning_rate': 6.923214954235585e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21137.76, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▌                      | 2240/2865 [2:23:22<30:48,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▌                      | 2241/2865 [2:23:25<30:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0037, 'grad_norm': 1.0390625, 'learning_rate': 6.902191842432989e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22332.23, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▌                      | 2241/2865 [2:23:25<30:46,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▌                      | 2242/2865 [2:23:28<30:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0136, 'grad_norm': 1.078125, 'learning_rate': 6.881195585496267e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20969.82, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▌                      | 2242/2865 [2:23:28<30:43,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▋                      | 2243/2865 [2:23:31<30:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0385, 'grad_norm': 1.0234375, 'learning_rate': 6.8602262145812116e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21765.15, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▋                      | 2243/2865 [2:23:31<30:39,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▋                      | 2244/2865 [2:23:33<30:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0101, 'grad_norm': 1.0390625, 'learning_rate': 6.839283760803739e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21838.1, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▋                      | 2244/2865 [2:23:33<30:35,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▋                      | 2245/2865 [2:23:36<30:32,  2.96s/it]                                                                                                                                                  {'loss': 11.028, 'grad_norm': 1.203125, 'learning_rate': 6.818368255239796e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22038.64, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▋                      | 2245/2865 [2:23:36<30:32,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▋                      | 2246/2865 [2:23:39<30:29,  2.96s/it]                                                                                                                                                  {'loss': 10.9874, 'grad_norm': 1.0234375, 'learning_rate': 6.797479728925374e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22502.48, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▋                      | 2246/2865 [2:23:39<30:29,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▊                      | 2247/2865 [2:23:42<30:25,  2.95s/it]                                                                                                                                                  {'loss': 11.0074, 'grad_norm': 1.09375, 'learning_rate': 6.776618212856392e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21017.29, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▊                      | 2247/2865 [2:23:42<30:25,  2.95s/it] 78%|████████████████████████████████████████████████████████████████████████████████▊                      | 2248/2865 [2:23:45<30:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0202, 'grad_norm': 1.0234375, 'learning_rate': 6.75578373798873e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20253.54, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▊                      | 2248/2865 [2:23:45<30:23,  2.96s/it] 78%|████████████████████████████████████████████████████████████████████████████████▊                      | 2249/2865 [2:23:48<30:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0179, 'grad_norm': 1.1015625, 'learning_rate': 6.734976335238105e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21928.32, 'epoch': 2.35}
 78%|████████████████████████████████████████████████████████████████████████████████▊                      | 2249/2865 [2:23:48<30:20,  2.96s/it] 79%|████████████████████████████████████████████████████████████████████████████████▉                      | 2250/2865 [2:23:51<30:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0216, 'grad_norm': 1.0234375, 'learning_rate': 6.714196035480097e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20954.53, 'epoch': 2.36}
 79%|████████████████████████████████████████████████████████████████████████████████▉                      | 2250/2865 [2:23:51<30:19,  2.96s/it] 79%|████████████████████████████████████████████████████████████████████████████████▉                      | 2251/2865 [2:23:54<30:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0175, 'grad_norm': 1.03125, 'learning_rate': 6.6934428695500316e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22207.66, 'epoch': 2.36}
 79%|████████████████████████████████████████████████████████████████████████████████▉                      | 2251/2865 [2:23:54<30:17,  2.96s/it] 79%|████████████████████████████████████████████████████████████████████████████████▉                      | 2252/2865 [2:23:57<30:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0347, 'grad_norm': 1.046875, 'learning_rate': 6.672716868243004e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21092.43, 'epoch': 2.36}
 79%|████████████████████████████████████████████████████████████████████████████████▉                      | 2252/2865 [2:23:57<30:11,  2.96s/it] 79%|████████████████████████████████████████████████████████████████████████████████▉                      | 2253/2865 [2:24:00<30:07,  2.95s/it]                                                                                                                                                  {'loss': 11.0135, 'grad_norm': 1.0625, 'learning_rate': 6.6520180623137915e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21678.63, 'epoch': 2.36}
 79%|████████████████████████████████████████████████████████████████████████████████▉                      | 2253/2865 [2:24:00<30:07,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████                      | 2254/2865 [2:24:03<30:04,  2.95s/it]                                                                                                                                                  {'loss': 10.9997, 'grad_norm': 1.0859375, 'learning_rate': 6.631346482476799e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20666.78, 'epoch': 2.36}
 79%|█████████████████████████████████████████████████████████████████████████████████                      | 2254/2865 [2:24:03<30:04,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████                      | 2255/2865 [2:24:06<30:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0188, 'grad_norm': 1.15625, 'learning_rate': 6.61070215940606e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21852.63, 'epoch': 2.36}
 79%|█████████████████████████████████████████████████████████████████████████████████                      | 2255/2865 [2:24:06<30:03,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████                      | 2256/2865 [2:24:09<29:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0047, 'grad_norm': 1.09375, 'learning_rate': 6.590085123735132e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21360.89, 'epoch': 2.36}
 79%|█████████████████████████████████████████████████████████████████████████████████                      | 2256/2865 [2:24:09<29:59,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▏                     | 2257/2865 [2:24:12<29:55,  2.95s/it]                                                                                                                                                  {'loss': 10.9971, 'grad_norm': 1.09375, 'learning_rate': 6.569495406057114e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21188.79, 'epoch': 2.36}
 79%|█████████████████████████████████████████████████████████████████████████████████▏                     | 2257/2865 [2:24:12<29:55,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▏                     | 2258/2865 [2:24:15<29:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0178, 'grad_norm': 1.0859375, 'learning_rate': 6.548933036924537e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21311.28, 'epoch': 2.36}
 79%|█████████████████████████████████████████████████████████████████████████████████▏                     | 2258/2865 [2:24:15<29:53,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▏                     | 2259/2865 [2:24:18<29:49,  2.95s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.046875, 'learning_rate': 6.528398046849366e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21861.58, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▏                     | 2259/2865 [2:24:18<29:49,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▏                     | 2260/2865 [2:24:21<29:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0109, 'grad_norm': 1.03125, 'learning_rate': 6.507890466302949e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21565.45, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▏                     | 2260/2865 [2:24:21<29:48,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▎                     | 2261/2865 [2:24:24<29:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0277, 'grad_norm': 1.03125, 'learning_rate': 6.487410325715934e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22575.85, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▎                     | 2261/2865 [2:24:24<29:46,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▎                     | 2262/2865 [2:24:27<29:41,  2.96s/it]                                                                                                                                                  {'loss': 10.9985, 'grad_norm': 1.0703125, 'learning_rate': 6.466957655478284e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21726.97, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▎                     | 2262/2865 [2:24:27<29:41,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▎                     | 2263/2865 [2:24:30<29:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0319, 'grad_norm': 1.0546875, 'learning_rate': 6.446532485939169e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20462.81, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▎                     | 2263/2865 [2:24:30<29:41,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▍                     | 2264/2865 [2:24:33<29:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0232, 'grad_norm': 1.03125, 'learning_rate': 6.426134847406981e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21053.38, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▍                     | 2264/2865 [2:24:33<29:37,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▍                     | 2265/2865 [2:24:36<29:33,  2.96s/it]                                                                                                                                                  {'loss': 10.9928, 'grad_norm': 1.0703125, 'learning_rate': 6.405764770149228e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20839.79, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▍                     | 2265/2865 [2:24:36<29:33,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▍                     | 2266/2865 [2:24:39<29:29,  2.95s/it]                                                                                                                                                  {'loss': 11.0143, 'grad_norm': 1.0703125, 'learning_rate': 6.3854222843925505e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21874.77, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▍                     | 2266/2865 [2:24:39<29:29,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▌                     | 2267/2865 [2:24:41<29:26,  2.95s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.0234375, 'learning_rate': 6.365107420322628e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21616.51, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▌                     | 2267/2865 [2:24:41<29:26,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▌                     | 2268/2865 [2:24:44<29:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0019, 'grad_norm': 1.0546875, 'learning_rate': 6.344820208084151e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21153.6, 'epoch': 2.37}
 79%|█████████████████████████████████████████████████████████████████████████████████▌                     | 2268/2865 [2:24:44<29:23,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▌                     | 2269/2865 [2:24:47<29:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0261, 'grad_norm': 1.0234375, 'learning_rate': 6.324560677780797e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21277.13, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████▌                     | 2269/2865 [2:24:47<29:21,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▌                     | 2270/2865 [2:24:50<29:18,  2.96s/it]                                                                                                                                                  {'loss': 10.9996, 'grad_norm': 1.2109375, 'learning_rate': 6.304328859475142e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21256.92, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████▌                     | 2270/2865 [2:24:50<29:18,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▋                     | 2271/2865 [2:24:53<29:15,  2.96s/it]                                                                                                                                                  {'loss': 11.003, 'grad_norm': 1.0546875, 'learning_rate': 6.284124783188669e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21797.42, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████▋                     | 2271/2865 [2:24:53<29:15,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▋                     | 2272/2865 [2:24:56<29:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0228, 'grad_norm': 1.03125, 'learning_rate': 6.2639484789016625e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20904.53, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████▋                     | 2272/2865 [2:24:56<29:13,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▋                     | 2273/2865 [2:24:59<29:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0025, 'grad_norm': 1.0234375, 'learning_rate': 6.2437999765532355e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19764.8, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████▋                     | 2273/2865 [2:24:59<29:09,  2.96s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▊                     | 2274/2865 [2:25:02<29:06,  2.95s/it]                                                                                                                                                  {'loss': 11.0151, 'grad_norm': 1.0859375, 'learning_rate': 6.223679306041211e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20727.17, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████▊                     | 2274/2865 [2:25:02<29:06,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▊                     | 2275/2865 [2:25:05<29:02,  2.95s/it]                                                                                                                                                  {'loss': 11.0068, 'grad_norm': 1.03125, 'learning_rate': 6.2035864972221274e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21957.58, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████▊                     | 2275/2865 [2:25:05<29:02,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▊                     | 2276/2865 [2:25:08<28:59,  2.95s/it]                                                                                                                                                  {'loss': 11.0189, 'grad_norm': 1.0390625, 'learning_rate': 6.183521579911189e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21519.38, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████▊                     | 2276/2865 [2:25:08<28:59,  2.95s/it] 79%|█████████████████████████████████████████████████████████████████████████████████▊                     | 2277/2865 [2:25:11<28:55,  2.95s/it]                                                                                                                                                  {'loss': 11.0224, 'grad_norm': 1.0546875, 'learning_rate': 6.16348458388219e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21043.3, 'epoch': 2.38}
 79%|█████████████████████████████████████████████████████████████████████████████████▊                     | 2277/2865 [2:25:11<28:55,  2.95s/it] 80%|█████████████████████████████████████████████████████████████████████████████████▉                     | 2278/2865 [2:25:14<28:52,  2.95s/it]                                                                                                                                                  {'loss': 10.9879, 'grad_norm': 1.109375, 'learning_rate': 6.1434755388675215e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20367.04, 'epoch': 2.39}
 80%|█████████████████████████████████████████████████████████████████████████████████▉                     | 2278/2865 [2:25:14<28:52,  2.95s/it] 80%|█████████████████████████████████████████████████████████████████████████████████▉                     | 2279/2865 [2:25:17<28:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0267, 'grad_norm': 1.0234375, 'learning_rate': 6.123494474558073e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22310.59, 'epoch': 2.39}
 80%|█████████████████████████████████████████████████████████████████████████████████▉                     | 2279/2865 [2:25:17<28:51,  2.96s/it] 80%|█████████████████████████████████████████████████████████████████████████████████▉                     | 2280/2865 [2:25:20<28:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0045, 'grad_norm': 1.0234375, 'learning_rate': 6.103541420603234e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21817.21, 'epoch': 2.39}
 80%|█████████████████████████████████████████████████████████████████████████████████▉                     | 2280/2865 [2:25:20<28:49,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████                     | 2281/2865 [2:25:23<28:44,  2.95s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.0625, 'learning_rate': 6.083616406610812e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20849.35, 'epoch': 2.39}
 80%|██████████████████████████████████████████████████████████████████████████████████                     | 2281/2865 [2:25:23<28:44,  2.95s/it] 80%|██████████████████████████████████████████████████████████████████████████████████                     | 2282/2865 [2:25:26<28:42,  2.95s/it]                                                                                                                                                  {'loss': 11.0161, 'grad_norm': 1.0546875, 'learning_rate': 6.063719462147027e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21330.3, 'epoch': 2.39}
 80%|██████████████████████████████████████████████████████████████████████████████████                     | 2282/2865 [2:25:26<28:42,  2.95s/it] 80%|██████████████████████████████████████████████████████████████████████████████████                     | 2283/2865 [2:25:29<28:38,  2.95s/it]                                                                                                                                                  {'loss': 10.9968, 'grad_norm': 1.0234375, 'learning_rate': 6.043850616736432e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22057.38, 'epoch': 2.39}
 80%|██████████████████████████████████████████████████████████████████████████████████                     | 2283/2865 [2:25:29<28:38,  2.95s/it] 80%|██████████████████████████████████████████████████████████████████████████████████                     | 2284/2865 [2:25:32<28:36,  2.95s/it]                                                                                                                                                  {'loss': 11.0271, 'grad_norm': 1.1171875, 'learning_rate': 6.024009899861876e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21835.28, 'epoch': 2.39}
 80%|██████████████████████████████████████████████████████████████████████████████████                     | 2284/2865 [2:25:32<28:36,  2.95s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▏                    | 2285/2865 [2:25:35<28:33,  2.95s/it]                                                                                                                                                  {'loss': 11.0252, 'grad_norm': 1.125, 'learning_rate': 6.004197340964496e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20992.91, 'epoch': 2.39}
 80%|██████████████████████████████████████████████████████████████████████████████████▏                    | 2285/2865 [2:25:35<28:33,  2.95s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▏                    | 2286/2865 [2:25:38<28:30,  2.95s/it]                                                                                                                                                  {'loss': 11.0287, 'grad_norm': 1.03125, 'learning_rate': 5.984412969443634e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21921.41, 'epoch': 2.39}
 80%|██████████████████████████████████████████████████████████████████████████████████▏                    | 2286/2865 [2:25:38<28:30,  2.95s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▏                    | 2287/2865 [2:25:41<28:27,  2.95s/it]                                                                                                                                                  {'loss': 11.0107, 'grad_norm': 1.0625, 'learning_rate': 5.964656814656791e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21782.19, 'epoch': 2.39}
 80%|██████████████████████████████████████████████████████████████████████████████████▏                    | 2287/2865 [2:25:41<28:27,  2.95s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▎                    | 2288/2865 [2:25:43<28:24,  2.95s/it]                                                                                                                                                  {'loss': 11.021, 'grad_norm': 1.0390625, 'learning_rate': 5.944928905919625e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21415.35, 'epoch': 2.4}
 80%|██████████████████████████████████████████████████████████████████████████████████▎                    | 2288/2865 [2:25:44<28:24,  2.95s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▎                    | 2289/2865 [2:25:46<28:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0315, 'grad_norm': 1.0546875, 'learning_rate': 5.92522927250585e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22221.78, 'epoch': 2.4}
 80%|██████████████████████████████████████████████████████████████████████████████████▎                    | 2289/2865 [2:25:46<28:23,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▎                    | 2290/2865 [2:25:49<28:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0248, 'grad_norm': 1.1328125, 'learning_rate': 5.905557943647255e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22365.07, 'epoch': 2.4}
 80%|██████████████████████████████████████████████████████████████████████████████████▎                    | 2290/2865 [2:25:49<28:21,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▎                    | 2291/2865 [2:25:52<28:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0136, 'grad_norm': 1.046875, 'learning_rate': 5.885914948533594e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21390.34, 'epoch': 2.4}
 80%|██████████████████████████████████████████████████████████████████████████████████▎                    | 2291/2865 [2:25:52<28:18,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▍                    | 2292/2865 [2:25:55<28:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0199, 'grad_norm': 1.0625, 'learning_rate': 5.866300316312612e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22535.9, 'epoch': 2.4}
 80%|██████████████████████████████████████████████████████████████████████████████████▍                    | 2292/2865 [2:25:55<28:16,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▍                    | 2293/2865 [2:25:58<28:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.078125, 'learning_rate': 5.846714076089937e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21216.52, 'epoch': 2.4}
 80%|██████████████████████████████████████████████████████████████████████████████████▍                    | 2293/2865 [2:25:58<28:11,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▍                    | 2294/2865 [2:26:01<28:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0291, 'grad_norm': 1.0234375, 'learning_rate': 5.827156256929097e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21951.32, 'epoch': 2.4}
 80%|██████████████████████████████████████████████████████████████████████████████████▍                    | 2294/2865 [2:26:01<28:09,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▌                    | 2295/2865 [2:26:04<28:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0199, 'grad_norm': 1.0625, 'learning_rate': 5.807626887851411e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21972.38, 'epoch': 2.4}
 80%|██████████████████████████████████████████████████████████████████████████████████▌                    | 2295/2865 [2:26:04<28:05,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▌                    | 2296/2865 [2:26:07<28:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0009, 'grad_norm': 1.0859375, 'learning_rate': 5.788125997836016e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20846.18, 'epoch': 2.4}
 80%|██████████████████████████████████████████████████████████████████████████████████▌                    | 2296/2865 [2:26:07<28:01,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▌                    | 2297/2865 [2:26:10<28:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0204, 'grad_norm': 1.0234375, 'learning_rate': 5.768653615819764e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22571.82, 'epoch': 2.41}
 80%|██████████████████████████████████████████████████████████████████████████████████▌                    | 2297/2865 [2:26:10<28:01,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▌                    | 2298/2865 [2:26:13<27:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0113, 'grad_norm': 1.015625, 'learning_rate': 5.7492097706972255e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21299.28, 'epoch': 2.41}
 80%|██████████████████████████████████████████████████████████████████████████████████▌                    | 2298/2865 [2:26:13<27:57,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▋                    | 2299/2865 [2:26:16<27:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0111, 'grad_norm': 1.0390625, 'learning_rate': 5.729794491320609e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22137.77, 'epoch': 2.41}
 80%|██████████████████████████████████████████████████████████████████████████████████▋                    | 2299/2865 [2:26:16<27:54,  2.96s/it] 80%|██████████████████████████████████████████████████████████████████████████████████▋                    | 2300/2865 [2:26:19<27:52,  2.96s/it]                                                                                                                                                  {'loss': 10.9969, 'grad_norm': 1.09375, 'learning_rate': 5.710407806499738e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22692.15, 'epoch': 2.41}
 80%|██████████████████████████████████████████████████████████████████████████████████▋                    | 2300/2865 [2:26:19<27:52,  2.96s/it][2025-10-12 05:35:11,839] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:03<05:01,  1.65s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:24,  1.12s/it][A
  2%|██▎                                                                                                          | 4/185 [00:04<02:33,  1.18it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<02:04,  1.44it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:46,  1.68it/s][A
  4%|████                                                                                                         | 7/185 [00:05<01:33,  1.91it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:26,  2.05it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:06<01:20,  2.19it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:15,  2.33it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.35it/s][A
  6%|███████                                                                                                     | 12/185 [00:07<01:11,  2.43it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:10,  2.45it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:08<01:09,  2.47it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:08,  2.49it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:06,  2.54it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:09<01:05,  2.57it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:05,  2.56it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:05,  2.54it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:10<01:03,  2.60it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:04,  2.56it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:11<01:03,  2.58it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:02,  2.58it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:04,  2.51it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:12<01:03,  2.51it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:03,  2.52it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:13<01:02,  2.55it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:01,  2.56it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:01,  2.54it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:14<01:00,  2.57it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<00:59,  2.60it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:15<01:00,  2.53it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.56it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:58,  2.56it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:16<00:57,  2.62it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:59,  2.52it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.53it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:57,  2.56it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:56,  2.59it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:18<00:56,  2.58it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.56it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:54,  2.63it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:19<00:55,  2.57it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:55,  2.54it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:20<00:54,  2.55it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.57it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.55it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:21<00:52,  2.60it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:51,  2.64it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:22<00:53,  2.52it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:53,  2.52it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.54it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:23<00:49,  2.64it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:50,  2.58it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.52it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:50,  2.57it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.53it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:25<00:48,  2.59it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:48,  2.58it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.52it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:49,  2.52it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.56it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:27<00:48,  2.51it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.53it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.54it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:28<00:46,  2.57it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:45,  2.58it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:29<00:44,  2.60it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.55it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:44,  2.57it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:30<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:43,  2.58it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:31<00:43,  2.58it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.53it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:41,  2.63it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:32<00:43,  2.52it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.53it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:41,  2.57it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.58it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.53it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:34<00:40,  2.57it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:41,  2.49it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:39,  2.59it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:35<00:39,  2.59it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:40,  2.48it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:36<00:39,  2.51it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:39,  2.51it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.51it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:37<00:37,  2.57it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.50it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:38<00:37,  2.51it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:36,  2.52it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:36,  2.54it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:39<00:36,  2.52it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.56it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:40<00:35,  2.51it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.55it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.51it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:41<00:34,  2.52it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.56it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:42<00:33,  2.52it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:32,  2.55it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:32,  2.54it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:43<00:31,  2.58it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:32,  2.50it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:44<00:30,  2.56it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.53it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.57it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:45<00:30,  2.51it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.56it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.56it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:46<00:28,  2.58it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.54it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:47<00:28,  2.50it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.53it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:26,  2.59it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:48<00:26,  2.53it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.55it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:49<00:25,  2.58it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.58it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.56it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:50<00:24,  2.57it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.57it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:51<00:23,  2.61it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.53it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:22,  2.58it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:52<00:22,  2.53it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.52it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:53<00:21,  2.55it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.61it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.55it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:54<00:20,  2.54it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.56it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:55<00:20,  2.52it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:55<00:19,  2.53it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.55it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:56<00:18,  2.53it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.59it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.55it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:57<00:17,  2.61it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:16,  2.60it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:58<00:17,  2.53it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:15,  2.66it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.54it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:59<00:15,  2.54it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.53it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [01:00<00:14,  2.55it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.53it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:01<00:13,  2.56it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:12,  2.62it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.59it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.53it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.53it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:03<00:11,  2.57it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.56it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:11,  2.52it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:04<00:10,  2.55it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.54it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:05<00:09,  2.56it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.57it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.53it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:06<00:08,  2.53it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.57it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:07<00:07,  2.58it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.54it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.52it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:08<00:06,  2.54it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.60it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:09<00:05,  2.64it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.53it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.57it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:10<00:04,  2.51it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:11<00:03,  2.56it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.60it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.61it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:12<00:02,  2.57it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.56it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.52it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:13<00:01,  2.56it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.66it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:14<00:00,  2.52it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.55it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  1.97it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995028495788574, 'eval_runtime': 78.5529, 'eval_samples_per_second': 150.943, 'eval_steps_per_second': 2.368, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 2.41}
 80%|██████████████████████████████████████████████████████████████████████████████████▋                    | 2300/2865 [2:27:38<27:52,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  1.97it/s][A
                                                                                                                                                  [A[2025-10-12 05:36:30,415] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2300
 80%|█████████████████████████████████████████████████████████████████████████████████                    | 2301/2865 [2:27:46<4:26:10, 28.32s/it]                                                                                                                                                  {'loss': 11.024, 'grad_norm': 1.1015625, 'learning_rate': 5.6910497450020165e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 20090.96, 'epoch': 2.41}
 80%|█████████████████████████████████████████████████████████████████████████████████                    | 2301/2865 [2:27:47<4:26:10, 28.32s/it] 80%|█████████████████████████████████████████████████████████████████████████████████▏                   | 2302/2865 [2:27:49<3:14:17, 20.71s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.03125, 'learning_rate': 5.671720335552358e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21413.92, 'epoch': 2.41}
 80%|█████████████████████████████████████████████████████████████████████████████████▏                   | 2302/2865 [2:27:49<3:14:17, 20.71s/it] 80%|█████████████████████████████████████████████████████████████████████████████████▏                   | 2303/2865 [2:27:52<2:24:02, 15.38s/it]                                                                                                                                                  {'loss': 11.0226, 'grad_norm': 1.0390625, 'learning_rate': 5.6524196068331844e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21613.17, 'epoch': 2.41}
 80%|█████████████████████████████████████████████████████████████████████████████████▏                   | 2303/2865 [2:27:52<2:24:02, 15.38s/it] 80%|█████████████████████████████████████████████████████████████████████████████████▏                   | 2304/2865 [2:27:55<1:48:55, 11.65s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.0390625, 'learning_rate': 5.633147587484328e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19995.59, 'epoch': 2.41}
 80%|█████████████████████████████████████████████████████████████████████████████████▏                   | 2304/2865 [2:27:55<1:48:55, 11.65s/it] 80%|█████████████████████████████████████████████████████████████████████████████████▎                   | 2305/2865 [2:27:58<1:24:21,  9.04s/it]                                                                                                                                                  {'loss': 11.0016, 'grad_norm': 1.140625, 'learning_rate': 5.613904306103049e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19624.88, 'epoch': 2.41}
 80%|█████████████████████████████████████████████████████████████████████████████████▎                   | 2305/2865 [2:27:58<1:24:21,  9.04s/it] 80%|█████████████████████████████████████████████████████████████████████████████████▎                   | 2306/2865 [2:28:01<1:07:10,  7.21s/it]                                                                                                                                                  {'loss': 11.0467, 'grad_norm': 1.078125, 'learning_rate': 5.59468979124394e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21397.7, 'epoch': 2.41}
 80%|█████████████████████████████████████████████████████████████████████████████████▎                   | 2306/2865 [2:28:01<1:07:10,  7.21s/it] 81%|██████████████████████████████████████████████████████████████████████████████████▉                    | 2307/2865 [2:28:04<55:10,  5.93s/it]                                                                                                                                                  {'loss': 11.0054, 'grad_norm': 1.0546875, 'learning_rate': 5.57550407141893e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21820.99, 'epoch': 2.42}
 81%|██████████████████████████████████████████████████████████████████████████████████▉                    | 2307/2865 [2:28:04<55:10,  5.93s/it] 81%|██████████████████████████████████████████████████████████████████████████████████▉                    | 2308/2865 [2:28:07<46:46,  5.04s/it]                                                                                                                                                  {'loss': 11.0401, 'grad_norm': 1.15625, 'learning_rate': 5.556347175097204e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22074.19, 'epoch': 2.42}
 81%|██████████████████████████████████████████████████████████████████████████████████▉                    | 2308/2865 [2:28:07<46:46,  5.04s/it] 81%|███████████████████████████████████████████████████████████████████████████████████                    | 2309/2865 [2:28:10<40:54,  4.41s/it]                                                                                                                                                  {'loss': 11.0112, 'grad_norm': 1.0546875, 'learning_rate': 5.537219130705173e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20144.24, 'epoch': 2.42}
 81%|███████████████████████████████████████████████████████████████████████████████████                    | 2309/2865 [2:28:10<40:54,  4.41s/it] 81%|███████████████████████████████████████████████████████████████████████████████████                    | 2310/2865 [2:28:13<36:47,  3.98s/it]                                                                                                                                                  {'loss': 11.0092, 'grad_norm': 1.0859375, 'learning_rate': 5.518119966626456e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19627.49, 'epoch': 2.42}
 81%|███████████████████████████████████████████████████████████████████████████████████                    | 2310/2865 [2:28:13<36:47,  3.98s/it] 81%|███████████████████████████████████████████████████████████████████████████████████                    | 2311/2865 [2:28:16<33:53,  3.67s/it]                                                                                                                                                  {'loss': 11.0317, 'grad_norm': 1.0234375, 'learning_rate': 5.499049711201795e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21999.26, 'epoch': 2.42}
 81%|███████████████████████████████████████████████████████████████████████████████████                    | 2311/2865 [2:28:16<33:53,  3.67s/it] 81%|███████████████████████████████████████████████████████████████████████████████████                    | 2312/2865 [2:28:19<31:52,  3.46s/it]                                                                                                                                                  {'loss': 11.0286, 'grad_norm': 1.1171875, 'learning_rate': 5.480008392729055e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22307.46, 'epoch': 2.42}
 81%|███████████████████████████████████████████████████████████████████████████████████                    | 2312/2865 [2:28:19<31:52,  3.46s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▏                   | 2313/2865 [2:28:22<30:26,  3.31s/it]                                                                                                                                                  {'loss': 11.002, 'grad_norm': 1.0234375, 'learning_rate': 5.46099603946314e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22440.67, 'epoch': 2.42}
 81%|███████████████████████████████████████████████████████████████████████████████████▏                   | 2313/2865 [2:28:22<30:26,  3.31s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▏                   | 2314/2865 [2:28:25<29:22,  3.20s/it]                                                                                                                                                  {'loss': 11.0027, 'grad_norm': 1.1796875, 'learning_rate': 5.442012679616002e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21193.32, 'epoch': 2.42}
 81%|███████████████████████████████████████████████████████████████████████████████████▏                   | 2314/2865 [2:28:25<29:22,  3.20s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▏                   | 2315/2865 [2:28:28<28:39,  3.13s/it]                                                                                                                                                  {'loss': 10.9885, 'grad_norm': 1.0390625, 'learning_rate': 5.423058341356535e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21054.5, 'epoch': 2.42}
 81%|███████████████████████████████████████████████████████████████████████████████████▏                   | 2315/2865 [2:28:28<28:39,  3.13s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▎                   | 2316/2865 [2:28:31<28:08,  3.08s/it]                                                                                                                                                  {'loss': 11.0317, 'grad_norm': 1.296875, 'learning_rate': 5.4041330528106034e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22300.61, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▎                   | 2316/2865 [2:28:31<28:08,  3.08s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▎                   | 2317/2865 [2:28:34<27:46,  3.04s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.0390625, 'learning_rate': 5.3852368420609425e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21152.51, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▎                   | 2317/2865 [2:28:34<27:46,  3.04s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▎                   | 2318/2865 [2:28:37<27:30,  3.02s/it]                                                                                                                                                  {'loss': 11.0258, 'grad_norm': 1.46875, 'learning_rate': 5.366369737147142e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21824.07, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▎                   | 2318/2865 [2:28:37<27:30,  3.02s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▎                   | 2319/2865 [2:28:40<27:19,  3.00s/it]                                                                                                                                                  {'loss': 11.0183, 'grad_norm': 1.0234375, 'learning_rate': 5.347531766065619e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22292.08, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▎                   | 2319/2865 [2:28:40<27:19,  3.00s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▍                   | 2320/2865 [2:28:43<27:08,  2.99s/it]                                                                                                                                                  {'loss': 11.0234, 'grad_norm': 1.03125, 'learning_rate': 5.3287229567695355e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20467.05, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▍                   | 2320/2865 [2:28:43<27:08,  2.99s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▍                   | 2321/2865 [2:28:46<27:02,  2.98s/it]                                                                                                                                                  {'loss': 11.0093, 'grad_norm': 1.046875, 'learning_rate': 5.3099433371688075e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22846.44, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▍                   | 2321/2865 [2:28:46<27:02,  2.98s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▍                   | 2322/2865 [2:28:49<26:54,  2.97s/it]                                                                                                                                                  {'loss': 11.0052, 'grad_norm': 1.1875, 'learning_rate': 5.2911929351300074e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21438.64, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▍                   | 2322/2865 [2:28:49<26:54,  2.97s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▌                   | 2323/2865 [2:28:52<26:49,  2.97s/it]                                                                                                                                                  {'loss': 11.03, 'grad_norm': 1.0234375, 'learning_rate': 5.272471778476381e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21913.38, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▌                   | 2323/2865 [2:28:52<26:49,  2.97s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▌                   | 2324/2865 [2:28:54<26:44,  2.97s/it]                                                                                                                                                  {'loss': 11.02, 'grad_norm': 1.1328125, 'learning_rate': 5.253779894987756e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21966.65, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▌                   | 2324/2865 [2:28:54<26:44,  2.97s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▌                   | 2325/2865 [2:28:57<26:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0519, 'grad_norm': 1.03125, 'learning_rate': 5.235117312400534e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22180.84, 'epoch': 2.43}
 81%|███████████████████████████████████████████████████████████████████████████████████▌                   | 2325/2865 [2:28:57<26:41,  2.96s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▌                   | 2326/2865 [2:29:00<26:38,  2.97s/it]                                                                                                                                                  {'loss': 11.02, 'grad_norm': 1.0859375, 'learning_rate': 5.216484058407642e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22573.2, 'epoch': 2.44}
 81%|███████████████████████████████████████████████████████████████████████████████████▌                   | 2326/2865 [2:29:00<26:38,  2.97s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▋                   | 2327/2865 [2:29:03<26:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0422, 'grad_norm': 1.0390625, 'learning_rate': 5.197880160658466e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22507.6, 'epoch': 2.44}
 81%|███████████████████████████████████████████████████████████████████████████████████▋                   | 2327/2865 [2:29:03<26:34,  2.96s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▋                   | 2328/2865 [2:29:06<26:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0216, 'grad_norm': 1.1015625, 'learning_rate': 5.1793056467588586e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22006.28, 'epoch': 2.44}
 81%|███████████████████████████████████████████████████████████████████████████████████▋                   | 2328/2865 [2:29:06<26:30,  2.96s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▋                   | 2329/2865 [2:29:09<26:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0093, 'grad_norm': 1.109375, 'learning_rate': 5.160760544271049e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20751.93, 'epoch': 2.44}
 81%|███████████████████████████████████████████████████████████████████████████████████▋                   | 2329/2865 [2:29:09<26:25,  2.96s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▊                   | 2330/2865 [2:29:12<26:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0014, 'grad_norm': 1.046875, 'learning_rate': 5.142244880713637e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21389.4, 'epoch': 2.44}
 81%|███████████████████████████████████████████████████████████████████████████████████▊                   | 2330/2865 [2:29:12<26:22,  2.96s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▊                   | 2331/2865 [2:29:15<26:18,  2.96s/it]                                                                                                                                                  {'loss': 11.021, 'grad_norm': 1.0390625, 'learning_rate': 5.123758683561522e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21410.63, 'epoch': 2.44}
 81%|███████████████████████████████████████████████████████████████████████████████████▊                   | 2331/2865 [2:29:15<26:18,  2.96s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▊                   | 2332/2865 [2:29:18<26:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.046875, 'learning_rate': 5.105301980245908e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21459.23, 'epoch': 2.44}
 81%|███████████████████████████████████████████████████████████████████████████████████▊                   | 2332/2865 [2:29:18<26:16,  2.96s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▊                   | 2333/2865 [2:29:21<26:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0297, 'grad_norm': 1.078125, 'learning_rate': 5.086874798154204e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22532.17, 'epoch': 2.44}
 81%|███████████████████████████████████████████████████████████████████████████████████▊                   | 2333/2865 [2:29:21<26:14,  2.96s/it] 81%|███████████████████████████████████████████████████████████████████████████████████▉                   | 2334/2865 [2:29:24<26:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0057, 'grad_norm': 1.0234375, 'learning_rate': 5.06847716463002e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21436.32, 'epoch': 2.44}
 81%|███████████████████████████████████████████████████████████████████████████████████▉                   | 2334/2865 [2:29:24<26:10,  2.96s/it] 82%|███████████████████████████████████████████████████████████████████████████████████▉                   | 2335/2865 [2:29:27<26:05,  2.95s/it]                                                                                                                                                  {'loss': 11.001, 'grad_norm': 1.03125, 'learning_rate': 5.050109106973139e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21127.83, 'epoch': 2.45}
 82%|███████████████████████████████████████████████████████████████████████████████████▉                   | 2335/2865 [2:29:27<26:05,  2.95s/it] 82%|███████████████████████████████████████████████████████████████████████████████████▉                   | 2336/2865 [2:29:30<26:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0254, 'grad_norm': 1.140625, 'learning_rate': 5.031770652439433e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22168.09, 'epoch': 2.45}
 82%|███████████████████████████████████████████████████████████████████████████████████▉                   | 2336/2865 [2:29:30<26:04,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████                   | 2337/2865 [2:29:33<26:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0285, 'grad_norm': 1.046875, 'learning_rate': 5.013461828240862e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21086.36, 'epoch': 2.45}
 82%|████████████████████████████████████████████████████████████████████████████████████                   | 2337/2865 [2:29:33<26:00,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████                   | 2338/2865 [2:29:36<25:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0179, 'grad_norm': 1.0625, 'learning_rate': 4.9951826615454085e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22150.8, 'epoch': 2.45}
 82%|████████████████████████████████████████████████████████████████████████████████████                   | 2338/2865 [2:29:36<25:57,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████                   | 2339/2865 [2:29:39<25:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0103, 'grad_norm': 1.0234375, 'learning_rate': 4.976933179477058e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22468.48, 'epoch': 2.45}
 82%|████████████████████████████████████████████████████████████████████████████████████                   | 2339/2865 [2:29:39<25:55,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▏                  | 2340/2865 [2:29:42<25:52,  2.96s/it]                                                                                                                                                  {'loss': 11.033, 'grad_norm': 1.0390625, 'learning_rate': 4.958713409115731e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22264.08, 'epoch': 2.45}
 82%|████████████████████████████████████████████████████████████████████████████████████▏                  | 2340/2865 [2:29:42<25:52,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▏                  | 2341/2865 [2:29:45<25:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0115, 'grad_norm': 1.03125, 'learning_rate': 4.940523377497286e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22219.21, 'epoch': 2.45}
 82%|████████████████████████████████████████████████████████████████████████████████████▏                  | 2341/2865 [2:29:45<25:49,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▏                  | 2342/2865 [2:29:48<25:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0249, 'grad_norm': 1.0234375, 'learning_rate': 4.922363111613423e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22608.6, 'epoch': 2.45}
 82%|████████████████████████████████████████████████████████████████████████████████████▏                  | 2342/2865 [2:29:48<25:47,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▏                  | 2343/2865 [2:29:51<25:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0081, 'grad_norm': 1.046875, 'learning_rate': 4.904232638411688e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22624.71, 'epoch': 2.45}
 82%|████████████████████████████████████████████████████████████████████████████████████▏                  | 2343/2865 [2:29:51<25:44,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▎                  | 2344/2865 [2:29:54<25:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0135, 'grad_norm': 1.0625, 'learning_rate': 4.886131984795428e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21438.59, 'epoch': 2.45}
 82%|████████████████████████████████████████████████████████████████████████████████████▎                  | 2344/2865 [2:29:54<25:41,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▎                  | 2345/2865 [2:29:57<25:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0166, 'grad_norm': 1.03125, 'learning_rate': 4.868061177623717e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22528.04, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▎                  | 2345/2865 [2:29:57<25:38,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▎                  | 2346/2865 [2:30:00<25:33,  2.95s/it]                                                                                                                                                  {'loss': 11.0111, 'grad_norm': 1.03125, 'learning_rate': 4.850020243711367e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20974.36, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▎                  | 2346/2865 [2:30:00<25:33,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▍                  | 2347/2865 [2:30:02<25:31,  2.96s/it]                                                                                                                                                  {'loss': 11.014, 'grad_norm': 1.0390625, 'learning_rate': 4.8320092098288416e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20875.08, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▍                  | 2347/2865 [2:30:03<25:31,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▍                  | 2348/2865 [2:30:05<25:27,  2.95s/it]                                                                                                                                                  {'loss': 11.0086, 'grad_norm': 1.21875, 'learning_rate': 4.8140281027022535e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20946.84, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▍                  | 2348/2865 [2:30:05<25:27,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▍                  | 2349/2865 [2:30:08<25:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0039, 'grad_norm': 1.078125, 'learning_rate': 4.796076949013292e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20818.26, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▍                  | 2349/2865 [2:30:08<25:23,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▍                  | 2350/2865 [2:30:11<25:20,  2.95s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.1953125, 'learning_rate': 4.778155775399201e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21786.39, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▍                  | 2350/2865 [2:30:11<25:20,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▌                  | 2351/2865 [2:30:14<25:17,  2.95s/it]                                                                                                                                                  {'loss': 11.02, 'grad_norm': 1.015625, 'learning_rate': 4.760264608452758e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21845.68, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▌                  | 2351/2865 [2:30:14<25:17,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▌                  | 2352/2865 [2:30:17<25:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0067, 'grad_norm': 1.0234375, 'learning_rate': 4.742403474722185e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21430.54, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▌                  | 2352/2865 [2:30:17<25:15,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▌                  | 2353/2865 [2:30:20<25:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0289, 'grad_norm': 1.0546875, 'learning_rate': 4.724572400711163e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21859.8, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▌                  | 2353/2865 [2:30:20<25:13,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▋                  | 2354/2865 [2:30:23<25:09,  2.95s/it]                                                                                                                                                  {'loss': 11.0046, 'grad_norm': 1.0859375, 'learning_rate': 4.70677141287875e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20609.37, 'epoch': 2.46}
 82%|████████████████████████████████████████████████████████████████████████████████████▋                  | 2354/2865 [2:30:23<25:09,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▋                  | 2355/2865 [2:30:26<25:06,  2.95s/it]                                                                                                                                                  {'loss': 10.9908, 'grad_norm': 1.0625, 'learning_rate': 4.6890005376393736e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22181.94, 'epoch': 2.47}
 82%|████████████████████████████████████████████████████████████████████████████████████▋                  | 2355/2865 [2:30:26<25:06,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▋                  | 2356/2865 [2:30:29<25:05,  2.96s/it]                                                                                                                                                  {'loss': 11.012, 'grad_norm': 1.03125, 'learning_rate': 4.671259801362768e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21518.67, 'epoch': 2.47}
 82%|████████████████████████████████████████████████████████████████████████████████████▋                  | 2356/2865 [2:30:29<25:05,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▋                  | 2357/2865 [2:30:32<25:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0218, 'grad_norm': 1.140625, 'learning_rate': 4.653549230373958e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22141.31, 'epoch': 2.47}
 82%|████████████████████████████████████████████████████████████████████████████████████▋                  | 2357/2865 [2:30:32<25:02,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▊                  | 2358/2865 [2:30:35<24:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0106, 'grad_norm': 1.0234375, 'learning_rate': 4.635868850953184e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21726.59, 'epoch': 2.47}
 82%|████████████████████████████████████████████████████████████████████████████████████▊                  | 2358/2865 [2:30:35<24:58,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▊                  | 2359/2865 [2:30:38<24:55,  2.95s/it]                                                                                                                                                  {'loss': 10.9972, 'grad_norm': 1.1171875, 'learning_rate': 4.6182186893359185e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21178.91, 'epoch': 2.47}
 82%|████████████████████████████████████████████████████████████████████████████████████▊                  | 2359/2865 [2:30:38<24:55,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▊                  | 2360/2865 [2:30:41<24:51,  2.95s/it]                                                                                                                                                  {'loss': 11.0081, 'grad_norm': 1.0234375, 'learning_rate': 4.600598771712758e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21210.53, 'epoch': 2.47}
 82%|████████████████████████████████████████████████████████████████████████████████████▊                  | 2360/2865 [2:30:41<24:51,  2.95s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▉                  | 2361/2865 [2:30:44<24:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0123, 'grad_norm': 1.078125, 'learning_rate': 4.583009124229454e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22287.96, 'epoch': 2.47}
 82%|████████████████████████████████████████████████████████████████████████████████████▉                  | 2361/2865 [2:30:44<24:51,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▉                  | 2362/2865 [2:30:47<24:47,  2.96s/it]                                                                                                                                                  {'loss': 10.9881, 'grad_norm': 1.09375, 'learning_rate': 4.565449772986813e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19787.59, 'epoch': 2.47}
 82%|████████████████████████████████████████████████████████████████████████████████████▉                  | 2362/2865 [2:30:47<24:47,  2.96s/it] 82%|████████████████████████████████████████████████████████████████████████████████████▉                  | 2363/2865 [2:30:50<24:44,  2.96s/it]                                                                                                                                                  {'loss': 10.9957, 'grad_norm': 1.2265625, 'learning_rate': 4.547920744040709e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20335.5, 'epoch': 2.47}
 82%|████████████████████████████████████████████████████████████████████████████████████▉                  | 2363/2865 [2:30:50<24:44,  2.96s/it] 83%|████████████████████████████████████████████████████████████████████████████████████▉                  | 2364/2865 [2:30:53<24:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0113, 'grad_norm': 1.0546875, 'learning_rate': 4.530422063402004e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20556.71, 'epoch': 2.48}
 83%|████████████████████████████████████████████████████████████████████████████████████▉                  | 2364/2865 [2:30:53<24:41,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████                  | 2365/2865 [2:30:56<24:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0399, 'grad_norm': 1.03125, 'learning_rate': 4.512953757036545e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20814.54, 'epoch': 2.48}
 83%|█████████████████████████████████████████████████████████████████████████████████████                  | 2365/2865 [2:30:56<24:40,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████                  | 2366/2865 [2:30:59<24:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0086, 'grad_norm': 1.0859375, 'learning_rate': 4.495515850865082e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20062.98, 'epoch': 2.48}
 83%|█████████████████████████████████████████████████████████████████████████████████████                  | 2366/2865 [2:30:59<24:35,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████                  | 2367/2865 [2:31:02<24:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0519, 'grad_norm': 1.0703125, 'learning_rate': 4.478108370763282e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21646.05, 'epoch': 2.48}
 83%|█████████████████████████████████████████████████████████████████████████████████████                  | 2367/2865 [2:31:02<24:32,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▏                 | 2368/2865 [2:31:05<24:29,  2.96s/it]                                                                                                                                                  {'loss': 10.9992, 'grad_norm': 1.0390625, 'learning_rate': 4.460731342561639e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21532.37, 'epoch': 2.48}
 83%|█████████████████████████████████████████████████████████████████████████████████████▏                 | 2368/2865 [2:31:05<24:29,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▏                 | 2369/2865 [2:31:08<24:26,  2.96s/it]                                                                                                                                                  {'loss': 10.9944, 'grad_norm': 1.0703125, 'learning_rate': 4.443384792045485e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21981.39, 'epoch': 2.48}
 83%|█████████████████████████████████████████████████████████████████████████████████████▏                 | 2369/2865 [2:31:08<24:26,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▏                 | 2370/2865 [2:31:10<24:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0305, 'grad_norm': 1.0234375, 'learning_rate': 4.426068744954903e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21105.86, 'epoch': 2.48}
 83%|█████████████████████████████████████████████████████████████████████████████████████▏                 | 2370/2865 [2:31:10<24:23,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▏                 | 2371/2865 [2:31:13<24:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0142, 'grad_norm': 1.03125, 'learning_rate': 4.408783226984736e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22370.09, 'epoch': 2.48}
 83%|█████████████████████████████████████████████████████████████████████████████████████▏                 | 2371/2865 [2:31:13<24:21,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▎                 | 2372/2865 [2:31:16<24:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.21875, 'learning_rate': 4.3915282637845e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20774.21, 'epoch': 2.48}
 83%|█████████████████████████████████████████████████████████████████████████████████████▎                 | 2372/2865 [2:31:16<24:16,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▎                 | 2373/2865 [2:31:19<24:13,  2.95s/it]                                                                                                                                                  {'loss': 11.0228, 'grad_norm': 1.03125, 'learning_rate': 4.3743038809583994e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21563.23, 'epoch': 2.48}
 83%|█████████████████████████████████████████████████████████████████████████████████████▎                 | 2373/2865 [2:31:19<24:13,  2.95s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▎                 | 2374/2865 [2:31:22<24:10,  2.95s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.0390625, 'learning_rate': 4.357110104065237e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19727.97, 'epoch': 2.49}
 83%|█████████████████████████████████████████████████████████████████████████████████████▎                 | 2374/2865 [2:31:22<24:10,  2.95s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▍                 | 2375/2865 [2:31:25<24:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0033, 'grad_norm': 1.0234375, 'learning_rate': 4.33994695861841e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21011.66, 'epoch': 2.49}
 83%|█████████████████████████████████████████████████████████████████████████████████████▍                 | 2375/2865 [2:31:25<24:08,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▍                 | 2376/2865 [2:31:28<24:04,  2.95s/it]                                                                                                                                                  {'loss': 11.0041, 'grad_norm': 1.1171875, 'learning_rate': 4.32281447008587e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21337.79, 'epoch': 2.49}
 83%|█████████████████████████████████████████████████████████████████████████████████████▍                 | 2376/2865 [2:31:28<24:04,  2.95s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▍                 | 2377/2865 [2:31:31<24:01,  2.95s/it]                                                                                                                                                  {'loss': 11.0277, 'grad_norm': 1.0390625, 'learning_rate': 4.3057126638900605e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21963.21, 'epoch': 2.49}
 83%|█████████████████████████████████████████████████████████████████████████████████████▍                 | 2377/2865 [2:31:31<24:01,  2.95s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▍                 | 2378/2865 [2:31:34<23:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0191, 'grad_norm': 1.109375, 'learning_rate': 4.2886415654079165e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21198.42, 'epoch': 2.49}
 83%|█████████████████████████████████████████████████████████████████████████████████████▍                 | 2378/2865 [2:31:34<23:59,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▌                 | 2379/2865 [2:31:37<23:56,  2.96s/it]                                                                                                                                                  {'loss': 10.9963, 'grad_norm': 1.1171875, 'learning_rate': 4.271601199970784e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19623.42, 'epoch': 2.49}
 83%|█████████████████████████████████████████████████████████████████████████████████████▌                 | 2379/2865 [2:31:37<23:56,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▌                 | 2380/2865 [2:31:40<23:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0182, 'grad_norm': 1.0234375, 'learning_rate': 4.254591592864432e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21942.16, 'epoch': 2.49}
 83%|█████████████████████████████████████████████████████████████████████████████████████▌                 | 2380/2865 [2:31:40<23:53,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▌                 | 2381/2865 [2:31:43<23:50,  2.95s/it]                                                                                                                                                  {'loss': 11.0033, 'grad_norm': 1.0390625, 'learning_rate': 4.237612769328958e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21986.36, 'epoch': 2.49}
 83%|█████████████████████████████████████████████████████████████████████████████████████▌                 | 2381/2865 [2:31:43<23:50,  2.95s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▋                 | 2382/2865 [2:31:46<23:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0403, 'grad_norm': 1.0625, 'learning_rate': 4.220664754558812e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22422.36, 'epoch': 2.49}
 83%|█████████████████████████████████████████████████████████████████████████████████████▋                 | 2382/2865 [2:31:46<23:49,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▋                 | 2383/2865 [2:31:49<23:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0212, 'grad_norm': 1.0625, 'learning_rate': 4.203747573702699e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21507.67, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▋                 | 2383/2865 [2:31:49<23:46,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▋                 | 2384/2865 [2:31:52<23:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0073, 'grad_norm': 1.1640625, 'learning_rate': 4.186861251863583e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21180.59, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▋                 | 2384/2865 [2:31:52<23:41,  2.95s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▋                 | 2385/2865 [2:31:55<23:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0213, 'grad_norm': 1.0859375, 'learning_rate': 4.170005814098643e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21742.21, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▋                 | 2385/2865 [2:31:55<23:39,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▊                 | 2386/2865 [2:31:58<23:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0276, 'grad_norm': 1.0234375, 'learning_rate': 4.1531812854192196e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22301.19, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▊                 | 2386/2865 [2:31:58<23:35,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▊                 | 2387/2865 [2:32:01<23:33,  2.96s/it]                                                                                                                                                  {'loss': 10.9983, 'grad_norm': 1.140625, 'learning_rate': 4.136387690790797e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21658.54, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▊                 | 2387/2865 [2:32:01<23:33,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▊                 | 2388/2865 [2:32:04<23:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0191, 'grad_norm': 1.03125, 'learning_rate': 4.119625055132942e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22123.83, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▊                 | 2388/2865 [2:32:04<23:31,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▉                 | 2389/2865 [2:32:07<23:26,  2.95s/it]                                                                                                                                                  {'loss': 10.9975, 'grad_norm': 1.03125, 'learning_rate': 4.102893403319308e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21040.03, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▉                 | 2389/2865 [2:32:07<23:26,  2.95s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▉                 | 2390/2865 [2:32:10<23:22,  2.95s/it]                                                                                                                                                  {'loss': 11.0163, 'grad_norm': 1.09375, 'learning_rate': 4.086192760177543e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20437.82, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▉                 | 2390/2865 [2:32:10<23:22,  2.95s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▉                 | 2391/2865 [2:32:13<23:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0306, 'grad_norm': 1.0234375, 'learning_rate': 4.06952315048931e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21482.12, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▉                 | 2391/2865 [2:32:13<23:21,  2.96s/it] 83%|█████████████████████████████████████████████████████████████████████████████████████▉                 | 2392/2865 [2:32:16<23:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0165, 'grad_norm': 1.359375, 'learning_rate': 4.0528845989902e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21310.75, 'epoch': 2.5}
 83%|█████████████████████████████████████████████████████████████████████████████████████▉                 | 2392/2865 [2:32:16<23:18,  2.96s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████                 | 2393/2865 [2:32:18<23:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0238, 'grad_norm': 1.1484375, 'learning_rate': 4.03627713036972e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21764.5, 'epoch': 2.51}
 84%|██████████████████████████████████████████████████████████████████████████████████████                 | 2393/2865 [2:32:18<23:15,  2.96s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████                 | 2394/2865 [2:32:21<23:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.0625, 'learning_rate': 4.019700769271273e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21616.84, 'epoch': 2.51}
 84%|██████████████████████████████████████████████████████████████████████████████████████                 | 2394/2865 [2:32:21<23:13,  2.96s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████                 | 2395/2865 [2:32:24<23:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0194, 'grad_norm': 1.0390625, 'learning_rate': 4.0031555402920774e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21119.3, 'epoch': 2.51}
 84%|██████████████████████████████████████████████████████████████████████████████████████                 | 2395/2865 [2:32:24<23:10,  2.96s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▏                | 2396/2865 [2:32:27<23:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0063, 'grad_norm': 1.0390625, 'learning_rate': 3.986641467983179e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21062.28, 'epoch': 2.51}
 84%|██████████████████████████████████████████████████████████████████████████████████████▏                | 2396/2865 [2:32:27<23:06,  2.96s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▏                | 2397/2865 [2:32:30<23:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0131, 'grad_norm': 1.03125, 'learning_rate': 3.970158576849367e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20455.83, 'epoch': 2.51}
 84%|██████████████████████████████████████████████████████████████████████████████████████▏                | 2397/2865 [2:32:30<23:04,  2.96s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▏                | 2398/2865 [2:32:33<23:01,  2.96s/it]                                                                                                                                                  {'loss': 10.9984, 'grad_norm': 1.0546875, 'learning_rate': 3.953706891349185e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22153.46, 'epoch': 2.51}
 84%|██████████████████████████████████████████████████████████████████████████████████████▏                | 2398/2865 [2:32:33<23:01,  2.96s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▏                | 2399/2865 [2:32:36<22:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0097, 'grad_norm': 1.140625, 'learning_rate': 3.937286435894852e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21884.21, 'epoch': 2.51}
 84%|██████████████████████████████████████████████████████████████████████████████████████▏                | 2399/2865 [2:32:36<22:58,  2.96s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▎                | 2400/2865 [2:32:39<22:54,  2.96s/it]                                                                                                                                                  {'loss': 11.0046, 'grad_norm': 1.078125, 'learning_rate': 3.920897234852256e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21695.39, 'epoch': 2.51}
 84%|██████████████████████████████████████████████████████████████████████████████████████▎                | 2400/2865 [2:32:39<22:54,  2.96s/it][2025-10-12 05:41:31,998] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<04:28,  1.46s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:05,  1.02s/it][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:21,  1.28it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<01:55,  1.56it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:40,  1.79it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:28,  2.00it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:23,  2.13it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:18,  2.24it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:15,  2.30it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.35it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:10,  2.46it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:09,  2.46it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:09,  2.47it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:08,  2.48it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:07,  2.51it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.54it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:06,  2.51it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:04,  2.58it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:10<01:05,  2.50it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:04,  2.53it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.52it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:02,  2.58it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.54it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.54it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:03,  2.51it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:02,  2.54it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:00,  2.58it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:01,  2.55it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.55it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.56it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.53it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.55it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:58,  2.60it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:58,  2.58it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:58,  2.57it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.53it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:57,  2.57it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:56,  2.56it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:56,  2.59it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:57,  2.51it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:57,  2.51it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:19<00:56,  2.53it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:54,  2.57it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:55,  2.53it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.53it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.52it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.56it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:53,  2.53it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:52,  2.55it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:52,  2.53it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.52it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:52,  2.52it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.52it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:50,  2.56it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:49,  2.61it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:51,  2.49it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:50,  2.52it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:49,  2.54it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:48,  2.56it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:47,  2.61it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.51it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.54it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.56it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.52it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:28<00:46,  2.55it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:45,  2.57it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:44,  2.60it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.58it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:44,  2.58it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.52it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.52it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.55it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.52it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.55it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.53it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:42,  2.54it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:42,  2.52it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.53it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:41,  2.53it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.53it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:40,  2.52it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:35<00:39,  2.54it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:39,  2.51it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:38,  2.56it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.54it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.54it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:37<00:37,  2.58it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.53it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:37,  2.54it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:35,  2.65it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:36,  2.54it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:39<00:35,  2.54it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.54it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.55it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:35,  2.51it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.53it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.59it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:32,  2.64it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.57it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:33,  2.49it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:32,  2.49it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:43<00:32,  2.50it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:30,  2.59it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.51it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.52it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:30,  2.52it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.54it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.54it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.56it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:46<00:28,  2.59it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.55it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:28,  2.51it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.59it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.55it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:48<00:26,  2.54it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:25,  2.63it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.57it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.58it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.54it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:23,  2.63it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.56it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:23,  2.59it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.52it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.54it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.53it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.56it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.54it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:20,  2.62it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:21,  2.50it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.51it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:20,  2.51it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:55<00:19,  2.53it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.52it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.54it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.58it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:17,  2.57it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:57<00:17,  2.52it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.56it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.53it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.55it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.55it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:59<00:15,  2.58it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.51it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.57it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:01<00:13,  2.51it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.53it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:13,  2.53it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.63it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.51it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.53it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.53it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:11,  2.51it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:04<00:10,  2.62it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.52it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.52it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.51it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.54it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:06<00:08,  2.52it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.54it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.61it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.58it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.52it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:08<00:06,  2.53it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.50it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.54it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.56it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.53it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:10<00:04,  2.53it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.55it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.55it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.56it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:12<00:02,  2.59it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.58it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.56it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:13<00:01,  2.51it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.53it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:14<00:00,  2.54it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.55it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.03it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.99499225616455, 'eval_runtime': 78.2285, 'eval_samples_per_second': 151.569, 'eval_steps_per_second': 2.378, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 2.51}
 84%|██████████████████████████████████████████████████████████████████████████████████████▎                | 2400/2865 [2:33:57<22:54,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.03it/s][A
                                                                                                                                                  [A[2025-10-12 05:42:50,260] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2400
 84%|████████████████████████████████████████████████████████████████████████████████████▋                | 2401/2865 [2:34:07<3:40:09, 28.47s/it]                                                                                                                                                  {'loss': 11.0267, 'grad_norm': 1.0703125, 'learning_rate': 3.904539312540911e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19253.98, 'epoch': 2.51}
 84%|████████████████████████████████████████████████████████████████████████████████████▋                | 2401/2865 [2:34:07<3:40:09, 28.47s/it] 84%|████████████████████████████████████████████████████████████████████████████████████▋                | 2402/2865 [2:34:10<2:40:35, 20.81s/it]                                                                                                                                                  {'loss': 11.0116, 'grad_norm': 1.140625, 'learning_rate': 3.888212693233903e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20215.4, 'epoch': 2.52}
 84%|████████████████████████████████████████████████████████████████████████████████████▋                | 2402/2865 [2:34:10<2:40:35, 20.81s/it] 84%|████████████████████████████████████████████████████████████████████████████████████▋                | 2403/2865 [2:34:13<1:58:58, 15.45s/it]                                                                                                                                                  {'loss': 11.0111, 'grad_norm': 1.0234375, 'learning_rate': 3.871917401157887e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21558.44, 'epoch': 2.52}
 84%|████████████████████████████████████████████████████████████████████████████████████▋                | 2403/2865 [2:34:13<1:58:58, 15.45s/it] 84%|████████████████████████████████████████████████████████████████████████████████████▋                | 2404/2865 [2:34:16<1:29:53, 11.70s/it]                                                                                                                                                  {'loss': 11.0068, 'grad_norm': 1.046875, 'learning_rate': 3.855653460493011e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21600.97, 'epoch': 2.52}
 84%|████████████████████████████████████████████████████████████████████████████████████▋                | 2404/2865 [2:34:16<1:29:53, 11.70s/it] 84%|████████████████████████████████████████████████████████████████████████████████████▊                | 2405/2865 [2:34:19<1:09:33,  9.07s/it]                                                                                                                                                  {'loss': 11.0258, 'grad_norm': 1.03125, 'learning_rate': 3.839420895372925e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21979.01, 'epoch': 2.52}
 84%|████████████████████████████████████████████████████████████████████████████████████▊                | 2405/2865 [2:34:19<1:09:33,  9.07s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▍                | 2406/2865 [2:34:22<55:21,  7.24s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.03125, 'learning_rate': 3.8232197298846945e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20951.73, 'epoch': 2.52}
 84%|██████████████████████████████████████████████████████████████████████████████████████▍                | 2406/2865 [2:34:22<55:21,  7.24s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▌                | 2407/2865 [2:34:25<45:25,  5.95s/it]                                                                                                                                                  {'loss': 11.024, 'grad_norm': 1.0390625, 'learning_rate': 3.8070499880688225e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22043.02, 'epoch': 2.52}
 84%|██████████████████████████████████████████████████████████████████████████████████████▌                | 2407/2865 [2:34:25<45:25,  5.95s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▌                | 2408/2865 [2:34:28<38:28,  5.05s/it]                                                                                                                                                  {'loss': 11.0162, 'grad_norm': 1.0234375, 'learning_rate': 3.790911693919158e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20976.59, 'epoch': 2.52}
 84%|██████████████████████████████████████████████████████████████████████████████████████▌                | 2408/2865 [2:34:28<38:28,  5.05s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▌                | 2409/2865 [2:34:31<33:36,  4.42s/it]                                                                                                                                                  {'loss': 11.0118, 'grad_norm': 1.03125, 'learning_rate': 3.774804871382892e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22257.84, 'epoch': 2.52}
 84%|██████████████████████████████████████████████████████████████████████████████████████▌                | 2409/2865 [2:34:31<33:36,  4.42s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▋                | 2410/2865 [2:34:34<30:12,  3.98s/it]                                                                                                                                                  {'loss': 11.02, 'grad_norm': 1.1484375, 'learning_rate': 3.7587295443605287e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22265.1, 'epoch': 2.52}
 84%|██████████████████████████████████████████████████████████████████████████████████████▋                | 2410/2865 [2:34:34<30:12,  3.98s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▋                | 2411/2865 [2:34:37<27:49,  3.68s/it]                                                                                                                                                  {'loss': 11.0234, 'grad_norm': 1.046875, 'learning_rate': 3.742685736705817e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21538.69, 'epoch': 2.52}
 84%|██████████████████████████████████████████████████████████████████████████████████████▋                | 2411/2865 [2:34:37<27:49,  3.68s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▋                | 2412/2865 [2:34:40<26:07,  3.46s/it]                                                                                                                                                  {'loss': 11.0049, 'grad_norm': 1.1015625, 'learning_rate': 3.7266734722257556e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20457.21, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████▋                | 2412/2865 [2:34:40<26:07,  3.46s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▊                | 2413/2865 [2:34:43<24:54,  3.31s/it]                                                                                                                                                  {'loss': 11.0159, 'grad_norm': 1.046875, 'learning_rate': 3.710692774680513e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21120.8, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                | 2413/2865 [2:34:43<24:54,  3.31s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▊                | 2414/2865 [2:34:46<24:05,  3.21s/it]                                                                                                                                                  {'loss': 11.0161, 'grad_norm': 1.0390625, 'learning_rate': 3.694743667783446e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22335.51, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                | 2414/2865 [2:34:46<24:05,  3.21s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▊                | 2415/2865 [2:34:48<23:27,  3.13s/it]                                                                                                                                                  {'loss': 10.9907, 'grad_norm': 1.03125, 'learning_rate': 3.678826175201e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21515.78, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                | 2415/2865 [2:34:49<23:27,  3.13s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▊                | 2416/2865 [2:34:51<23:01,  3.08s/it]                                                                                                                                                  {'loss': 11.0126, 'grad_norm': 1.0234375, 'learning_rate': 3.6629403205527464e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21978.89, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████▊                | 2416/2865 [2:34:51<23:01,  3.08s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▉                | 2417/2865 [2:34:54<22:43,  3.04s/it]                                                                                                                                                  {'loss': 11.0271, 'grad_norm': 1.03125, 'learning_rate': 3.647086127411281e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20745.66, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                | 2417/2865 [2:34:54<22:43,  3.04s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▉                | 2418/2865 [2:34:57<22:28,  3.02s/it]                                                                                                                                                  {'loss': 10.9948, 'grad_norm': 1.0703125, 'learning_rate': 3.631263619302225e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21007.05, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                | 2418/2865 [2:34:57<22:28,  3.02s/it] 84%|██████████████████████████████████████████████████████████████████████████████████████▉                | 2419/2865 [2:35:00<22:16,  3.00s/it]                                                                                                                                                  {'loss': 11.0163, 'grad_norm': 1.0234375, 'learning_rate': 3.6154728197041937e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21449.64, 'epoch': 2.53}
 84%|██████████████████████████████████████████████████████████████████████████████████████▉                | 2419/2865 [2:35:00<22:16,  3.00s/it] 84%|███████████████████████████████████████████████████████████████████████████████████████                | 2420/2865 [2:35:03<22:08,  2.99s/it]                                                                                                                                                  {'loss': 11.0037, 'grad_norm': 1.0234375, 'learning_rate': 3.5997137520487336e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19950.23, 'epoch': 2.53}
 84%|███████████████████████████████████████████████████████████████████████████████████████                | 2420/2865 [2:35:03<22:08,  2.99s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████                | 2421/2865 [2:35:06<22:01,  2.98s/it]                                                                                                                                                  {'loss': 11.0066, 'grad_norm': 1.1171875, 'learning_rate': 3.5839864397203244e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21554.69, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████                | 2421/2865 [2:35:06<22:01,  2.98s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████                | 2422/2865 [2:35:09<21:56,  2.97s/it]                                                                                                                                                  {'loss': 11.035, 'grad_norm': 1.0703125, 'learning_rate': 3.568290906056307e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21789.3, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████                | 2422/2865 [2:35:09<21:56,  2.97s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████                | 2423/2865 [2:35:12<21:52,  2.97s/it]                                                                                                                                                  {'loss': 11.0345, 'grad_norm': 1.0625, 'learning_rate': 3.5526271743468814e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22359.3, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████                | 2423/2865 [2:35:12<21:52,  2.97s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▏               | 2424/2865 [2:35:15<21:46,  2.96s/it]                                                                                                                                                  {'loss': 11.036, 'grad_norm': 1.046875, 'learning_rate': 3.53699526783505e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20413.7, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████▏               | 2424/2865 [2:35:15<21:46,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▏               | 2425/2865 [2:35:18<21:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0209, 'grad_norm': 1.015625, 'learning_rate': 3.5213952097165824e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20745.84, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████▏               | 2425/2865 [2:35:18<21:42,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▏               | 2426/2865 [2:35:21<21:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0321, 'grad_norm': 1.09375, 'learning_rate': 3.5058270231400127e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21115.21, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████▏               | 2426/2865 [2:35:21<21:37,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▎               | 2427/2865 [2:35:24<21:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0091, 'grad_norm': 1.3359375, 'learning_rate': 3.4902907312065496e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22069.0, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████▎               | 2427/2865 [2:35:24<21:35,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▎               | 2428/2865 [2:35:27<21:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0108, 'grad_norm': 1.1796875, 'learning_rate': 3.4747863569701113e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22451.64, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████▎               | 2428/2865 [2:35:27<21:33,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▎               | 2429/2865 [2:35:30<21:30,  2.96s/it]                                                                                                                                                  {'loss': 10.9964, 'grad_norm': 1.046875, 'learning_rate': 3.4593139234372184e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20829.68, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████▎               | 2429/2865 [2:35:30<21:30,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▎               | 2430/2865 [2:35:33<21:25,  2.96s/it]                                                                                                                                                  {'loss': 11.004, 'grad_norm': 1.1015625, 'learning_rate': 3.443873453567026e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21328.63, 'epoch': 2.54}
 85%|███████████████████████████████████████████████████████████████████████████████████████▎               | 2430/2865 [2:35:33<21:25,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▍               | 2431/2865 [2:35:36<21:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0242, 'grad_norm': 1.0234375, 'learning_rate': 3.4284649702712306e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21414.17, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▍               | 2431/2865 [2:35:36<21:24,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▍               | 2432/2865 [2:35:39<21:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0014, 'grad_norm': 1.109375, 'learning_rate': 3.413088496414091e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20555.85, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▍               | 2432/2865 [2:35:39<21:19,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▍               | 2433/2865 [2:35:42<21:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0075, 'grad_norm': 1.0859375, 'learning_rate': 3.397744054812346e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20174.13, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▍               | 2433/2865 [2:35:42<21:17,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▌               | 2434/2865 [2:35:45<21:14,  2.96s/it]                                                                                                                                                  {'loss': 10.9955, 'grad_norm': 1.03125, 'learning_rate': 3.3824316682352224e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21712.65, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▌               | 2434/2865 [2:35:45<21:14,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▌               | 2435/2865 [2:35:48<21:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0264, 'grad_norm': 1.0234375, 'learning_rate': 3.367151359404361e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21511.53, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▌               | 2435/2865 [2:35:48<21:11,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▌               | 2436/2865 [2:35:51<21:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0288, 'grad_norm': 1.09375, 'learning_rate': 3.3519031509938265e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22812.19, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▌               | 2436/2865 [2:35:51<21:09,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▌               | 2437/2865 [2:35:54<21:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0089, 'grad_norm': 1.0546875, 'learning_rate': 3.336687065630026e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20805.02, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▌               | 2437/2865 [2:35:54<21:06,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▋               | 2438/2865 [2:35:57<21:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0185, 'grad_norm': 1.1953125, 'learning_rate': 3.32150312589172e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22132.64, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▋               | 2438/2865 [2:35:57<21:02,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▋               | 2439/2865 [2:35:59<20:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0277, 'grad_norm': 1.0625, 'learning_rate': 3.3063513543099558e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21793.63, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▋               | 2439/2865 [2:35:59<20:59,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▋               | 2440/2865 [2:36:02<20:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0043, 'grad_norm': 1.0625, 'learning_rate': 3.2912317733680586e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21347.01, 'epoch': 2.55}
 85%|███████████████████████████████████████████████████████████████████████████████████████▋               | 2440/2865 [2:36:02<20:56,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▊               | 2441/2865 [2:36:05<20:53,  2.96s/it]                                                                                                                                                  {'loss': 10.9977, 'grad_norm': 1.125, 'learning_rate': 3.2761444055015717e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21880.97, 'epoch': 2.56}
 85%|███████████████████████████████████████████████████████████████████████████████████████▊               | 2441/2865 [2:36:05<20:53,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▊               | 2442/2865 [2:36:08<20:49,  2.95s/it]                                                                                                                                                  {'loss': 11.0079, 'grad_norm': 1.0234375, 'learning_rate': 3.2610892730982558e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21324.18, 'epoch': 2.56}
 85%|███████████████████████████████████████████████████████████████████████████████████████▊               | 2442/2865 [2:36:08<20:49,  2.95s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▊               | 2443/2865 [2:36:11<20:47,  2.95s/it]                                                                                                                                                  {'loss': 11.019, 'grad_norm': 1.03125, 'learning_rate': 3.246066398498021e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22156.78, 'epoch': 2.56}
 85%|███████████████████████████████████████████████████████████████████████████████████████▊               | 2443/2865 [2:36:11<20:47,  2.95s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▊               | 2444/2865 [2:36:14<20:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0256, 'grad_norm': 1.046875, 'learning_rate': 3.231075803992931e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21109.08, 'epoch': 2.56}
 85%|███████████████████████████████████████████████████████████████████████████████████████▊               | 2444/2865 [2:36:14<20:44,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▉               | 2445/2865 [2:36:17<20:42,  2.96s/it]                                                                                                                                                  {'loss': 11.0188, 'grad_norm': 1.1640625, 'learning_rate': 3.216117511827124e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22366.89, 'epoch': 2.56}
 85%|███████████████████████████████████████████████████████████████████████████████████████▉               | 2445/2865 [2:36:17<20:42,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▉               | 2446/2865 [2:36:20<20:39,  2.96s/it]                                                                                                                                                  {'loss': 11.0212, 'grad_norm': 1.0390625, 'learning_rate': 3.2011915441968354e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21382.38, 'epoch': 2.56}
 85%|███████████████████████████████████████████████████████████████████████████████████████▉               | 2446/2865 [2:36:20<20:39,  2.96s/it] 85%|███████████████████████████████████████████████████████████████████████████████████████▉               | 2447/2865 [2:36:23<20:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0182, 'grad_norm': 1.0390625, 'learning_rate': 3.186297923250303e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21087.67, 'epoch': 2.56}
 85%|███████████████████████████████████████████████████████████████████████████████████████▉               | 2447/2865 [2:36:23<20:35,  2.96s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████               | 2448/2865 [2:36:26<20:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0008, 'grad_norm': 1.0625, 'learning_rate': 3.171436671087799e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22432.82, 'epoch': 2.56}
 85%|████████████████████████████████████████████████████████████████████████████████████████               | 2448/2865 [2:36:26<20:33,  2.96s/it] 85%|████████████████████████████████████████████████████████████████████████████████████████               | 2449/2865 [2:36:29<20:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0128, 'grad_norm': 1.0703125, 'learning_rate': 3.1566078097615388e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20879.89, 'epoch': 2.56}
 85%|████████████████████████████████████████████████████████████████████████████████████████               | 2449/2865 [2:36:29<20:29,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████               | 2450/2865 [2:36:32<20:26,  2.95s/it]                                                                                                                                                  {'loss': 11.0074, 'grad_norm': 1.0390625, 'learning_rate': 3.141811361275679e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20515.87, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████               | 2450/2865 [2:36:32<20:26,  2.95s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████               | 2451/2865 [2:36:35<20:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0287, 'grad_norm': 1.03125, 'learning_rate': 3.127047347586298e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20974.38, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████               | 2451/2865 [2:36:35<20:23,  2.95s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▏              | 2452/2865 [2:36:38<20:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0391, 'grad_norm': 1.0390625, 'learning_rate': 3.112315790601314e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21977.16, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████▏              | 2452/2865 [2:36:38<20:20,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▏              | 2453/2865 [2:36:41<20:17,  2.95s/it]                                                                                                                                                  {'loss': 11.01, 'grad_norm': 1.0859375, 'learning_rate': 3.097616712180518e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21366.63, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████▏              | 2453/2865 [2:36:41<20:17,  2.95s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▏              | 2454/2865 [2:36:44<20:14,  2.96s/it]                                                                                                                                                  {'loss': 10.9892, 'grad_norm': 1.25, 'learning_rate': 3.0829501341354733e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20363.17, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████▏              | 2454/2865 [2:36:44<20:14,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▎              | 2455/2865 [2:36:47<20:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0259, 'grad_norm': 1.15625, 'learning_rate': 3.0683160782295468e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22145.4, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████▎              | 2455/2865 [2:36:47<20:13,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▎              | 2456/2865 [2:36:50<20:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0222, 'grad_norm': 1.0234375, 'learning_rate': 3.053714566177818e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21689.56, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████▎              | 2456/2865 [2:36:50<20:09,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▎              | 2457/2865 [2:36:53<20:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0102, 'grad_norm': 1.0546875, 'learning_rate': 3.0391456196471046e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22471.6, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████▎              | 2457/2865 [2:36:53<20:08,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▎              | 2458/2865 [2:36:56<20:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0142, 'grad_norm': 1.0234375, 'learning_rate': 3.0246092602558814e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22055.85, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████▎              | 2458/2865 [2:36:56<20:04,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▍              | 2459/2865 [2:36:59<20:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0139, 'grad_norm': 1.03125, 'learning_rate': 3.010105509574268e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20998.62, 'epoch': 2.57}
 86%|████████████████████████████████████████████████████████████████████████████████████████▍              | 2459/2865 [2:36:59<20:01,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▍              | 2460/2865 [2:37:02<19:58,  2.96s/it]                                                                                                                                                  {'loss': 11.0123, 'grad_norm': 1.0546875, 'learning_rate': 2.995634389124008e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20447.78, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████▍              | 2460/2865 [2:37:02<19:58,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▍              | 2461/2865 [2:37:05<19:55,  2.96s/it]                                                                                                                                                  {'loss': 10.9895, 'grad_norm': 1.1171875, 'learning_rate': 2.9811959203784157e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20885.49, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████▍              | 2461/2865 [2:37:05<19:55,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▌              | 2462/2865 [2:37:07<19:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0077, 'grad_norm': 1.0390625, 'learning_rate': 2.9667901247623643e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21117.08, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████▌              | 2462/2865 [2:37:07<19:51,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▌              | 2463/2865 [2:37:10<19:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0335, 'grad_norm': 1.0703125, 'learning_rate': 2.952417023652232e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20188.64, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████▌              | 2463/2865 [2:37:10<19:49,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▌              | 2464/2865 [2:37:13<19:47,  2.96s/it]                                                                                                                                                  {'loss': 10.9945, 'grad_norm': 1.0859375, 'learning_rate': 2.9380766383758946e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21708.34, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████▌              | 2464/2865 [2:37:13<19:47,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▌              | 2465/2865 [2:37:16<19:43,  2.96s/it]                                                                                                                                                  {'loss': 10.9981, 'grad_norm': 1.03125, 'learning_rate': 2.923768990212669e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21274.17, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████▌              | 2465/2865 [2:37:16<19:43,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▋              | 2466/2865 [2:37:19<19:41,  2.96s/it]                                                                                                                                                  {'loss': 11.003, 'grad_norm': 1.0234375, 'learning_rate': 2.9094941003933117e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21192.88, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████▋              | 2466/2865 [2:37:19<19:41,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▋              | 2467/2865 [2:37:22<19:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.1484375, 'learning_rate': 2.8952519900999564e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20555.89, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████▋              | 2467/2865 [2:37:22<19:37,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▋              | 2468/2865 [2:37:25<19:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0264, 'grad_norm': 1.03125, 'learning_rate': 2.8810426804660895e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23255.0, 'epoch': 2.58}
 86%|████████████████████████████████████████████████████████████████████████████████████████▋              | 2468/2865 [2:37:25<19:36,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▊              | 2469/2865 [2:37:28<19:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0061, 'grad_norm': 1.0234375, 'learning_rate': 2.8668661925765476e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22091.35, 'epoch': 2.59}
 86%|████████████████████████████████████████████████████████████████████████████████████████▊              | 2469/2865 [2:37:28<19:32,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▊              | 2470/2865 [2:37:31<19:32,  2.97s/it]                                                                                                                                                  {'loss': 11.0012, 'grad_norm': 1.03125, 'learning_rate': 2.85272254746744e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23243.15, 'epoch': 2.59}
 86%|████████████████████████████████████████████████████████████████████████████████████████▊              | 2470/2865 [2:37:31<19:32,  2.97s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▊              | 2471/2865 [2:37:34<19:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0305, 'grad_norm': 1.1640625, 'learning_rate': 2.8386117661261676e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21344.75, 'epoch': 2.59}
 86%|████████████████████████████████████████████████████████████████████████████████████████▊              | 2471/2865 [2:37:34<19:27,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▊              | 2472/2865 [2:37:37<19:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0238, 'grad_norm': 1.046875, 'learning_rate': 2.8245338694913386e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21473.6, 'epoch': 2.59}
 86%|████████████████████████████████████████████████████████████████████████████████████████▊              | 2472/2865 [2:37:37<19:23,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▉              | 2473/2865 [2:37:40<19:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0149, 'grad_norm': 1.03125, 'learning_rate': 2.8104888784527854e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22229.56, 'epoch': 2.59}
 86%|████████████████████████████████████████████████████████████████████████████████████████▉              | 2473/2865 [2:37:40<19:20,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▉              | 2474/2865 [2:37:43<19:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0141, 'grad_norm': 1.046875, 'learning_rate': 2.796476813851495e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22926.15, 'epoch': 2.59}
 86%|████████████████████████████████████████████████████████████████████████████████████████▉              | 2474/2865 [2:37:43<19:17,  2.96s/it] 86%|████████████████████████████████████████████████████████████████████████████████████████▉              | 2475/2865 [2:37:46<19:13,  2.96s/it]                                                                                                                                                  {'loss': 10.9978, 'grad_norm': 1.1015625, 'learning_rate': 2.7824976964796105e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20786.95, 'epoch': 2.59}
 86%|████████████████████████████████████████████████████████████████████████████████████████▉              | 2475/2865 [2:37:46<19:13,  2.96s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████              | 2476/2865 [2:37:49<19:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0286, 'grad_norm': 1.046875, 'learning_rate': 2.768551547080386e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20569.39, 'epoch': 2.59}
 86%|█████████████████████████████████████████████████████████████████████████████████████████              | 2476/2865 [2:37:49<19:10,  2.96s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████              | 2477/2865 [2:37:52<19:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0163, 'grad_norm': 1.03125, 'learning_rate': 2.7546383863481377e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21427.33, 'epoch': 2.59}
 86%|█████████████████████████████████████████████████████████████████████████████████████████              | 2477/2865 [2:37:52<19:06,  2.96s/it] 86%|█████████████████████████████████████████████████████████████████████████████████████████              | 2478/2865 [2:37:55<19:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0142, 'grad_norm': 1.09375, 'learning_rate': 2.7407582349282507e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20988.94, 'epoch': 2.59}
 86%|█████████████████████████████████████████████████████████████████████████████████████████              | 2478/2865 [2:37:55<19:03,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████              | 2479/2865 [2:37:58<19:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0255, 'grad_norm': 1.03125, 'learning_rate': 2.7269111134171134e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19913.95, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████              | 2479/2865 [2:37:58<19:01,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▏             | 2480/2865 [2:38:01<18:58,  2.96s/it]                                                                                                                                                  {'loss': 10.999, 'grad_norm': 1.0234375, 'learning_rate': 2.713097042362114e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20982.44, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▏             | 2480/2865 [2:38:01<18:58,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▏             | 2481/2865 [2:38:04<18:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0175, 'grad_norm': 1.03125, 'learning_rate': 2.6993160422615876e-06, 'memory/max_active (GiB)': 9.62, 'memory/max_allocated (GiB)': 9.62, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 9046.51, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▏             | 2481/2865 [2:38:04<18:55,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▏             | 2482/2865 [2:38:07<18:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0235, 'grad_norm': 1.078125, 'learning_rate': 2.6855681335648084e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20965.4, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▏             | 2482/2865 [2:38:07<18:52,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▎             | 2483/2865 [2:38:10<18:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0143, 'grad_norm': 1.0234375, 'learning_rate': 2.6718533366719338e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21388.34, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▎             | 2483/2865 [2:38:10<18:49,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▎             | 2484/2865 [2:38:13<18:45,  2.95s/it]                                                                                                                                                  {'loss': 10.9871, 'grad_norm': 1.046875, 'learning_rate': 2.658171671933993e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21366.67, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▎             | 2484/2865 [2:38:13<18:45,  2.95s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▎             | 2485/2865 [2:38:16<18:42,  2.95s/it]                                                                                                                                                  {'loss': 11.0047, 'grad_norm': 1.3359375, 'learning_rate': 2.6445231596528562e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20918.64, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▎             | 2485/2865 [2:38:16<18:42,  2.95s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▎             | 2486/2865 [2:38:18<18:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0086, 'grad_norm': 1.0234375, 'learning_rate': 2.630907820081188e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21000.19, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▎             | 2486/2865 [2:38:18<18:40,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▍             | 2487/2865 [2:38:21<18:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0108, 'grad_norm': 1.03125, 'learning_rate': 2.617325673422444e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20940.84, 'epoch': 2.6}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▍             | 2487/2865 [2:38:21<18:38,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▍             | 2488/2865 [2:38:24<18:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0124, 'grad_norm': 1.03125, 'learning_rate': 2.6037767398308127e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21042.82, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▍             | 2488/2865 [2:38:24<18:34,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▍             | 2489/2865 [2:38:27<18:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0187, 'grad_norm': 1.0625, 'learning_rate': 2.590261039411207e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21035.12, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▍             | 2489/2865 [2:38:27<18:33,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▌             | 2490/2865 [2:38:30<18:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0145, 'grad_norm': 1.03125, 'learning_rate': 2.576778592219217e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22123.16, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▌             | 2490/2865 [2:38:30<18:30,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▌             | 2491/2865 [2:38:33<18:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0107, 'grad_norm': 1.0625, 'learning_rate': 2.563329418261101e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21969.08, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▌             | 2491/2865 [2:38:33<18:27,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▌             | 2492/2865 [2:38:36<18:23,  2.96s/it]                                                                                                                                                  {'loss': 10.9988, 'grad_norm': 1.0703125, 'learning_rate': 2.5499135374937366e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21632.36, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▌             | 2492/2865 [2:38:36<18:23,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▋             | 2493/2865 [2:38:39<18:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0055, 'grad_norm': 1.0859375, 'learning_rate': 2.5365309698245935e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21111.71, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▋             | 2493/2865 [2:38:39<18:19,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▋             | 2494/2865 [2:38:42<18:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0168, 'grad_norm': 1.03125, 'learning_rate': 2.523181735111724e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20491.51, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▋             | 2494/2865 [2:38:42<18:18,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▋             | 2495/2865 [2:38:45<18:14,  2.96s/it]                                                                                                                                                  {'loss': 10.9984, 'grad_norm': 1.078125, 'learning_rate': 2.509865853163698e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21792.61, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▋             | 2495/2865 [2:38:45<18:14,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▋             | 2496/2865 [2:38:48<18:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0281, 'grad_norm': 1.0390625, 'learning_rate': 2.4965833437396196e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20871.2, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▋             | 2496/2865 [2:38:48<18:11,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▊             | 2497/2865 [2:38:51<18:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0091, 'grad_norm': 1.0234375, 'learning_rate': 2.483334226549047e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20349.32, 'epoch': 2.61}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▊             | 2497/2865 [2:38:51<18:09,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▊             | 2498/2865 [2:38:54<18:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0082, 'grad_norm': 1.125, 'learning_rate': 2.47011852125201e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20760.76, 'epoch': 2.62}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▊             | 2498/2865 [2:38:54<18:06,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▊             | 2499/2865 [2:38:57<18:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0376, 'grad_norm': 1.0234375, 'learning_rate': 2.4569362474589436e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21187.51, 'epoch': 2.62}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▊             | 2499/2865 [2:38:57<18:03,  2.96s/it] 87%|█████████████████████████████████████████████████████████████████████████████████████████▉             | 2500/2865 [2:39:00<18:01,  2.96s/it]                                                                                                                                                  {'loss': 10.9913, 'grad_norm': 1.0390625, 'learning_rate': 2.443787424730676e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23098.21, 'epoch': 2.62}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▉             | 2500/2865 [2:39:00<18:01,  2.96s/it][2025-10-12 05:47:52,757] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:01<02:45,  1.10it/s][A
  2%|█▊                                                                                                           | 3/185 [00:02<02:12,  1.37it/s][A
  2%|██▎                                                                                                          | 4/185 [00:02<01:50,  1.64it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:35,  1.88it/s][A
  3%|███▌                                                                                                         | 6/185 [00:03<01:26,  2.06it/s][A
  4%|████                                                                                                         | 7/185 [00:03<01:20,  2.22it/s][A
  4%|████▋                                                                                                        | 8/185 [00:04<01:18,  2.26it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:04<01:15,  2.35it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:11,  2.43it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:05<01:10,  2.47it/s][A
  6%|███████                                                                                                     | 12/185 [00:05<01:09,  2.49it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:06<01:08,  2.51it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:06<01:07,  2.52it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:06<01:06,  2.57it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:07<01:06,  2.53it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:07<01:04,  2.59it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:04,  2.58it/s][A
 10%|███████████                                                                                                 | 19/185 [00:08<01:07,  2.47it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:08<01:05,  2.50it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:09<01:05,  2.49it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:09<01:03,  2.56it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:05,  2.48it/s][A
 13%|██████████████                                                                                              | 24/185 [00:10<01:04,  2.49it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:10<01:03,  2.51it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:11<01:02,  2.53it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:11<01:02,  2.53it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:00,  2.58it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:12<01:01,  2.54it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:12<01:00,  2.57it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:13<01:00,  2.56it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:13<01:00,  2.52it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:59,  2.56it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:14<00:58,  2.56it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:14<00:59,  2.53it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:15<00:59,  2.52it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:15<00:58,  2.53it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:56,  2.58it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:16<00:54,  2.66it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:16<00:56,  2.56it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:17<00:56,  2.56it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:17<00:55,  2.58it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:17<00:55,  2.58it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:18<00:55,  2.54it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:18<00:56,  2.47it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:54,  2.57it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:19<00:54,  2.51it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:19<00:53,  2.56it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:20<00:52,  2.58it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:20<00:53,  2.51it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:53,  2.50it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:21<00:52,  2.52it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:21<00:51,  2.57it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:22<00:51,  2.56it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:22<00:51,  2.54it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:51,  2.51it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:23<00:50,  2.56it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:23<00:49,  2.55it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:24<00:47,  2.63it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:24<00:49,  2.54it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:49,  2.52it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:25<00:47,  2.61it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:25<00:46,  2.60it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:47,  2.53it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:26<00:47,  2.54it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:45,  2.60it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:27<00:46,  2.52it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:27<00:46,  2.53it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:44,  2.59it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:28<00:45,  2.51it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:29<00:44,  2.52it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:29<00:43,  2.56it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:43,  2.57it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:30<00:43,  2.55it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:30<00:42,  2.54it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:31<00:40,  2.65it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:31<00:42,  2.54it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.53it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:32<00:41,  2.51it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:32<00:41,  2.53it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:33<00:40,  2.54it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:33<00:40,  2.54it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:39,  2.56it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:34<00:39,  2.54it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:34<00:39,  2.54it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:35<00:38,  2.53it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:35<00:38,  2.52it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.56it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:36<00:36,  2.60it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:36<00:35,  2.61it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:36,  2.56it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:37<00:36,  2.53it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:36,  2.52it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:38<00:35,  2.53it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:38<00:34,  2.56it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:34,  2.55it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:39<00:34,  2.51it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:39<00:33,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:40<00:33,  2.55it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:40<00:33,  2.49it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:32,  2.52it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:41<00:32,  2.53it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:41<00:31,  2.57it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:42<00:31,  2.58it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:42<00:30,  2.56it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.53it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:43<00:29,  2.59it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:43<00:29,  2.55it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:44<00:28,  2.61it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:44<00:29,  2.51it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:28,  2.56it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:45<00:28,  2.55it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:45<00:27,  2.54it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:46<00:27,  2.58it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:46<00:27,  2.54it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.59it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:47<00:26,  2.55it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:47<00:25,  2.64it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.53it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:48<00:25,  2.53it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:48<00:24,  2.54it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:49<00:24,  2.58it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:49<00:24,  2.52it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.54it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:50<00:23,  2.56it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:50<00:22,  2.57it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:51<00:21,  2.59it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:51<00:22,  2.53it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.55it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:52<00:21,  2.54it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:52<00:20,  2.63it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:53<00:20,  2.52it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:53<00:20,  2.53it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.55it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:54<00:18,  2.63it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:54<00:18,  2.54it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:55<00:18,  2.56it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:55<00:18,  2.55it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.60it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:56<00:17,  2.53it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:56<00:16,  2.56it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:57<00:15,  2.69it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:57<00:16,  2.54it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:57<00:15,  2.51it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:58<00:15,  2.51it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:58<00:15,  2.53it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.55it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [00:59<00:14,  2.54it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [00:59<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:00<00:13,  2.59it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:00<00:13,  2.52it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.53it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:01<00:12,  2.54it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:01<00:11,  2.57it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:02<00:11,  2.63it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:02<00:11,  2.52it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.55it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:03<00:10,  2.56it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:03<00:09,  2.56it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:04<00:09,  2.54it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:04<00:09,  2.54it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.58it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:05<00:08,  2.56it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:05<00:07,  2.53it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:06<00:07,  2.54it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:06<00:07,  2.56it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:06<00:06,  2.57it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:07<00:06,  2.56it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:07<00:05,  2.50it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:08<00:05,  2.50it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:08<00:05,  2.59it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:08<00:04,  2.50it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:09<00:04,  2.50it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:09<00:03,  2.52it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.53it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:10<00:03,  2.55it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:10<00:02,  2.51it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:11<00:02,  2.54it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:11<00:01,  2.56it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.55it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:12<00:01,  2.56it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:12<00:00,  2.53it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:13<00:00,  2.55it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.98it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995023727416992, 'eval_runtime': 78.2788, 'eval_samples_per_second': 151.471, 'eval_steps_per_second': 2.376, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 2.62}
 87%|█████████████████████████████████████████████████████████████████████████████████████████▉             | 2500/2865 [2:40:18<18:01,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  1.98it/s][A
                                                                                                                                                  [A[2025-10-12 05:49:11,055] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2500
 87%|████████████████████████████████████████████████████████████████████████████████████████▏            | 2501/2865 [2:40:27<2:51:23, 28.25s/it]                                                                                                                                                  {'loss': 11.0024, 'grad_norm': 1.0703125, 'learning_rate': 2.4306720725784106e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19259.14, 'epoch': 2.62}
 87%|████████████████████████████████████████████████████████████████████████████████████████▏            | 2501/2865 [2:40:27<2:51:23, 28.25s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████▏            | 2502/2865 [2:40:30<2:04:58, 20.66s/it]                                                                                                                                                  {'loss': 11.0164, 'grad_norm': 1.03125, 'learning_rate': 2.417590210463669e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21448.78, 'epoch': 2.62}
 87%|████████████████████████████████████████████████████████████████████████████████████████▏            | 2502/2865 [2:40:30<2:04:58, 20.66s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████▏            | 2503/2865 [2:40:33<1:32:36, 15.35s/it]                                                                                                                                                  {'loss': 11.0135, 'grad_norm': 1.046875, 'learning_rate': 2.4045418577982927e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21897.31, 'epoch': 2.62}
 87%|████████████████████████████████████████████████████████████████████████████████████████▏            | 2503/2865 [2:40:33<1:32:36, 15.35s/it] 87%|████████████████████████████████████████████████████████████████████████████████████████▎            | 2504/2865 [2:40:36<1:09:57, 11.63s/it]                                                                                                                                                  {'loss': 11.0136, 'grad_norm': 1.03125, 'learning_rate': 2.391527033944388e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22270.82, 'epoch': 2.62}
 87%|████████████████████████████████████████████████████████████████████████████████████████▎            | 2504/2865 [2:40:36<1:09:57, 11.63s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████             | 2505/2865 [2:40:39<54:07,  9.02s/it]                                                                                                                                                  {'loss': 10.999, 'grad_norm': 1.28125, 'learning_rate': 2.378545758214315e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21077.79, 'epoch': 2.62}
 87%|██████████████████████████████████████████████████████████████████████████████████████████             | 2505/2865 [2:40:39<54:07,  9.02s/it] 87%|██████████████████████████████████████████████████████████████████████████████████████████             | 2506/2865 [2:40:42<43:05,  7.20s/it]                                                                                                                                                  {'loss': 11.012, 'grad_norm': 1.03125, 'learning_rate': 2.365598049870646e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21804.2, 'epoch': 2.62}
 87%|██████████████████████████████████████████████████████████████████████████████████████████             | 2506/2865 [2:40:42<43:05,  7.20s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▏            | 2507/2865 [2:40:45<35:22,  5.93s/it]                                                                                                                                                  {'loss': 11.0317, 'grad_norm': 1.0703125, 'learning_rate': 2.3526839281261563e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22006.39, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▏            | 2507/2865 [2:40:45<35:22,  5.93s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▏            | 2508/2865 [2:40:48<29:57,  5.04s/it]                                                                                                                                                  {'loss': 11.0036, 'grad_norm': 1.0625, 'learning_rate': 2.339803412143768e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21523.7, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▏            | 2508/2865 [2:40:48<29:57,  5.04s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▏            | 2509/2865 [2:40:51<26:11,  4.41s/it]                                                                                                                                                  {'loss': 11.0067, 'grad_norm': 1.0859375, 'learning_rate': 2.326956521036544e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22508.8, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▏            | 2509/2865 [2:40:51<26:11,  4.41s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▏            | 2510/2865 [2:40:54<23:31,  3.97s/it]                                                                                                                                                  {'loss': 11.0172, 'grad_norm': 1.078125, 'learning_rate': 2.31414327386765e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20771.02, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▏            | 2510/2865 [2:40:54<23:31,  3.97s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▎            | 2511/2865 [2:40:57<21:38,  3.67s/it]                                                                                                                                                  {'loss': 11.0207, 'grad_norm': 1.078125, 'learning_rate': 2.3013636896503375e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20939.82, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▎            | 2511/2865 [2:40:57<21:38,  3.67s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▎            | 2512/2865 [2:41:00<20:20,  3.46s/it]                                                                                                                                                  {'loss': 11.0135, 'grad_norm': 1.0234375, 'learning_rate': 2.288617787347885e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21506.06, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▎            | 2512/2865 [2:41:00<20:20,  3.46s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▎            | 2513/2865 [2:41:03<19:23,  3.31s/it]                                                                                                                                                  {'loss': 11.0127, 'grad_norm': 1.03125, 'learning_rate': 2.2759055858736195e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21898.81, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▎            | 2513/2865 [2:41:03<19:23,  3.31s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▍            | 2514/2865 [2:41:06<18:44,  3.20s/it]                                                                                                                                                  {'loss': 11.001, 'grad_norm': 1.1171875, 'learning_rate': 2.2632271040908314e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21958.46, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▍            | 2514/2865 [2:41:06<18:44,  3.20s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▍            | 2515/2865 [2:41:09<18:15,  3.13s/it]                                                                                                                                                  {'loss': 11.0059, 'grad_norm': 1.0234375, 'learning_rate': 2.250582360812797e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21122.09, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▍            | 2515/2865 [2:41:09<18:15,  3.13s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▍            | 2516/2865 [2:41:12<17:54,  3.08s/it]                                                                                                                                                  {'loss': 11.0394, 'grad_norm': 1.109375, 'learning_rate': 2.237971374802725e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21334.57, 'epoch': 2.63}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▍            | 2516/2865 [2:41:12<17:54,  3.08s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▍            | 2517/2865 [2:41:14<17:38,  3.04s/it]                                                                                                                                                  {'loss': 10.9976, 'grad_norm': 1.046875, 'learning_rate': 2.225394164773725e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21490.44, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▍            | 2517/2865 [2:41:14<17:38,  3.04s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▌            | 2518/2865 [2:41:18<17:39,  3.05s/it]                                                                                                                                                  {'loss': 11.0401, 'grad_norm': 1.0546875, 'learning_rate': 2.212850749388787e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20419.29, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▌            | 2518/2865 [2:41:18<17:39,  3.05s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▌            | 2519/2865 [2:41:21<17:54,  3.11s/it]                                                                                                                                                  {'loss': 11.025, 'grad_norm': 1.0546875, 'learning_rate': 2.200341147260765e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20945.1, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▌            | 2519/2865 [2:41:21<17:54,  3.11s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▌            | 2520/2865 [2:41:24<17:34,  3.06s/it]                                                                                                                                                  {'loss': 11.0107, 'grad_norm': 1.109375, 'learning_rate': 2.187865376952322e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20876.74, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▌            | 2520/2865 [2:41:24<17:34,  3.06s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▋            | 2521/2865 [2:41:27<17:20,  3.03s/it]                                                                                                                                                  {'loss': 11.0184, 'grad_norm': 1.03125, 'learning_rate': 2.175423456975942e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21035.83, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▋            | 2521/2865 [2:41:27<17:20,  3.03s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▋            | 2522/2865 [2:41:30<17:10,  3.00s/it]                                                                                                                                                  {'loss': 11.0185, 'grad_norm': 1.046875, 'learning_rate': 2.163015405793853e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21485.51, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▋            | 2522/2865 [2:41:30<17:10,  3.00s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▋            | 2523/2865 [2:41:33<17:01,  2.99s/it]                                                                                                                                                  {'loss': 11.0102, 'grad_norm': 1.0390625, 'learning_rate': 2.1506412418180494e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21249.68, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▋            | 2523/2865 [2:41:33<17:01,  2.99s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▋            | 2524/2865 [2:41:36<16:56,  2.98s/it]                                                                                                                                                  {'loss': 11.0173, 'grad_norm': 1.21875, 'learning_rate': 2.1383009834102267e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20424.4, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▋            | 2524/2865 [2:41:36<16:56,  2.98s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▊            | 2525/2865 [2:41:38<16:50,  2.97s/it]                                                                                                                                                  {'loss': 11.0153, 'grad_norm': 1.0234375, 'learning_rate': 2.1259946488817657e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21904.0, 'epoch': 2.64}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▊            | 2525/2865 [2:41:38<16:50,  2.97s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▊            | 2526/2865 [2:41:41<16:45,  2.97s/it]                                                                                                                                                  {'loss': 11.0262, 'grad_norm': 1.0703125, 'learning_rate': 2.113722256493725e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22105.33, 'epoch': 2.65}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▊            | 2526/2865 [2:41:41<16:45,  2.97s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▊            | 2527/2865 [2:41:44<16:43,  2.97s/it]                                                                                                                                                  {'loss': 11.0341, 'grad_norm': 1.0703125, 'learning_rate': 2.101483824456782e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21696.12, 'epoch': 2.65}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▊            | 2527/2865 [2:41:44<16:43,  2.97s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▉            | 2528/2865 [2:41:47<16:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0111, 'grad_norm': 1.03125, 'learning_rate': 2.0892793709312327e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21890.54, 'epoch': 2.65}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▉            | 2528/2865 [2:41:47<16:38,  2.96s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▉            | 2529/2865 [2:41:50<16:33,  2.96s/it]                                                                                                                                                  {'loss': 11.001, 'grad_norm': 1.2734375, 'learning_rate': 2.0771089140269373e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20552.41, 'epoch': 2.65}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▉            | 2529/2865 [2:41:50<16:33,  2.96s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▉            | 2530/2865 [2:41:53<16:29,  2.95s/it]                                                                                                                                                  {'loss': 11.0106, 'grad_norm': 1.125, 'learning_rate': 2.0649724718033336e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21266.47, 'epoch': 2.65}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▉            | 2530/2865 [2:41:53<16:29,  2.95s/it] 88%|██████████████████████████████████████████████████████████████████████████████████████████▉            | 2531/2865 [2:41:56<16:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0156, 'grad_norm': 1.0234375, 'learning_rate': 2.05287006226936e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21453.81, 'epoch': 2.65}
 88%|██████████████████████████████████████████████████████████████████████████████████████████▉            | 2531/2865 [2:41:56<16:27,  2.96s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████            | 2532/2865 [2:41:59<16:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0015, 'grad_norm': 1.15625, 'learning_rate': 2.040801703383477e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20777.6, 'epoch': 2.65}
 88%|███████████████████████████████████████████████████████████████████████████████████████████            | 2532/2865 [2:41:59<16:24,  2.96s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████            | 2533/2865 [2:42:02<16:21,  2.96s/it]                                                                                                                                                  {'loss': 11.0479, 'grad_norm': 1.21875, 'learning_rate': 2.0287674130536034e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22332.75, 'epoch': 2.65}
 88%|███████████████████████████████████████████████████████████████████████████████████████████            | 2533/2865 [2:42:02<16:21,  2.96s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████            | 2534/2865 [2:42:05<16:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0252, 'grad_norm': 1.0546875, 'learning_rate': 2.0167672091370993e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21457.95, 'epoch': 2.65}
 88%|███████████████████████████████████████████████████████████████████████████████████████████            | 2534/2865 [2:42:05<16:18,  2.96s/it] 88%|███████████████████████████████████████████████████████████████████████████████████████████▏           | 2535/2865 [2:42:08<16:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0271, 'grad_norm': 1.0703125, 'learning_rate': 2.004801109440771e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21302.54, 'epoch': 2.65}
 88%|███████████████████████████████████████████████████████████████████████████████████████████▏           | 2535/2865 [2:42:08<16:15,  2.96s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▏           | 2536/2865 [2:42:11<16:42,  3.05s/it]                                                                                                                                                  {'loss': 10.9921, 'grad_norm': 1.0625, 'learning_rate': 1.99286913172079e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20027.69, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▏           | 2536/2865 [2:42:11<16:42,  3.05s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▏           | 2537/2865 [2:42:15<18:20,  3.35s/it]                                                                                                                                                  {'loss': 10.9974, 'grad_norm': 1.0234375, 'learning_rate': 1.9809712936827125e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15436.76, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▏           | 2537/2865 [2:42:15<18:20,  3.35s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▏           | 2538/2865 [2:42:19<19:30,  3.58s/it]                                                                                                                                                  {'loss': 11.0011, 'grad_norm': 1.0234375, 'learning_rate': 1.9691076129814274e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 16321.15, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▏           | 2538/2865 [2:42:19<19:30,  3.58s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▎           | 2539/2865 [2:42:24<20:13,  3.72s/it]                                                                                                                                                  {'loss': 11.0038, 'grad_norm': 1.0625, 'learning_rate': 1.957278107221147e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 14881.72, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▎           | 2539/2865 [2:42:24<20:13,  3.72s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▎           | 2540/2865 [2:42:28<20:44,  3.83s/it]                                                                                                                                                  {'loss': 11.0293, 'grad_norm': 1.03125, 'learning_rate': 1.9454827939553583e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15281.32, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▎           | 2540/2865 [2:42:28<20:44,  3.83s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▎           | 2541/2865 [2:42:32<21:05,  3.90s/it]                                                                                                                                                  {'loss': 11.0129, 'grad_norm': 1.0234375, 'learning_rate': 1.9337216906868267e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15507.07, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▎           | 2541/2865 [2:42:32<21:05,  3.90s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▍           | 2542/2865 [2:42:36<21:19,  3.96s/it]                                                                                                                                                  {'loss': 11.0159, 'grad_norm': 1.0390625, 'learning_rate': 1.9219948148675447e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15312.71, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▍           | 2542/2865 [2:42:36<21:19,  3.96s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▍           | 2543/2865 [2:42:40<21:28,  4.00s/it]                                                                                                                                                  {'loss': 11.0156, 'grad_norm': 1.03125, 'learning_rate': 1.91030218389871e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15637.73, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▍           | 2543/2865 [2:42:40<21:28,  4.00s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▍           | 2544/2865 [2:42:44<21:33,  4.03s/it]                                                                                                                                                  {'loss': 11.022, 'grad_norm': 1.0390625, 'learning_rate': 1.8986438151307268e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 15280.14, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▍           | 2544/2865 [2:42:44<21:33,  4.03s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▍           | 2545/2865 [2:42:48<21:32,  4.04s/it]                                                                                                                                                  {'loss': 10.9916, 'grad_norm': 1.1484375, 'learning_rate': 1.8870197258631316e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 16461.13, 'epoch': 2.66}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▍           | 2545/2865 [2:42:48<21:32,  4.04s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▌           | 2546/2865 [2:42:51<19:49,  3.73s/it]                                                                                                                                                  {'loss': 11.0051, 'grad_norm': 1.0390625, 'learning_rate': 1.875429933344619e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21968.03, 'epoch': 2.67}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▌           | 2546/2865 [2:42:51<19:49,  3.73s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▌           | 2547/2865 [2:42:54<18:32,  3.50s/it]                                                                                                                                                  {'loss': 11.004, 'grad_norm': 1.03125, 'learning_rate': 1.8638744547729709e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21353.37, 'epoch': 2.67}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▌           | 2547/2865 [2:42:54<18:32,  3.50s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▌           | 2548/2865 [2:42:57<17:37,  3.34s/it]                                                                                                                                                  {'loss': 10.9946, 'grad_norm': 1.0625, 'learning_rate': 1.8523533072950628e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21279.91, 'epoch': 2.67}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▌           | 2548/2865 [2:42:57<17:37,  3.34s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▋           | 2549/2865 [2:43:00<16:57,  3.22s/it]                                                                                                                                                  {'loss': 10.999, 'grad_norm': 1.109375, 'learning_rate': 1.8408665080068306e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21619.98, 'epoch': 2.67}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▋           | 2549/2865 [2:43:00<16:57,  3.22s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▋           | 2550/2865 [2:43:03<16:29,  3.14s/it]                                                                                                                                                  {'loss': 10.997, 'grad_norm': 1.0546875, 'learning_rate': 1.829414073953231e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22298.72, 'epoch': 2.67}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▋           | 2550/2865 [2:43:03<16:29,  3.14s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▋           | 2551/2865 [2:43:06<16:08,  3.08s/it]                                                                                                                                                  {'loss': 11.0386, 'grad_norm': 1.0625, 'learning_rate': 1.817996022128235e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21962.25, 'epoch': 2.67}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▋           | 2551/2865 [2:43:06<16:08,  3.08s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▋           | 2552/2865 [2:43:09<15:54,  3.05s/it]                                                                                                                                                  {'loss': 11.0252, 'grad_norm': 1.234375, 'learning_rate': 1.806612369474789e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22061.2, 'epoch': 2.67}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▋           | 2552/2865 [2:43:09<15:54,  3.05s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▊           | 2553/2865 [2:43:12<15:42,  3.02s/it]                                                                                                                                                  {'loss': 11.0243, 'grad_norm': 1.0234375, 'learning_rate': 1.7952631328848029e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21705.51, 'epoch': 2.67}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▊           | 2553/2865 [2:43:12<15:42,  3.02s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▊           | 2554/2865 [2:43:15<15:33,  3.00s/it]                                                                                                                                                  {'loss': 10.9995, 'grad_norm': 1.0234375, 'learning_rate': 1.7839483291991087e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21243.62, 'epoch': 2.67}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▊           | 2554/2865 [2:43:15<15:33,  3.00s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▊           | 2555/2865 [2:43:18<15:25,  2.98s/it]                                                                                                                                                  {'loss': 11.0026, 'grad_norm': 1.1015625, 'learning_rate': 1.7726679752074565e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21156.58, 'epoch': 2.68}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▊           | 2555/2865 [2:43:18<15:25,  2.98s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▉           | 2556/2865 [2:43:21<15:20,  2.98s/it]                                                                                                                                                  {'loss': 11.013, 'grad_norm': 1.1328125, 'learning_rate': 1.7614220876484566e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22456.78, 'epoch': 2.68}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▉           | 2556/2865 [2:43:21<15:20,  2.98s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▉           | 2557/2865 [2:43:24<15:15,  2.97s/it]                                                                                                                                                  {'loss': 11.0147, 'grad_norm': 1.109375, 'learning_rate': 1.7502106832096022e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21513.19, 'epoch': 2.68}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▉           | 2557/2865 [2:43:24<15:15,  2.97s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▉           | 2558/2865 [2:43:27<15:10,  2.97s/it]                                                                                                                                                  {'loss': 11.0082, 'grad_norm': 1.0234375, 'learning_rate': 1.7390337785271966e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22500.6, 'epoch': 2.68}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▉           | 2558/2865 [2:43:27<15:10,  2.97s/it] 89%|███████████████████████████████████████████████████████████████████████████████████████████▉           | 2559/2865 [2:43:29<15:07,  2.97s/it]                                                                                                                                                  {'loss': 11.0104, 'grad_norm': 1.0625, 'learning_rate': 1.7278913901863535e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22592.79, 'epoch': 2.68}
 89%|███████████████████████████████████████████████████████████████████████████████████████████▉           | 2559/2865 [2:43:29<15:07,  2.97s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████           | 2560/2865 [2:43:32<15:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0117, 'grad_norm': 1.0546875, 'learning_rate': 1.7167835347209837e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21335.63, 'epoch': 2.68}
 89%|████████████████████████████████████████████████████████████████████████████████████████████           | 2560/2865 [2:43:32<15:04,  2.96s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████           | 2561/2865 [2:43:35<15:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0285, 'grad_norm': 1.0625, 'learning_rate': 1.7057102286137328e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22139.2, 'epoch': 2.68}
 89%|████████████████████████████████████████████████████████████████████████████████████████████           | 2561/2865 [2:43:35<15:00,  2.96s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████           | 2562/2865 [2:43:38<14:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0146, 'grad_norm': 1.2578125, 'learning_rate': 1.694671488296004e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21473.32, 'epoch': 2.68}
 89%|████████████████████████████████████████████████████████████████████████████████████████████           | 2562/2865 [2:43:38<14:56,  2.96s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████▏          | 2563/2865 [2:43:41<14:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0184, 'grad_norm': 1.0390625, 'learning_rate': 1.683667330147881e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22405.25, 'epoch': 2.68}
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏          | 2563/2865 [2:43:41<14:53,  2.96s/it] 89%|████████████████████████████████████████████████████████████████████████████████████████████▏          | 2564/2865 [2:43:44<14:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0063, 'grad_norm': 1.234375, 'learning_rate': 1.6726977704981634e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20873.74, 'epoch': 2.68}
 89%|████████████████████████████████████████████████████████████████████████████████████████████▏          | 2564/2865 [2:43:44<14:50,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▏          | 2565/2865 [2:43:47<14:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0176, 'grad_norm': 1.03125, 'learning_rate': 1.66176282562428e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22155.19, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▏          | 2565/2865 [2:43:47<14:47,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▎          | 2566/2865 [2:43:50<14:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0209, 'grad_norm': 1.0625, 'learning_rate': 1.6508625117523213e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20813.79, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▎          | 2566/2865 [2:43:50<14:43,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▎          | 2567/2865 [2:43:53<14:40,  2.95s/it]                                                                                                                                                  {'loss': 11.0166, 'grad_norm': 1.0234375, 'learning_rate': 1.6399968450569764e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21079.89, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▎          | 2567/2865 [2:43:53<14:40,  2.95s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▎          | 2568/2865 [2:43:56<14:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0172, 'grad_norm': 1.1875, 'learning_rate': 1.62916584166152e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21601.47, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▎          | 2568/2865 [2:43:56<14:37,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▎          | 2569/2865 [2:43:59<14:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.125, 'learning_rate': 1.6183695176378022e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21877.49, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▎          | 2569/2865 [2:43:59<14:34,  2.95s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▍          | 2570/2865 [2:44:02<14:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0302, 'grad_norm': 1.0390625, 'learning_rate': 1.6076078890062018e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22420.26, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▍          | 2570/2865 [2:44:02<14:31,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▍          | 2571/2865 [2:44:05<14:28,  2.96s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.0703125, 'learning_rate': 1.5968809717356231e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22152.22, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▍          | 2571/2865 [2:44:05<14:28,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▍          | 2572/2865 [2:44:08<14:26,  2.96s/it]                                                                                                                                                  {'loss': 11.015, 'grad_norm': 1.046875, 'learning_rate': 1.5861887817434557e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21013.57, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▍          | 2572/2865 [2:44:08<14:26,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▌          | 2573/2865 [2:44:11<14:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0153, 'grad_norm': 1.0703125, 'learning_rate': 1.5755313348955664e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21827.21, 'epoch': 2.69}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▌          | 2573/2865 [2:44:11<14:23,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▌          | 2574/2865 [2:44:14<14:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0362, 'grad_norm': 1.0703125, 'learning_rate': 1.5649086470062578e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20978.79, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▌          | 2574/2865 [2:44:14<14:20,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▌          | 2575/2865 [2:44:17<14:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0203, 'grad_norm': 1.03125, 'learning_rate': 1.5543207338382605e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20930.79, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▌          | 2575/2865 [2:44:17<14:17,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▌          | 2576/2865 [2:44:20<14:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0327, 'grad_norm': 1.03125, 'learning_rate': 1.543767611102706e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21717.52, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▌          | 2576/2865 [2:44:20<14:14,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▋          | 2577/2865 [2:44:23<14:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0197, 'grad_norm': 1.1015625, 'learning_rate': 1.5332492944590936e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21303.2, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▋          | 2577/2865 [2:44:23<14:12,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▋          | 2578/2865 [2:44:26<14:09,  2.96s/it]                                                                                                                                                  {'loss': 11.012, 'grad_norm': 1.140625, 'learning_rate': 1.5227657995152855e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19940.39, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▋          | 2578/2865 [2:44:26<14:09,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▋          | 2579/2865 [2:44:29<14:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0024, 'grad_norm': 1.0859375, 'learning_rate': 1.5123171418274573e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21572.69, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▋          | 2579/2865 [2:44:29<14:05,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▊          | 2580/2865 [2:44:32<14:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.0234375, 'learning_rate': 1.5019033369001095e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21950.26, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▊          | 2580/2865 [2:44:32<14:02,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▊          | 2581/2865 [2:44:35<13:59,  2.96s/it]                                                                                                                                                  {'loss': 11.01, 'grad_norm': 1.1015625, 'learning_rate': 1.491524400186009e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20986.88, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▊          | 2581/2865 [2:44:35<13:59,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▊          | 2582/2865 [2:44:37<13:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0232, 'grad_norm': 1.140625, 'learning_rate': 1.4811803470861973e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20101.59, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▊          | 2582/2865 [2:44:37<13:56,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▊          | 2583/2865 [2:44:40<13:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0095, 'grad_norm': 1.0390625, 'learning_rate': 1.4708711929499325e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23229.73, 'epoch': 2.7}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▊          | 2583/2865 [2:44:40<13:55,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▉          | 2584/2865 [2:44:43<13:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0149, 'grad_norm': 1.03125, 'learning_rate': 1.4605969530747137e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21405.13, 'epoch': 2.71}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▉          | 2584/2865 [2:44:43<13:51,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▉          | 2585/2865 [2:44:46<13:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0059, 'grad_norm': 1.046875, 'learning_rate': 1.45035764270621e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21133.42, 'epoch': 2.71}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▉          | 2585/2865 [2:44:46<13:47,  2.96s/it] 90%|████████████████████████████████████████████████████████████████████████████████████████████▉          | 2586/2865 [2:44:49<13:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0111, 'grad_norm': 1.03125, 'learning_rate': 1.4401532770382698e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21405.97, 'epoch': 2.71}
 90%|████████████████████████████████████████████████████████████████████████████████████████████▉          | 2586/2865 [2:44:49<13:45,  2.96s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████          | 2587/2865 [2:44:52<13:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0198, 'grad_norm': 1.03125, 'learning_rate': 1.4299838712128783e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21166.82, 'epoch': 2.71}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████          | 2587/2865 [2:44:52<13:43,  2.96s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████          | 2588/2865 [2:44:55<13:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0174, 'grad_norm': 1.140625, 'learning_rate': 1.4198494403201646e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21258.12, 'epoch': 2.71}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████          | 2588/2865 [2:44:55<13:38,  2.96s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████          | 2589/2865 [2:44:58<13:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0186, 'grad_norm': 1.046875, 'learning_rate': 1.4097499993983355e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20841.53, 'epoch': 2.71}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████          | 2589/2865 [2:44:58<13:35,  2.96s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████          | 2590/2865 [2:45:01<13:32,  2.95s/it]                                                                                                                                                  {'loss': 11.032, 'grad_norm': 1.0234375, 'learning_rate': 1.399685563433692e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20903.44, 'epoch': 2.71}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████          | 2590/2865 [2:45:01<13:32,  2.95s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████▏         | 2591/2865 [2:45:04<13:28,  2.95s/it]                                                                                                                                                  {'loss': 11.0188, 'grad_norm': 1.0234375, 'learning_rate': 1.3896561473605907e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21662.26, 'epoch': 2.71}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████▏         | 2591/2865 [2:45:04<13:28,  2.95s/it] 90%|█████████████████████████████████████████████████████████████████████████████████████████████▏         | 2592/2865 [2:45:07<13:25,  2.95s/it]                                                                                                                                                  {'loss': 11.0105, 'grad_norm': 1.078125, 'learning_rate': 1.3796617660614214e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21270.54, 'epoch': 2.71}
 90%|█████████████████████████████████████████████████████████████████████████████████████████████▏         | 2592/2865 [2:45:07<13:25,  2.95s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▏         | 2593/2865 [2:45:10<13:22,  2.95s/it]                                                                                                                                                  {'loss': 11.0008, 'grad_norm': 1.0234375, 'learning_rate': 1.3697024343665765e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21171.54, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▏         | 2593/2865 [2:45:10<13:22,  2.95s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▎         | 2594/2865 [2:45:13<13:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0073, 'grad_norm': 1.0390625, 'learning_rate': 1.3597781670544623e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21048.65, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▎         | 2594/2865 [2:45:13<13:19,  2.95s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▎         | 2595/2865 [2:45:16<13:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0168, 'grad_norm': 1.0703125, 'learning_rate': 1.3498889788514297e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22434.97, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▎         | 2595/2865 [2:45:16<13:18,  2.96s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▎         | 2596/2865 [2:45:19<13:14,  2.95s/it]                                                                                                                                                  {'loss': 11.0168, 'grad_norm': 1.03125, 'learning_rate': 1.3400348844317928e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20961.16, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▎         | 2596/2865 [2:45:19<13:14,  2.95s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▎         | 2597/2865 [2:45:22<13:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0292, 'grad_norm': 1.0390625, 'learning_rate': 1.3302158984177832e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21091.08, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▎         | 2597/2865 [2:45:22<13:12,  2.96s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▍         | 2598/2865 [2:45:25<13:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0263, 'grad_norm': 1.171875, 'learning_rate': 1.3204320353795402e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21748.13, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▍         | 2598/2865 [2:45:25<13:11,  2.96s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▍         | 2599/2865 [2:45:28<13:07,  2.96s/it]                                                                                                                                                  {'loss': 11.041, 'grad_norm': 1.1484375, 'learning_rate': 1.310683309835084e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21802.91, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▍         | 2599/2865 [2:45:28<13:07,  2.96s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▍         | 2600/2865 [2:45:31<13:04,  2.96s/it]                                                                                                                                                  {'loss': 11.0122, 'grad_norm': 1.03125, 'learning_rate': 1.3009697362502877e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21870.97, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▍         | 2600/2865 [2:45:31<13:04,  2.96s/it][2025-10-12 05:54:23,522] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<04:16,  1.40s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<02:57,  1.03it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:19,  1.30it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:55,  1.56it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:39,  1.80it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:29,  1.98it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:23,  2.12it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:17,  2.26it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:14,  2.35it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.37it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:09,  2.50it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:09,  2.49it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:09,  2.46it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:07,  2.50it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:07,  2.51it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:05,  2.57it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:06,  2.50it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:04,  2.56it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:05,  2.51it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:05,  2.49it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:02,  2.59it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:05,  2.48it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.54it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.58it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:03,  2.52it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:02,  2.53it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:02,  2.53it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:00,  2.57it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<01:00,  2.56it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:01,  2.52it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.51it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:59,  2.58it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:59,  2.54it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:58,  2.57it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:59,  2.52it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:59,  2.49it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:57,  2.55it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:57,  2.56it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:58,  2.50it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.55it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:55,  2.58it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:56,  2.53it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:55,  2.53it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:55,  2.52it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:55,  2.51it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:53,  2.58it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.54it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:53,  2.56it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.53it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:51,  2.61it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.54it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:51,  2.54it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:52,  2.51it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:51,  2.53it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.51it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:49,  2.57it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:48,  2.59it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:49,  2.50it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:48,  2.58it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:49,  2.51it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:48,  2.51it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.53it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:46,  2.56it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.55it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.52it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:46,  2.54it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.56it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:44,  2.61it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.56it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.52it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.52it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.54it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:42,  2.55it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.57it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:42,  2.52it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:40,  2.59it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.54it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:41,  2.54it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.54it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:40,  2.53it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:35<00:39,  2.56it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:39,  2.56it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:39,  2.54it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.55it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:37,  2.58it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.59it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:36,  2.57it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.56it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:36,  2.53it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:35,  2.56it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:36,  2.52it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.53it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:35,  2.54it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.53it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:33,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.55it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:33,  2.53it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:32,  2.53it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:31,  2.58it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.57it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.53it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:30,  2.60it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.54it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.58it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:30,  2.53it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.53it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.58it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:46<00:28,  2.58it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:27,  2.60it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:28,  2.49it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:27,  2.51it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:26,  2.56it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.59it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.56it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:26,  2.49it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:25,  2.53it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.56it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:25,  2.51it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.53it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:24,  2.52it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.58it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.55it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.53it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.59it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:22,  2.53it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.55it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.54it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.55it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.53it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:20,  2.52it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:55<00:19,  2.53it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.55it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.57it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.59it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:17,  2.56it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:57<00:17,  2.55it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.55it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:16,  2.57it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.57it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.51it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.54it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.56it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:14,  2.55it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.54it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.56it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.53it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.55it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.53it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.52it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.67it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.53it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:11,  2.51it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:04<00:10,  2.54it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.55it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.53it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.52it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:08,  2.56it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:06<00:08,  2.53it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.58it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.52it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.53it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.53it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:08<00:06,  2.55it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.51it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.55it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.55it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.56it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.56it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.57it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.56it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.57it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.57it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.57it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.57it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.55it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:13<00:01,  2.61it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.52it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.56it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.53it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  1.96it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995020866394043, 'eval_runtime': 78.5436, 'eval_samples_per_second': 150.961, 'eval_steps_per_second': 2.368, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 2.72}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▍         | 2600/2865 [2:46:49<13:04,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  1.96it/s][A
                                                                                                                                                  [A[2025-10-12 05:55:42,101] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2600
 91%|███████████████████████████████████████████████████████████████████████████████████████████▋         | 2601/2865 [2:46:58<2:04:39, 28.33s/it]                                                                                                                                                  {'loss': 10.9885, 'grad_norm': 1.3828125, 'learning_rate': 1.2912913290388795e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 18795.07, 'epoch': 2.72}
 91%|███████████████████████████████████████████████████████████████████████████████████████████▋         | 2601/2865 [2:46:58<2:04:39, 28.33s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████▋         | 2602/2865 [2:47:01<1:30:48, 20.72s/it]                                                                                                                                                  {'loss': 11.0181, 'grad_norm': 1.0546875, 'learning_rate': 1.2816481025623883e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21765.91, 'epoch': 2.72}
 91%|███████████████████████████████████████████████████████████████████████████████████████████▋         | 2602/2865 [2:47:01<1:30:48, 20.72s/it] 91%|███████████████████████████████████████████████████████████████████████████████████████████▊         | 2603/2865 [2:47:04<1:07:11, 15.39s/it]                                                                                                                                                  {'loss': 11.0239, 'grad_norm': 1.0234375, 'learning_rate': 1.272040071130151e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22092.41, 'epoch': 2.73}
 91%|███████████████████████████████████████████████████████████████████████████████████████████▊         | 2603/2865 [2:47:04<1:07:11, 15.39s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▌         | 2604/2865 [2:47:07<50:41, 11.65s/it]                                                                                                                                                  {'loss': 11.0132, 'grad_norm': 1.0859375, 'learning_rate': 1.2624672489992716e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21172.14, 'epoch': 2.73}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▌         | 2604/2865 [2:47:07<50:41, 11.65s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▋         | 2605/2865 [2:47:10<39:10,  9.04s/it]                                                                                                                                                  {'loss': 11.0124, 'grad_norm': 1.21875, 'learning_rate': 1.2529296503746152e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20663.85, 'epoch': 2.73}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▋         | 2605/2865 [2:47:10<39:10,  9.04s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▋         | 2606/2865 [2:47:13<31:09,  7.22s/it]                                                                                                                                                  {'loss': 11.0044, 'grad_norm': 1.03125, 'learning_rate': 1.243427289408769e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23176.05, 'epoch': 2.73}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▋         | 2606/2865 [2:47:13<31:09,  7.22s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▋         | 2607/2865 [2:47:16<25:32,  5.94s/it]                                                                                                                                                  {'loss': 11.0397, 'grad_norm': 1.0546875, 'learning_rate': 1.2339601802020484e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21530.15, 'epoch': 2.73}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▋         | 2607/2865 [2:47:16<25:32,  5.94s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▊         | 2608/2865 [2:47:19<21:36,  5.04s/it]                                                                                                                                                  {'loss': 11.0181, 'grad_norm': 1.03125, 'learning_rate': 1.2245283368024468e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20684.71, 'epoch': 2.73}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▊         | 2608/2865 [2:47:19<21:36,  5.04s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▊         | 2609/2865 [2:47:22<18:49,  4.41s/it]                                                                                                                                                  {'loss': 10.9935, 'grad_norm': 1.0859375, 'learning_rate': 1.2151317732056244e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21257.34, 'epoch': 2.73}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▊         | 2609/2865 [2:47:22<18:49,  4.41s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▊         | 2610/2865 [2:47:25<16:53,  3.98s/it]                                                                                                                                                  {'loss': 11.0225, 'grad_norm': 1.046875, 'learning_rate': 1.2057705033549028e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21825.68, 'epoch': 2.73}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▊         | 2610/2865 [2:47:25<16:53,  3.98s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▊         | 2611/2865 [2:47:28<15:32,  3.67s/it]                                                                                                                                                  {'loss': 11.0099, 'grad_norm': 1.0625, 'learning_rate': 1.1964445411412256e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21075.87, 'epoch': 2.73}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▊         | 2611/2865 [2:47:28<15:32,  3.67s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▉         | 2612/2865 [2:47:31<14:34,  3.46s/it]                                                                                                                                                  {'loss': 11.0203, 'grad_norm': 1.03125, 'learning_rate': 1.1871539004031456e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21877.47, 'epoch': 2.74}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▉         | 2612/2865 [2:47:31<14:34,  3.46s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▉         | 2613/2865 [2:47:34<13:52,  3.30s/it]                                                                                                                                                  {'loss': 10.989, 'grad_norm': 1.1328125, 'learning_rate': 1.177898594926799e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21661.25, 'epoch': 2.74}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▉         | 2613/2865 [2:47:34<13:52,  3.30s/it] 91%|█████████████████████████████████████████████████████████████████████████████████████████████▉         | 2614/2865 [2:47:37<13:22,  3.20s/it]                                                                                                                                                  {'loss': 11.0104, 'grad_norm': 1.03125, 'learning_rate': 1.1686786384458997e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21044.56, 'epoch': 2.74}
 91%|█████████████████████████████████████████████████████████████████████████████████████████████▉         | 2614/2865 [2:47:37<13:22,  3.20s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████         | 2615/2865 [2:47:40<13:00,  3.12s/it]                                                                                                                                                  {'loss': 10.9999, 'grad_norm': 1.046875, 'learning_rate': 1.159494044641693e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20725.75, 'epoch': 2.74}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████         | 2615/2865 [2:47:40<13:00,  3.12s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████         | 2616/2865 [2:47:43<12:44,  3.07s/it]                                                                                                                                                  {'loss': 11.0234, 'grad_norm': 1.0625, 'learning_rate': 1.150344827142963e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22190.6, 'epoch': 2.74}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████         | 2616/2865 [2:47:43<12:44,  3.07s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████         | 2617/2865 [2:47:45<12:32,  3.03s/it]                                                                                                                                                  {'loss': 11.0148, 'grad_norm': 1.0546875, 'learning_rate': 1.141230999525994e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21539.3, 'epoch': 2.74}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████         | 2617/2865 [2:47:45<12:32,  3.03s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████         | 2618/2865 [2:47:48<12:24,  3.01s/it]                                                                                                                                                  {'loss': 11.0137, 'grad_norm': 1.046875, 'learning_rate': 1.1321525753145545e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21990.49, 'epoch': 2.74}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████         | 2618/2865 [2:47:48<12:24,  3.01s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████▏        | 2619/2865 [2:47:51<12:16,  3.00s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.0390625, 'learning_rate': 1.1231095679798881e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20583.97, 'epoch': 2.74}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████▏        | 2619/2865 [2:47:51<12:16,  3.00s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████▏        | 2620/2865 [2:47:54<12:11,  2.99s/it]                                                                                                                                                  {'loss': 11.0182, 'grad_norm': 1.03125, 'learning_rate': 1.1141019909406691e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21329.17, 'epoch': 2.74}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████▏        | 2620/2865 [2:47:54<12:11,  2.99s/it] 91%|██████████████████████████████████████████████████████████████████████████████████████████████▏        | 2621/2865 [2:47:57<12:07,  2.98s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.0234375, 'learning_rate': 1.1051298575630143e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22351.64, 'epoch': 2.74}
 91%|██████████████████████████████████████████████████████████████████████████████████████████████▏        | 2621/2865 [2:47:57<12:07,  2.98s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▎        | 2622/2865 [2:48:00<12:02,  2.97s/it]                                                                                                                                                  {'loss': 10.998, 'grad_norm': 1.171875, 'learning_rate': 1.096193181160432e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21705.7, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▎        | 2622/2865 [2:48:00<12:02,  2.97s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▎        | 2623/2865 [2:48:03<11:58,  2.97s/it]                                                                                                                                                  {'loss': 11.0125, 'grad_norm': 1.1328125, 'learning_rate': 1.087291974993826e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21710.84, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▎        | 2623/2865 [2:48:03<11:58,  2.97s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▎        | 2624/2865 [2:48:06<11:53,  2.96s/it]                                                                                                                                                  {'loss': 11.0008, 'grad_norm': 1.15625, 'learning_rate': 1.0784262522714695e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19952.38, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▎        | 2624/2865 [2:48:06<11:53,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▎        | 2625/2865 [2:48:09<11:50,  2.96s/it]                                                                                                                                                  {'loss': 11.0142, 'grad_norm': 1.0234375, 'learning_rate': 1.0695960261489667e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21664.28, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▎        | 2625/2865 [2:48:09<11:50,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▍        | 2626/2865 [2:48:12<11:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0009, 'grad_norm': 1.1015625, 'learning_rate': 1.060801309729273e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21613.78, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▍        | 2626/2865 [2:48:12<11:46,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▍        | 2627/2865 [2:48:15<11:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0179, 'grad_norm': 1.0625, 'learning_rate': 1.0520421160626236e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21545.51, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▍        | 2627/2865 [2:48:15<11:43,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▍        | 2628/2865 [2:48:18<11:39,  2.95s/it]                                                                                                                                                  {'loss': 11.0197, 'grad_norm': 1.15625, 'learning_rate': 1.0433184581465721e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21379.06, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▍        | 2628/2865 [2:48:18<11:39,  2.95s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▌        | 2629/2865 [2:48:21<11:36,  2.95s/it]                                                                                                                                                  {'loss': 11.0042, 'grad_norm': 1.1015625, 'learning_rate': 1.034630348925919e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21606.59, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▌        | 2629/2865 [2:48:21<11:36,  2.95s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▌        | 2630/2865 [2:48:24<11:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0291, 'grad_norm': 1.0234375, 'learning_rate': 1.0259778012927268e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22516.17, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▌        | 2630/2865 [2:48:24<11:34,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▌        | 2631/2865 [2:48:27<11:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0274, 'grad_norm': 1.1328125, 'learning_rate': 1.0173608280862807e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20272.83, 'epoch': 2.75}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▌        | 2631/2865 [2:48:27<11:31,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▌        | 2632/2865 [2:48:30<11:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0266, 'grad_norm': 1.0390625, 'learning_rate': 1.0087794420930884e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21870.22, 'epoch': 2.76}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▌        | 2632/2865 [2:48:30<11:29,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▋        | 2633/2865 [2:48:33<11:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0171, 'grad_norm': 1.0859375, 'learning_rate': 1.0002336560468423e-06, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21507.79, 'epoch': 2.76}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▋        | 2633/2865 [2:48:33<11:26,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▋        | 2634/2865 [2:48:36<11:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0052, 'grad_norm': 1.1953125, 'learning_rate': 9.917234826284093e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22040.78, 'epoch': 2.76}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▋        | 2634/2865 [2:48:36<11:23,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▋        | 2635/2865 [2:48:39<11:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0182, 'grad_norm': 1.140625, 'learning_rate': 9.83248934465819e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20889.98, 'epoch': 2.76}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▋        | 2635/2865 [2:48:39<11:19,  2.95s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▊        | 2636/2865 [2:48:42<11:16,  2.95s/it]                                                                                                                                                  {'loss': 11.0099, 'grad_norm': 1.171875, 'learning_rate': 9.748100241342263e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21343.19, 'epoch': 2.76}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▊        | 2636/2865 [2:48:42<11:16,  2.95s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▊        | 2637/2865 [2:48:45<11:14,  2.96s/it]                                                                                                                                                  {'loss': 10.9964, 'grad_norm': 1.0390625, 'learning_rate': 9.664067641559165e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22795.94, 'epoch': 2.76}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▊        | 2637/2865 [2:48:45<11:14,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▊        | 2638/2865 [2:48:48<11:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0121, 'grad_norm': 1.0546875, 'learning_rate': 9.58039167000263e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21489.61, 'epoch': 2.76}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▊        | 2638/2865 [2:48:48<11:11,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▉        | 2639/2865 [2:48:50<11:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0223, 'grad_norm': 1.03125, 'learning_rate': 9.497072450837308e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21539.99, 'epoch': 2.76}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▉        | 2639/2865 [2:48:51<11:08,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▉        | 2640/2865 [2:48:53<11:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0229, 'grad_norm': 1.1875, 'learning_rate': 9.414110107698326e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22576.29, 'epoch': 2.76}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▉        | 2640/2865 [2:48:53<11:05,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▉        | 2641/2865 [2:48:56<11:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0207, 'grad_norm': 1.0625, 'learning_rate': 9.331504763691462e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21332.04, 'epoch': 2.77}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▉        | 2641/2865 [2:48:56<11:02,  2.96s/it] 92%|██████████████████████████████████████████████████████████████████████████████████████████████▉        | 2642/2865 [2:48:59<11:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0022, 'grad_norm': 1.046875, 'learning_rate': 9.249256541392553e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21222.65, 'epoch': 2.77}
 92%|██████████████████████████████████████████████████████████████████████████████████████████████▉        | 2642/2865 [2:48:59<11:00,  2.96s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████        | 2643/2865 [2:49:02<10:56,  2.96s/it]                                                                                                                                                  {'loss': 11.0247, 'grad_norm': 1.109375, 'learning_rate': 9.167365562847612e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21087.78, 'epoch': 2.77}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████        | 2643/2865 [2:49:02<10:56,  2.96s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████        | 2644/2865 [2:49:05<10:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0216, 'grad_norm': 1.0859375, 'learning_rate': 9.08583194957252e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21214.52, 'epoch': 2.77}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████        | 2644/2865 [2:49:05<10:53,  2.95s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████        | 2645/2865 [2:49:08<10:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0148, 'grad_norm': 1.1484375, 'learning_rate': 9.004655822552887e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22955.18, 'epoch': 2.77}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████        | 2645/2865 [2:49:08<10:51,  2.96s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████▏       | 2646/2865 [2:49:11<10:48,  2.96s/it]                                                                                                                                                  {'loss': 11.009, 'grad_norm': 1.046875, 'learning_rate': 8.923837302243859e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22749.44, 'epoch': 2.77}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████▏       | 2646/2865 [2:49:11<10:48,  2.96s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████▏       | 2647/2865 [2:49:14<10:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0208, 'grad_norm': 1.1953125, 'learning_rate': 8.843376508569923e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21232.45, 'epoch': 2.77}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████▏       | 2647/2865 [2:49:14<10:45,  2.96s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████▏       | 2648/2865 [2:49:17<10:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0043, 'grad_norm': 1.046875, 'learning_rate': 8.763273560924767e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21314.41, 'epoch': 2.77}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████▏       | 2648/2865 [2:49:17<10:41,  2.96s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████▏       | 2649/2865 [2:49:20<10:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0325, 'grad_norm': 1.1484375, 'learning_rate': 8.683528578171063e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22177.79, 'epoch': 2.77}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████▏       | 2649/2865 [2:49:20<10:38,  2.96s/it] 92%|███████████████████████████████████████████████████████████████████████████████████████████████▎       | 2650/2865 [2:49:23<10:36,  2.96s/it]                                                                                                                                                  {'loss': 10.9958, 'grad_norm': 1.03125, 'learning_rate': 8.604141678640293e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20860.46, 'epoch': 2.77}
 92%|███████████████████████████████████████████████████████████████████████████████████████████████▎       | 2650/2865 [2:49:23<10:36,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▎       | 2651/2865 [2:49:26<10:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0199, 'grad_norm': 1.2109375, 'learning_rate': 8.525112980132643e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21763.92, 'epoch': 2.78}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▎       | 2651/2865 [2:49:26<10:33,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▎       | 2652/2865 [2:49:29<10:30,  2.96s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.078125, 'learning_rate': 8.446442599916671e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21289.12, 'epoch': 2.78}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▎       | 2652/2865 [2:49:29<10:30,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▍       | 2653/2865 [2:49:32<10:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0386, 'grad_norm': 1.015625, 'learning_rate': 8.368130654729411e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21219.37, 'epoch': 2.78}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▍       | 2653/2865 [2:49:32<10:27,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▍       | 2654/2865 [2:49:35<10:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0231, 'grad_norm': 1.0390625, 'learning_rate': 8.2901772607758e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20874.09, 'epoch': 2.78}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▍       | 2654/2865 [2:49:35<10:24,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▍       | 2655/2865 [2:49:38<10:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0076, 'grad_norm': 1.2421875, 'learning_rate': 8.212582533728974e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20926.78, 'epoch': 2.78}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▍       | 2655/2865 [2:49:38<10:20,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▍       | 2656/2865 [2:49:41<10:18,  2.96s/it]                                                                                                                                                  {'loss': 11.0241, 'grad_norm': 1.03125, 'learning_rate': 8.135346588729609e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20649.22, 'epoch': 2.78}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▍       | 2656/2865 [2:49:41<10:18,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▌       | 2657/2865 [2:49:44<10:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0421, 'grad_norm': 1.0546875, 'learning_rate': 8.058469540386165e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21483.11, 'epoch': 2.78}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▌       | 2657/2865 [2:49:44<10:15,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▌       | 2658/2865 [2:49:47<10:12,  2.96s/it]                                                                                                                                                  {'loss': 11.0245, 'grad_norm': 1.0234375, 'learning_rate': 7.981951502774504e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22613.76, 'epoch': 2.78}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▌       | 2658/2865 [2:49:47<10:12,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▌       | 2659/2865 [2:49:50<10:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0169, 'grad_norm': 1.0625, 'learning_rate': 7.905792589437716e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21214.97, 'epoch': 2.78}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▌       | 2659/2865 [2:49:50<10:09,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▋       | 2660/2865 [2:49:53<10:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0166, 'grad_norm': 1.03125, 'learning_rate': 7.829992913386042e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20617.03, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▋       | 2660/2865 [2:49:53<10:06,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▋       | 2661/2865 [2:49:56<10:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0219, 'grad_norm': 1.046875, 'learning_rate': 7.754552587096648e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21044.46, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▋       | 2661/2865 [2:49:56<10:03,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▋       | 2662/2865 [2:49:59<10:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0253, 'grad_norm': 1.0234375, 'learning_rate': 7.679471722513459e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20452.9, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▋       | 2662/2865 [2:49:59<10:00,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▋       | 2663/2865 [2:50:01<09:56,  2.95s/it]                                                                                                                                                  {'loss': 11.0201, 'grad_norm': 1.03125, 'learning_rate': 7.604750431047053e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20897.3, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▋       | 2663/2865 [2:50:02<09:56,  2.95s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▊       | 2664/2865 [2:50:04<09:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0188, 'grad_norm': 1.046875, 'learning_rate': 7.53038882357432e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20217.03, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▊       | 2664/2865 [2:50:04<09:53,  2.95s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▊       | 2665/2865 [2:50:07<09:50,  2.95s/it]                                                                                                                                                  {'loss': 11.0033, 'grad_norm': 1.1171875, 'learning_rate': 7.456387010438603e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21329.94, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▊       | 2665/2865 [2:50:07<09:50,  2.95s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▊       | 2666/2865 [2:50:10<09:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0229, 'grad_norm': 1.1015625, 'learning_rate': 7.382745101449206e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20458.65, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▊       | 2666/2865 [2:50:10<09:48,  2.96s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▉       | 2667/2865 [2:50:13<09:44,  2.95s/it]                                                                                                                                                  {'loss': 11.0051, 'grad_norm': 1.046875, 'learning_rate': 7.309463205881495e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21809.38, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▉       | 2667/2865 [2:50:13<09:44,  2.95s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▉       | 2668/2865 [2:50:16<09:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0179, 'grad_norm': 1.046875, 'learning_rate': 7.236541432476484e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20771.59, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▉       | 2668/2865 [2:50:16<09:41,  2.95s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▉       | 2669/2865 [2:50:19<09:38,  2.95s/it]                                                                                                                                                  {'loss': 11.0126, 'grad_norm': 1.03125, 'learning_rate': 7.16397988944098e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21668.01, 'epoch': 2.79}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▉       | 2669/2865 [2:50:19<09:38,  2.95s/it] 93%|███████████████████████████████████████████████████████████████████████████████████████████████▉       | 2670/2865 [2:50:22<09:36,  2.95s/it]                                                                                                                                                  {'loss': 11.0244, 'grad_norm': 1.046875, 'learning_rate': 7.091778684447075e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21754.77, 'epoch': 2.8}
 93%|███████████████████████████████████████████████████████████████████████████████████████████████▉       | 2670/2865 [2:50:22<09:36,  2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████       | 2671/2865 [2:50:25<09:32,  2.95s/it]                                                                                                                                                  {'loss': 11.0292, 'grad_norm': 1.1015625, 'learning_rate': 7.019937924632347e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21424.31, 'epoch': 2.8}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████       | 2671/2865 [2:50:25<09:32,  2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████       | 2672/2865 [2:50:28<09:30,  2.95s/it]                                                                                                                                                  {'loss': 11.0109, 'grad_norm': 1.03125, 'learning_rate': 6.948457716599355e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21159.54, 'epoch': 2.8}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████       | 2672/2865 [2:50:28<09:30,  2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████       | 2673/2865 [2:50:31<09:26,  2.95s/it]                                                                                                                                                  {'loss': 11.0134, 'grad_norm': 1.1015625, 'learning_rate': 6.877338166415781e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20878.52, 'epoch': 2.8}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████       | 2673/2865 [2:50:31<09:26,  2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████▏      | 2674/2865 [2:50:34<09:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0228, 'grad_norm': 1.0625, 'learning_rate': 6.806579379613987e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21340.63, 'epoch': 2.8}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████▏      | 2674/2865 [2:50:34<09:23,  2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████▏      | 2675/2865 [2:50:37<09:20,  2.95s/it]                                                                                                                                                  {'loss': 11.019, 'grad_norm': 1.0234375, 'learning_rate': 6.736181461191177e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19763.41, 'epoch': 2.8}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████▏      | 2675/2865 [2:50:37<09:20,  2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████▏      | 2676/2865 [2:50:40<09:18,  2.95s/it]                                                                                                                                                  {'loss': 11.0096, 'grad_norm': 1.0234375, 'learning_rate': 6.666144515608957e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22053.16, 'epoch': 2.8}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████▏      | 2676/2865 [2:50:40<09:18,  2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████▏      | 2677/2865 [2:50:43<09:15,  2.95s/it]                                                                                                                                                  {'loss': 10.9982, 'grad_norm': 1.0234375, 'learning_rate': 6.59646864679328e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22230.16, 'epoch': 2.8}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████▏      | 2677/2865 [2:50:43<09:15,  2.95s/it] 93%|████████████████████████████████████████████████████████████████████████████████████████████████▎      | 2678/2865 [2:50:46<09:12,  2.95s/it]                                                                                                                                                  {'loss': 10.9884, 'grad_norm': 1.1875, 'learning_rate': 6.527153958134441e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22100.75, 'epoch': 2.8}
 93%|████████████████████████████████████████████████████████████████████████████████████████████████▎      | 2678/2865 [2:50:46<09:12,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▎      | 2679/2865 [2:50:49<09:09,  2.96s/it]                                                                                                                                                  {'loss': 11.005, 'grad_norm': 1.0859375, 'learning_rate': 6.45820055248661e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21117.72, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▎      | 2679/2865 [2:50:49<09:09,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▎      | 2680/2865 [2:50:52<09:06,  2.96s/it]                                                                                                                                                  {'loss': 11.003, 'grad_norm': 1.125, 'learning_rate': 6.389608532168023e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21081.05, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▎      | 2680/2865 [2:50:52<09:06,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▍      | 2681/2865 [2:50:55<09:03,  2.95s/it]                                                                                                                                                  {'loss': 11.0171, 'grad_norm': 1.0390625, 'learning_rate': 6.321377998960514e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20969.29, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▍      | 2681/2865 [2:50:55<09:03,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▍      | 2682/2865 [2:50:58<09:00,  2.95s/it]                                                                                                                                                  {'loss': 11.0047, 'grad_norm': 1.03125, 'learning_rate': 6.25350905410968e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20879.01, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▍      | 2682/2865 [2:50:58<09:00,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▍      | 2683/2865 [2:51:01<08:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0252, 'grad_norm': 1.09375, 'learning_rate': 6.186001798324459e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22096.96, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▍      | 2683/2865 [2:51:01<08:57,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▍      | 2684/2865 [2:51:04<08:55,  2.96s/it]                                                                                                                                                  {'loss': 11.008, 'grad_norm': 1.03125, 'learning_rate': 6.118856331777028e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22203.02, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▍      | 2684/2865 [2:51:04<08:55,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▌      | 2685/2865 [2:51:06<08:52,  2.96s/it]                                                                                                                                                  {'loss': 10.9916, 'grad_norm': 1.078125, 'learning_rate': 6.052072754102883e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22104.45, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▌      | 2685/2865 [2:51:06<08:52,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▌      | 2686/2865 [2:51:09<08:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0226, 'grad_norm': 1.046875, 'learning_rate': 5.985651164400391e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22108.0, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▌      | 2686/2865 [2:51:09<08:49,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▌      | 2687/2865 [2:51:12<08:45,  2.95s/it]                                                                                                                                                  {'loss': 11.0273, 'grad_norm': 1.03125, 'learning_rate': 5.91959166123085e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21293.5, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▌      | 2687/2865 [2:51:12<08:45,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▋      | 2688/2865 [2:51:15<08:42,  2.95s/it]                                                                                                                                                  {'loss': 10.9859, 'grad_norm': 1.078125, 'learning_rate': 5.85389434261821e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20569.98, 'epoch': 2.81}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▋      | 2688/2865 [2:51:15<08:42,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▋      | 2689/2865 [2:51:18<08:39,  2.95s/it]                                                                                                                                                  {'loss': 11.0277, 'grad_norm': 1.03125, 'learning_rate': 5.788559306049018e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20312.56, 'epoch': 2.82}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▋      | 2689/2865 [2:51:18<08:39,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▋      | 2690/2865 [2:51:21<08:36,  2.95s/it]                                                                                                                                                  {'loss': 11.0397, 'grad_norm': 1.0234375, 'learning_rate': 5.723586648472224e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21450.31, 'epoch': 2.82}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▋      | 2690/2865 [2:51:21<08:36,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▋      | 2691/2865 [2:51:24<08:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0053, 'grad_norm': 1.0390625, 'learning_rate': 5.658976466299093e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22195.18, 'epoch': 2.82}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▋      | 2691/2865 [2:51:24<08:34,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▊      | 2692/2865 [2:51:27<08:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0351, 'grad_norm': 1.03125, 'learning_rate': 5.594728855402936e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21773.75, 'epoch': 2.82}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▊      | 2692/2865 [2:51:27<08:31,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▊      | 2693/2865 [2:51:30<08:28,  2.95s/it]                                                                                                                                                  {'loss': 11.0093, 'grad_norm': 1.1328125, 'learning_rate': 5.53084391111916e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20873.32, 'epoch': 2.82}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▊      | 2693/2865 [2:51:30<08:28,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▊      | 2694/2865 [2:51:33<08:24,  2.95s/it]                                                                                                                                                  {'loss': 11.0152, 'grad_norm': 1.046875, 'learning_rate': 5.467321728244934e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21290.97, 'epoch': 2.82}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▊      | 2694/2865 [2:51:33<08:24,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▉      | 2695/2865 [2:51:36<08:22,  2.96s/it]                                                                                                                                                  {'loss': 11.0092, 'grad_norm': 1.109375, 'learning_rate': 5.404162401039164e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20622.15, 'epoch': 2.82}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▉      | 2695/2865 [2:51:36<08:22,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▉      | 2696/2865 [2:51:39<08:19,  2.95s/it]                                                                                                                                                  {'loss': 11.0158, 'grad_norm': 1.1875, 'learning_rate': 5.341366023222382e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21602.9, 'epoch': 2.82}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▉      | 2696/2865 [2:51:39<08:19,  2.95s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▉      | 2697/2865 [2:51:42<08:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0354, 'grad_norm': 1.140625, 'learning_rate': 5.278932687976468e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21079.58, 'epoch': 2.82}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▉      | 2697/2865 [2:51:42<08:17,  2.96s/it] 94%|████████████████████████████████████████████████████████████████████████████████████████████████▉      | 2698/2865 [2:51:45<08:13,  2.96s/it]                                                                                                                                                  {'loss': 10.9975, 'grad_norm': 1.09375, 'learning_rate': 5.216862487944562e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21227.28, 'epoch': 2.83}
 94%|████████████████████████████████████████████████████████████████████████████████████████████████▉      | 2698/2865 [2:51:45<08:13,  2.96s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████      | 2699/2865 [2:51:48<08:10,  2.96s/it]                                                                                                                                                  {'loss': 11.019, 'grad_norm': 1.03125, 'learning_rate': 5.15515551523113e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22136.0, 'epoch': 2.83}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████      | 2699/2865 [2:51:48<08:10,  2.96s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████      | 2700/2865 [2:51:51<08:07,  2.96s/it]                                                                                                                                                  {'loss': 11.0022, 'grad_norm': 1.03125, 'learning_rate': 5.093811861401454e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21185.49, 'epoch': 2.83}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████      | 2700/2865 [2:51:51<08:07,  2.96s/it][2025-10-12 06:00:43,643] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:02<04:06,  1.35s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<02:53,  1.05it/s][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:15,  1.34it/s][A
  3%|██▉                                                                                                          | 5/185 [00:03<01:51,  1.61it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:37,  1.83it/s][A
  4%|████                                                                                                         | 7/185 [00:04<01:27,  2.04it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:22,  2.14it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:18,  2.25it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:05<01:15,  2.33it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:10,  2.47it/s][A
  6%|███████                                                                                                     | 12/185 [00:06<01:10,  2.45it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:09,  2.48it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:09,  2.48it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:07<01:06,  2.55it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:07,  2.50it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:06,  2.52it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:08<01:04,  2.59it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:05,  2.54it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:09<01:05,  2.52it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:05,  2.50it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:03,  2.56it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:10<01:03,  2.55it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:01,  2.60it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:11<01:02,  2.56it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:03,  2.49it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:02,  2.53it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:12<01:02,  2.50it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:01,  2.54it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:13<00:59,  2.59it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<01:00,  2.54it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<01:00,  2.53it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:14<00:58,  2.59it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:59,  2.54it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:15<00:57,  2.60it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:58,  2.53it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.52it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:16<00:58,  2.52it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:56,  2.59it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:57,  2.52it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:56,  2.56it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:56,  2.53it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:18<00:54,  2.59it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:54,  2.57it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:55,  2.52it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:19<00:54,  2.55it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.54it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:20<00:53,  2.56it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:53,  2.56it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:52,  2.59it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:21<00:52,  2.54it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:51,  2.60it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:22<00:52,  2.53it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:51,  2.54it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:23<00:50,  2.55it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:49,  2.59it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:24<00:49,  2.56it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:47,  2.63it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:48,  2.55it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:25<00:48,  2.54it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:48,  2.54it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:26<00:47,  2.60it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:26<00:46,  2.58it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.54it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:27<00:46,  2.55it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.55it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:46,  2.54it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:28<00:45,  2.54it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.53it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:29<00:44,  2.56it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:43,  2.57it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:43,  2.55it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:30<00:43,  2.53it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:43,  2.55it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:31<00:41,  2.63it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.52it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:41,  2.58it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:32<00:41,  2.54it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.50it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:33<00:40,  2.59it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.57it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:39,  2.56it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:34<00:40,  2.52it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:39,  2.52it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:35<00:39,  2.53it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:37,  2.58it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.51it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:36<00:37,  2.53it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.55it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:37<00:36,  2.58it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:37<00:36,  2.58it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:36,  2.50it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:38<00:35,  2.54it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.53it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:35,  2.53it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:39<00:35,  2.49it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:33,  2.59it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:40<00:32,  2.62it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.55it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:33,  2.50it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:41<00:33,  2.49it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:31,  2.57it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:42<00:31,  2.56it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.54it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:30,  2.57it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:43<00:30,  2.57it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:30,  2.53it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:44<00:29,  2.54it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:28,  2.64it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:28,  2.57it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:45<00:29,  2.48it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.54it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:46<00:27,  2.54it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:28,  2.49it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.56it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:47<00:26,  2.59it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.56it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:26,  2.51it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:48<00:25,  2.55it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.51it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:49<00:25,  2.51it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.56it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:50<00:24,  2.50it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:50<00:23,  2.53it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.55it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:51<00:22,  2.53it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.55it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.56it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:52<00:21,  2.52it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.57it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:53<00:20,  2.56it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.56it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.56it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:54<00:19,  2.57it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.56it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:55<00:18,  2.58it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.56it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:17,  2.56it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:56<00:17,  2.59it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.54it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:57<00:17,  2.53it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.54it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:15,  2.59it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:58<00:15,  2.55it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.55it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [00:59<00:15,  2.53it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [00:59<00:14,  2.57it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.52it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:00<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.54it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:01<00:12,  2.55it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:01<00:12,  2.55it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:12,  2.54it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:02<00:11,  2.55it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.57it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:10,  2.55it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:03<00:10,  2.56it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.51it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:04<00:09,  2.54it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.53it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:09,  2.52it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:05<00:08,  2.60it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.52it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:06<00:07,  2.51it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.51it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.56it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:07<00:06,  2.56it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.53it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:08<00:05,  2.55it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.51it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.52it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:09<00:04,  2.52it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.54it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:10<00:03,  2.57it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:10<00:03,  2.66it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.52it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:11<00:02,  2.56it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.54it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:12<00:01,  2.60it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:12<00:01,  2.54it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.56it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:13<00:00,  2.53it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.54it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:14<00:00,  2.02it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.995027542114258, 'eval_runtime': 78.4661, 'eval_samples_per_second': 151.11, 'eval_steps_per_second': 2.37, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 2.83}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████      | 2700/2865 [2:53:09<08:07,  2.96s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.02it/s][A
                                                                                                                                                  [A[2025-10-12 06:02:02,130] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2700
 94%|███████████████████████████████████████████████████████████████████████████████████████████████▏     | 2701/2865 [2:53:18<1:17:20, 28.29s/it]                                                                                                                                                  {'loss': 11.0287, 'grad_norm': 1.0234375, 'learning_rate': 5.032831617481832e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 19521.09, 'epoch': 2.83}
 94%|███████████████████████████████████████████████████████████████████████████████████████████████▏     | 2701/2865 [2:53:18<1:17:20, 28.29s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▏     | 2702/2865 [2:53:21<56:12, 20.69s/it]                                                                                                                                                  {'loss': 11.026, 'grad_norm': 1.03125, 'learning_rate': 4.972214873959213e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21396.25, 'epoch': 2.83}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▏     | 2702/2865 [2:53:21<56:12, 20.69s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▏     | 2703/2865 [2:53:24<41:30, 15.37s/it]                                                                                                                                                  {'loss': 11.0227, 'grad_norm': 1.0234375, 'learning_rate': 4.911961720781233e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21333.6, 'epoch': 2.83}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▏     | 2703/2865 [2:53:24<41:30, 15.37s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▏     | 2704/2865 [2:53:27<31:14, 11.64s/it]                                                                                                                                                  {'loss': 10.994, 'grad_norm': 1.03125, 'learning_rate': 4.852072247355955e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22442.12, 'epoch': 2.83}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▏     | 2704/2865 [2:53:27<31:14, 11.64s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▏     | 2705/2865 [2:53:30<24:05,  9.03s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.046875, 'learning_rate': 4.792546542551874e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21387.39, 'epoch': 2.83}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▏     | 2705/2865 [2:53:30<24:05,  9.03s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎     | 2706/2865 [2:53:33<19:05,  7.21s/it]                                                                                                                                                  {'loss': 11.0111, 'grad_norm': 1.03125, 'learning_rate': 4.733384694697529e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19253.4, 'epoch': 2.83}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎     | 2706/2865 [2:53:33<19:05,  7.21s/it] 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎     | 2707/2865 [2:53:36<15:37,  5.93s/it]                                                                                                                                                  {'loss': 11.0051, 'grad_norm': 1.09375, 'learning_rate': 4.6745867915817255e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20887.53, 'epoch': 2.83}
 94%|█████████████████████████████████████████████████████████████████████████████████████████████████▎     | 2707/2865 [2:53:36<15:37,  5.93s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▎     | 2708/2865 [2:53:39<13:10,  5.04s/it]                                                                                                                                                  {'loss': 11.0114, 'grad_norm': 1.078125, 'learning_rate': 4.616152920453115e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21808.29, 'epoch': 2.84}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▎     | 2708/2865 [2:53:39<13:10,  5.04s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▍     | 2709/2865 [2:53:42<11:28,  4.41s/it]                                                                                                                                                  {'loss': 11.0306, 'grad_norm': 1.03125, 'learning_rate': 4.558083168020144e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21730.7, 'epoch': 2.84}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▍     | 2709/2865 [2:53:42<11:28,  4.41s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▍     | 2710/2865 [2:53:45<10:15,  3.97s/it]                                                                                                                                                  {'loss': 10.9911, 'grad_norm': 1.0390625, 'learning_rate': 4.500377620451107e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20168.17, 'epoch': 2.84}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▍     | 2710/2865 [2:53:45<10:15,  3.97s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▍     | 2711/2865 [2:53:48<09:25,  3.67s/it]                                                                                                                                                  {'loss': 11.0127, 'grad_norm': 1.03125, 'learning_rate': 4.443036363373676e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22539.61, 'epoch': 2.84}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▍     | 2711/2865 [2:53:48<09:25,  3.67s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▍     | 2712/2865 [2:53:51<08:49,  3.46s/it]                                                                                                                                                  {'loss': 11.0225, 'grad_norm': 1.046875, 'learning_rate': 4.386059481875093e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21458.83, 'epoch': 2.84}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▍     | 2712/2865 [2:53:51<08:49,  3.46s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▌     | 2713/2865 [2:53:54<08:23,  3.31s/it]                                                                                                                                                  {'loss': 11.025, 'grad_norm': 1.03125, 'learning_rate': 4.32944706050184e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21249.87, 'epoch': 2.84}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▌     | 2713/2865 [2:53:54<08:23,  3.31s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▌     | 2714/2865 [2:53:57<08:03,  3.20s/it]                                                                                                                                                  {'loss': 11.0074, 'grad_norm': 1.0390625, 'learning_rate': 4.2731991832596354e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22449.49, 'epoch': 2.84}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▌     | 2714/2865 [2:53:57<08:03,  3.20s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▌     | 2715/2865 [2:54:00<07:49,  3.13s/it]                                                                                                                                                  {'loss': 11.0192, 'grad_norm': 1.03125, 'learning_rate': 4.217315933613214e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21782.46, 'epoch': 2.84}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▌     | 2715/2865 [2:54:00<07:49,  3.13s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▋     | 2716/2865 [2:54:03<07:38,  3.08s/it]                                                                                                                                                  {'loss': 11.0138, 'grad_norm': 1.1953125, 'learning_rate': 4.1617973944863277e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21551.25, 'epoch': 2.84}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▋     | 2716/2865 [2:54:03<07:38,  3.08s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▋     | 2717/2865 [2:54:06<07:30,  3.04s/it]                                                                                                                                                  {'loss': 11.0214, 'grad_norm': 1.03125, 'learning_rate': 4.10664364826141e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21401.6, 'epoch': 2.85}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▋     | 2717/2865 [2:54:06<07:30,  3.04s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▋     | 2718/2865 [2:54:08<07:23,  3.02s/it]                                                                                                                                                  {'loss': 11.0267, 'grad_norm': 1.03125, 'learning_rate': 4.051854776779718e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22306.87, 'epoch': 2.85}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▋     | 2718/2865 [2:54:08<07:23,  3.02s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▊     | 2719/2865 [2:54:11<07:17,  3.00s/it]                                                                                                                                                  {'loss': 11.0348, 'grad_norm': 1.0546875, 'learning_rate': 3.9974308613410504e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21185.39, 'epoch': 2.85}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▊     | 2719/2865 [2:54:11<07:17,  3.00s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▊     | 2720/2865 [2:54:14<07:12,  2.98s/it]                                                                                                                                                  {'loss': 11.006, 'grad_norm': 1.046875, 'learning_rate': 3.9433719827035865e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21210.17, 'epoch': 2.85}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▊     | 2720/2865 [2:54:14<07:12,  2.98s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▊     | 2721/2865 [2:54:17<07:08,  2.97s/it]                                                                                                                                                  {'loss': 10.994, 'grad_norm': 1.0859375, 'learning_rate': 3.889678221083909e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21906.63, 'epoch': 2.85}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▊     | 2721/2865 [2:54:17<07:08,  2.97s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▊     | 2722/2865 [2:54:20<07:04,  2.97s/it]                                                                                                                                                  {'loss': 11.025, 'grad_norm': 1.03125, 'learning_rate': 3.8363496561567846e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22047.8, 'epoch': 2.85}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▊     | 2722/2865 [2:54:20<07:04,  2.97s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▉     | 2723/2865 [2:54:23<07:00,  2.96s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.1640625, 'learning_rate': 3.7833863670551085e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20695.56, 'epoch': 2.85}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▉     | 2723/2865 [2:54:23<07:00,  2.96s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▉     | 2724/2865 [2:54:26<06:57,  2.96s/it]                                                                                                                                                  {'loss': 11.0095, 'grad_norm': 1.0234375, 'learning_rate': 3.7307884323696804e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21849.69, 'epoch': 2.85}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▉     | 2724/2865 [2:54:26<06:57,  2.96s/it] 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▉     | 2725/2865 [2:54:29<06:53,  2.95s/it]                                                                                                                                                  {'loss': 10.9857, 'grad_norm': 1.15625, 'learning_rate': 3.678555930149263e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19972.87, 'epoch': 2.85}
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████▉     | 2725/2865 [2:54:29<06:53,  2.95s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████     | 2726/2865 [2:54:32<06:51,  2.96s/it]                                                                                                                                                  {'loss': 11.0346, 'grad_norm': 1.09375, 'learning_rate': 3.626688937900247e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21397.97, 'epoch': 2.85}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████     | 2726/2865 [2:54:32<06:51,  2.96s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████     | 2727/2865 [2:54:35<06:48,  2.96s/it]                                                                                                                                                  {'loss': 11.0252, 'grad_norm': 1.1796875, 'learning_rate': 3.5751875325867324e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21408.67, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████     | 2727/2865 [2:54:35<06:48,  2.96s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████     | 2728/2865 [2:54:38<06:45,  2.96s/it]                                                                                                                                                  {'loss': 11.0168, 'grad_norm': 1.0234375, 'learning_rate': 3.5240517906303397e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20455.59, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████     | 2728/2865 [2:54:38<06:45,  2.96s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████     | 2729/2865 [2:54:41<06:41,  2.95s/it]                                                                                                                                                  {'loss': 11.0035, 'grad_norm': 1.09375, 'learning_rate': 3.47328178791001e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21535.15, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████     | 2729/2865 [2:54:41<06:41,  2.95s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▏    | 2730/2865 [2:54:44<06:38,  2.95s/it]                                                                                                                                                  {'loss': 11.0351, 'grad_norm': 1.03125, 'learning_rate': 3.422877599762064e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22814.03, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▏    | 2730/2865 [2:54:44<06:38,  2.95s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▏    | 2731/2865 [2:54:47<06:36,  2.96s/it]                                                                                                                                                  {'loss': 11.0128, 'grad_norm': 1.15625, 'learning_rate': 3.372839300979952e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21900.84, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▏    | 2731/2865 [2:54:47<06:36,  2.96s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▏    | 2732/2865 [2:54:50<06:33,  2.96s/it]                                                                                                                                                  {'loss': 11.0209, 'grad_norm': 1.1015625, 'learning_rate': 3.323166965814223e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21363.4, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▏    | 2732/2865 [2:54:50<06:33,  2.96s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎    | 2733/2865 [2:54:53<06:29,  2.95s/it]                                                                                                                                                  {'loss': 11.0077, 'grad_norm': 1.15625, 'learning_rate': 3.2738606679723063e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19971.71, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎    | 2733/2865 [2:54:53<06:29,  2.95s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎    | 2734/2865 [2:54:56<06:26,  2.95s/it]                                                                                                                                                  {'loss': 11.0203, 'grad_norm': 1.0390625, 'learning_rate': 3.224920480618621e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20466.88, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎    | 2734/2865 [2:54:56<06:26,  2.95s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎    | 2735/2865 [2:54:59<06:23,  2.95s/it]                                                                                                                                                  {'loss': 11.0122, 'grad_norm': 1.03125, 'learning_rate': 3.1763464763741314e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20806.45, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎    | 2735/2865 [2:54:59<06:23,  2.95s/it] 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎    | 2736/2865 [2:55:02<06:20,  2.95s/it]                                                                                                                                                  {'loss': 11.0314, 'grad_norm': 1.03125, 'learning_rate': 3.1281387273165983e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21356.01, 'epoch': 2.86}
 95%|██████████████████████████████████████████████████████████████████████████████████████████████████▎    | 2736/2865 [2:55:02<06:20,  2.95s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▍    | 2737/2865 [2:55:05<06:17,  2.95s/it]                                                                                                                                                  {'loss': 11.013, 'grad_norm': 1.0546875, 'learning_rate': 3.080297304980245e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20983.28, 'epoch': 2.87}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▍    | 2737/2865 [2:55:05<06:17,  2.95s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▍    | 2738/2865 [2:55:08<06:15,  2.96s/it]                                                                                                                                                  {'loss': 11.0355, 'grad_norm': 1.1640625, 'learning_rate': 3.032822280355702e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22558.16, 'epoch': 2.87}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▍    | 2738/2865 [2:55:08<06:15,  2.96s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▍    | 2739/2865 [2:55:10<06:12,  2.96s/it]                                                                                                                                                  {'loss': 10.985, 'grad_norm': 1.125, 'learning_rate': 2.9857137238899216e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22057.46, 'epoch': 2.87}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▍    | 2739/2865 [2:55:11<06:12,  2.96s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2740/2865 [2:55:13<06:09,  2.96s/it]                                                                                                                                                  {'loss': 11.0098, 'grad_norm': 1.03125, 'learning_rate': 2.9389717054860435e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20725.38, 'epoch': 2.87}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2740/2865 [2:55:13<06:09,  2.96s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2741/2865 [2:55:16<06:06,  2.96s/it]                                                                                                                                                  {'loss': 11.0195, 'grad_norm': 1.03125, 'learning_rate': 2.8925962945033636e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22021.08, 'epoch': 2.87}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2741/2865 [2:55:16<06:06,  2.96s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2742/2865 [2:55:19<06:03,  2.96s/it]                                                                                                                                                  {'loss': 11.0119, 'grad_norm': 1.03125, 'learning_rate': 2.8465875597571133e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21677.1, 'epoch': 2.87}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2742/2865 [2:55:19<06:03,  2.96s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2743/2865 [2:55:22<06:00,  2.95s/it]                                                                                                                                                  {'loss': 10.9956, 'grad_norm': 1.0390625, 'learning_rate': 2.800945569518487e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20020.87, 'epoch': 2.87}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▌    | 2743/2865 [2:55:22<06:00,  2.95s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2744/2865 [2:55:25<05:57,  2.96s/it]                                                                                                                                                  {'loss': 11.024, 'grad_norm': 1.0546875, 'learning_rate': 2.75567039151442e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22070.13, 'epoch': 2.87}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2744/2865 [2:55:25<05:57,  2.96s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2745/2865 [2:55:28<05:54,  2.95s/it]                                                                                                                                                  {'loss': 11.0061, 'grad_norm': 1.0234375, 'learning_rate': 2.71076209292756e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21096.16, 'epoch': 2.87}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2745/2865 [2:55:28<05:54,  2.95s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2746/2865 [2:55:31<05:51,  2.95s/it]                                                                                                                                                  {'loss': 11.0103, 'grad_norm': 1.03125, 'learning_rate': 2.6662207403962134e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21511.79, 'epoch': 2.88}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▋    | 2746/2865 [2:55:31<05:51,  2.95s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2747/2865 [2:55:34<05:48,  2.95s/it]                                                                                                                                                  {'loss': 11.0291, 'grad_norm': 1.046875, 'learning_rate': 2.622046400014094e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21767.0, 'epoch': 2.88}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2747/2865 [2:55:34<05:48,  2.95s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2748/2865 [2:55:37<05:45,  2.95s/it]                                                                                                                                                  {'loss': 11.0416, 'grad_norm': 1.078125, 'learning_rate': 2.5782391373303515e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21386.2, 'epoch': 2.88}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2748/2865 [2:55:37<05:45,  2.95s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2749/2865 [2:55:40<05:42,  2.95s/it]                                                                                                                                                  {'loss': 11.0124, 'grad_norm': 1.0234375, 'learning_rate': 2.534799017349432e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21004.88, 'epoch': 2.88}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2749/2865 [2:55:40<05:42,  2.95s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2750/2865 [2:55:43<05:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0339, 'grad_norm': 1.125, 'learning_rate': 2.4917261045310227e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21184.24, 'epoch': 2.88}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▊    | 2750/2865 [2:55:43<05:40,  2.96s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2751/2865 [2:55:46<05:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0205, 'grad_norm': 1.109375, 'learning_rate': 2.4490204627899136e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20404.49, 'epoch': 2.88}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2751/2865 [2:55:46<05:37,  2.96s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2752/2865 [2:55:49<05:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0086, 'grad_norm': 1.0234375, 'learning_rate': 2.406682155495832e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21886.87, 'epoch': 2.88}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2752/2865 [2:55:49<05:34,  2.96s/it] 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2753/2865 [2:55:52<05:30,  2.95s/it]                                                                                                                                                  {'loss': 10.9986, 'grad_norm': 1.1875, 'learning_rate': 2.3647112454735221e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20316.63, 'epoch': 2.88}
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████▉    | 2753/2865 [2:55:52<05:30,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████    | 2754/2865 [2:55:55<05:27,  2.95s/it]                                                                                                                                                  {'loss': 11.0237, 'grad_norm': 1.0234375, 'learning_rate': 2.323107795002527e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20616.2, 'epoch': 2.88}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████    | 2754/2865 [2:55:55<05:27,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████    | 2755/2865 [2:55:58<05:24,  2.95s/it]                                                                                                                                                  {'loss': 11.0088, 'grad_norm': 1.0234375, 'learning_rate': 2.281871865817159e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21299.81, 'epoch': 2.88}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████    | 2755/2865 [2:55:58<05:24,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████    | 2756/2865 [2:56:01<05:21,  2.95s/it]                                                                                                                                                  {'loss': 10.9968, 'grad_norm': 1.03125, 'learning_rate': 2.2410035191062496e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21049.24, 'epoch': 2.89}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████    | 2756/2865 [2:56:01<05:21,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████    | 2757/2865 [2:56:04<05:18,  2.95s/it]                                                                                                                                                  {'loss': 11.0129, 'grad_norm': 1.09375, 'learning_rate': 2.2005028155133721e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22055.57, 'epoch': 2.89}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████    | 2757/2865 [2:56:04<05:18,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2758/2865 [2:56:07<05:15,  2.95s/it]                                                                                                                                                  {'loss': 11.0325, 'grad_norm': 1.0234375, 'learning_rate': 2.1603698151363983e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22014.48, 'epoch': 2.89}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2758/2865 [2:56:07<05:15,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2759/2865 [2:56:10<05:13,  2.95s/it]                                                                                                                                                  {'loss': 11.0126, 'grad_norm': 1.0859375, 'learning_rate': 2.120604577527635e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21548.24, 'epoch': 2.89}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2759/2865 [2:56:10<05:13,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2760/2865 [2:56:13<05:09,  2.95s/it]                                                                                                                                                  {'loss': 11.0114, 'grad_norm': 1.234375, 'learning_rate': 2.0812071616937434e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20796.21, 'epoch': 2.89}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▏   | 2760/2865 [2:56:13<05:09,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2761/2865 [2:56:15<05:07,  2.95s/it]                                                                                                                                                  {'loss': 11.0191, 'grad_norm': 1.0546875, 'learning_rate': 2.0421776260954595e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20576.94, 'epoch': 2.89}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2761/2865 [2:56:15<05:07,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2762/2865 [2:56:18<05:04,  2.95s/it]                                                                                                                                                  {'loss': 11.0353, 'grad_norm': 1.0390625, 'learning_rate': 2.003516028647734e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22233.87, 'epoch': 2.89}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2762/2865 [2:56:18<05:04,  2.95s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2763/2865 [2:56:21<05:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0383, 'grad_norm': 1.2890625, 'learning_rate': 1.965222426719482e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21476.27, 'epoch': 2.89}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2763/2865 [2:56:21<05:01,  2.96s/it] 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2764/2865 [2:56:24<04:59,  2.96s/it]                                                                                                                                                  {'loss': 11.0274, 'grad_norm': 1.109375, 'learning_rate': 1.9272968771335832e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21115.46, 'epoch': 2.89}
 96%|███████████████████████████████████████████████████████████████████████████████████████████████████▎   | 2764/2865 [2:56:24<04:59,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2765/2865 [2:56:27<04:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0076, 'grad_norm': 1.0234375, 'learning_rate': 1.8897394361667986e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21900.39, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2765/2865 [2:56:27<04:55,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2766/2865 [2:56:30<04:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0125, 'grad_norm': 1.0234375, 'learning_rate': 1.8525501595496043e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21935.23, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2766/2865 [2:56:30<04:52,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2767/2865 [2:56:33<04:49,  2.95s/it]                                                                                                                                                  {'loss': 11.0156, 'grad_norm': 1.0703125, 'learning_rate': 1.8157291024662182e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20650.21, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▍   | 2767/2865 [2:56:33<04:49,  2.95s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2768/2865 [2:56:36<04:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0236, 'grad_norm': 1.046875, 'learning_rate': 1.779276319554435e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20153.5, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2768/2865 [2:56:36<04:46,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2769/2865 [2:56:39<04:43,  2.95s/it]                                                                                                                                                  {'loss': 11.019, 'grad_norm': 1.03125, 'learning_rate': 1.7431918649055966e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21717.14, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2769/2865 [2:56:39<04:43,  2.95s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2770/2865 [2:56:42<04:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0177, 'grad_norm': 1.0703125, 'learning_rate': 1.7074757920644834e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20472.4, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2770/2865 [2:56:42<04:40,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2771/2865 [2:56:45<04:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0147, 'grad_norm': 1.125, 'learning_rate': 1.6721281540292287e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20967.29, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▌   | 2771/2865 [2:56:45<04:37,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2772/2865 [2:56:48<04:34,  2.95s/it]                                                                                                                                                  {'loss': 11.0222, 'grad_norm': 1.0234375, 'learning_rate': 1.6371490032512927e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21576.09, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2772/2865 [2:56:48<04:34,  2.95s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2773/2865 [2:56:51<04:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0192, 'grad_norm': 1.0234375, 'learning_rate': 1.602538391635322e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21265.55, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2773/2865 [2:56:51<04:31,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2774/2865 [2:56:54<04:28,  2.96s/it]                                                                                                                                                  {'loss': 10.9972, 'grad_norm': 1.0234375, 'learning_rate': 1.568296370539124e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22617.24, 'epoch': 2.9}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▋   | 2774/2865 [2:56:54<04:28,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2775/2865 [2:56:57<04:25,  2.96s/it]                                                                                                                                                  {'loss': 11.0357, 'grad_norm': 1.0625, 'learning_rate': 1.5344229907734708e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20374.61, 'epoch': 2.91}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2775/2865 [2:56:57<04:25,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2776/2865 [2:57:00<04:23,  2.96s/it]                                                                                                                                                  {'loss': 11.0131, 'grad_norm': 1.1484375, 'learning_rate': 1.5009183026022666e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22195.71, 'epoch': 2.91}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2776/2865 [2:57:00<04:23,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2777/2865 [2:57:03<04:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0122, 'grad_norm': 1.03125, 'learning_rate': 1.4677823557422145e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20732.22, 'epoch': 2.91}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2777/2865 [2:57:03<04:20,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2778/2865 [2:57:06<04:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0208, 'grad_norm': 1.1484375, 'learning_rate': 1.4350151993628712e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21872.95, 'epoch': 2.91}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▊   | 2778/2865 [2:57:06<04:17,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2779/2865 [2:57:09<04:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0179, 'grad_norm': 1.0625, 'learning_rate': 1.4026168820865658e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21867.35, 'epoch': 2.91}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2779/2865 [2:57:09<04:14,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2780/2865 [2:57:12<04:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0244, 'grad_norm': 1.1328125, 'learning_rate': 1.3705874519883144e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22190.15, 'epoch': 2.91}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2780/2865 [2:57:12<04:11,  2.96s/it] 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2781/2865 [2:57:15<04:08,  2.96s/it]                                                                                                                                                  {'loss': 10.9887, 'grad_norm': 1.0859375, 'learning_rate': 1.338926956595793e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21022.7, 'epoch': 2.91}
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████▉   | 2781/2865 [2:57:15<04:08,  2.96s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████   | 2782/2865 [2:57:18<04:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0289, 'grad_norm': 1.03125, 'learning_rate': 1.3076354428891434e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20187.23, 'epoch': 2.91}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████   | 2782/2865 [2:57:18<04:05,  2.96s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████   | 2783/2865 [2:57:21<04:02,  2.96s/it]                                                                                                                                                  {'loss': 11.0141, 'grad_norm': 1.078125, 'learning_rate': 1.2767129573010573e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21788.21, 'epoch': 2.91}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████   | 2783/2865 [2:57:21<04:02,  2.96s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████   | 2784/2865 [2:57:23<03:59,  2.95s/it]                                                                                                                                                  {'loss': 11.0164, 'grad_norm': 1.140625, 'learning_rate': 1.246159545716552e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21398.34, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████   | 2784/2865 [2:57:23<03:59,  2.95s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████   | 2785/2865 [2:57:26<03:56,  2.95s/it]                                                                                                                                                  {'loss': 11.0233, 'grad_norm': 1.1484375, 'learning_rate': 1.2159752534731117e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21218.91, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████   | 2785/2865 [2:57:26<03:56,  2.95s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2786/2865 [2:57:29<03:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0036, 'grad_norm': 1.03125, 'learning_rate': 1.1861601253603805e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21555.18, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2786/2865 [2:57:29<03:53,  2.95s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2787/2865 [2:57:32<03:50,  2.96s/it]                                                                                                                                                  {'loss': 10.9997, 'grad_norm': 1.0390625, 'learning_rate': 1.1567142056202463e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22107.05, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2787/2865 [2:57:32<03:50,  2.96s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2788/2865 [2:57:35<03:47,  2.96s/it]                                                                                                                                                  {'loss': 11.0263, 'grad_norm': 1.0546875, 'learning_rate': 1.1276375379467574e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21235.63, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 2788/2865 [2:57:35<03:47,  2.96s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2789/2865 [2:57:38<03:44,  2.96s/it]                                                                                                                                                  {'loss': 11.03, 'grad_norm': 1.09375, 'learning_rate': 1.0989301654860119e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21557.49, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2789/2865 [2:57:38<03:44,  2.96s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2790/2865 [2:57:41<03:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0177, 'grad_norm': 1.1640625, 'learning_rate': 1.0705921308361288e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22519.82, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2790/2865 [2:57:41<03:41,  2.96s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2791/2865 [2:57:44<03:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0207, 'grad_norm': 1.015625, 'learning_rate': 1.0426234760471943e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20510.58, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▎  | 2791/2865 [2:57:44<03:38,  2.96s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2792/2865 [2:57:47<03:35,  2.96s/it]                                                                                                                                                  {'loss': 11.0118, 'grad_norm': 1.1328125, 'learning_rate': 1.0150242426211487e-07, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21038.68, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2792/2865 [2:57:47<03:35,  2.96s/it] 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2793/2865 [2:57:50<03:32,  2.95s/it]                                                                                                                                                  {'loss': 11.0159, 'grad_norm': 1.0234375, 'learning_rate': 9.877944715117882e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21444.54, 'epoch': 2.92}
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2793/2865 [2:57:50<03:32,  2.95s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2794/2865 [2:57:53<03:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0031, 'grad_norm': 1.046875, 'learning_rate': 9.609342031246805e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22944.89, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2794/2865 [2:57:53<03:29,  2.96s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2795/2865 [2:57:56<03:27,  2.96s/it]                                                                                                                                                  {'loss': 11.0317, 'grad_norm': 1.0390625, 'learning_rate': 9.344434773170264e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20659.61, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 2795/2865 [2:57:56<03:27,  2.96s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2796/2865 [2:57:59<03:24,  2.96s/it]                                                                                                                                                  {'loss': 11.0184, 'grad_norm': 1.046875, 'learning_rate': 9.083223333977709e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22444.5, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2796/2865 [2:57:59<03:24,  2.96s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2797/2865 [2:58:02<03:20,  2.95s/it]                                                                                                                                                  {'loss': 11.0061, 'grad_norm': 1.15625, 'learning_rate': 8.825708101273534e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20688.52, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2797/2865 [2:58:02<03:20,  2.95s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2798/2865 [2:58:05<03:17,  2.95s/it]                                                                                                                                                  {'loss': 11.0257, 'grad_norm': 1.1328125, 'learning_rate': 8.571889457178462e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21842.56, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 2798/2865 [2:58:05<03:17,  2.95s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2799/2865 [2:58:08<03:14,  2.95s/it]                                                                                                                                                  {'loss': 11.0078, 'grad_norm': 1.0546875, 'learning_rate': 8.321767778326773e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20867.48, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2799/2865 [2:58:08<03:14,  2.95s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2800/2865 [2:58:11<03:11,  2.95s/it]                                                                                                                                                  {'loss': 11.0168, 'grad_norm': 1.0703125, 'learning_rate': 8.075343435867966e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21963.31, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2800/2865 [2:58:11<03:11,  2.95s/it][2025-10-12 06:07:03,598] [INFO] [axolotl.core.trainers.base.evaluate:376] [PID:1386789] Running evaluation step...

  0%|                                                                                                                     | 0/185 [00:00<?, ?it/s][A
  1%|█▏                                                                                                           | 2/185 [00:03<04:46,  1.57s/it][A
  2%|█▊                                                                                                           | 3/185 [00:03<03:15,  1.07s/it][A
  2%|██▎                                                                                                          | 4/185 [00:03<02:28,  1.22it/s][A
  3%|██▉                                                                                                          | 5/185 [00:04<02:00,  1.49it/s][A
  3%|███▌                                                                                                         | 6/185 [00:04<01:43,  1.73it/s][A
  4%|████                                                                                                         | 7/185 [00:05<01:31,  1.95it/s][A
  4%|████▋                                                                                                        | 8/185 [00:05<01:25,  2.08it/s][A
  5%|█████▎                                                                                                       | 9/185 [00:05<01:19,  2.22it/s][A
  5%|█████▊                                                                                                      | 10/185 [00:06<01:15,  2.32it/s][A
  6%|██████▍                                                                                                     | 11/185 [00:06<01:13,  2.35it/s][A
  6%|███████                                                                                                     | 12/185 [00:07<01:11,  2.42it/s][A
  7%|███████▌                                                                                                    | 13/185 [00:07<01:09,  2.48it/s][A
  8%|████████▏                                                                                                   | 14/185 [00:07<01:09,  2.47it/s][A
  8%|████████▊                                                                                                   | 15/185 [00:08<01:06,  2.55it/s][A
  9%|█████████▎                                                                                                  | 16/185 [00:08<01:07,  2.51it/s][A
  9%|█████████▉                                                                                                  | 17/185 [00:08<01:05,  2.56it/s][A
 10%|██████████▌                                                                                                 | 18/185 [00:09<01:05,  2.53it/s][A
 10%|███████████                                                                                                 | 19/185 [00:09<01:06,  2.51it/s][A
 11%|███████████▋                                                                                                | 20/185 [00:10<01:05,  2.53it/s][A
 11%|████████████▎                                                                                               | 21/185 [00:10<01:05,  2.49it/s][A
 12%|████████████▊                                                                                               | 22/185 [00:10<01:04,  2.52it/s][A
 12%|█████████████▍                                                                                              | 23/185 [00:11<01:02,  2.60it/s][A
 13%|██████████████                                                                                              | 24/185 [00:11<01:03,  2.54it/s][A
 14%|██████████████▌                                                                                             | 25/185 [00:12<01:02,  2.56it/s][A
 14%|███████████████▏                                                                                            | 26/185 [00:12<01:02,  2.53it/s][A
 15%|███████████████▊                                                                                            | 27/185 [00:12<01:02,  2.54it/s][A
 15%|████████████████▎                                                                                           | 28/185 [00:13<01:02,  2.53it/s][A
 16%|████████████████▉                                                                                           | 29/185 [00:13<01:01,  2.53it/s][A
 16%|█████████████████▌                                                                                          | 30/185 [00:14<01:01,  2.54it/s][A
 17%|██████████████████                                                                                          | 31/185 [00:14<00:59,  2.59it/s][A
 17%|██████████████████▋                                                                                         | 32/185 [00:14<00:59,  2.56it/s][A
 18%|███████████████████▎                                                                                        | 33/185 [00:15<00:59,  2.53it/s][A
 18%|███████████████████▊                                                                                        | 34/185 [00:15<00:58,  2.57it/s][A
 19%|████████████████████▍                                                                                       | 35/185 [00:16<00:58,  2.58it/s][A
 19%|█████████████████████                                                                                       | 36/185 [00:16<00:58,  2.53it/s][A
 20%|█████████████████████▌                                                                                      | 37/185 [00:16<00:58,  2.55it/s][A
 21%|██████████████████████▏                                                                                     | 38/185 [00:17<00:57,  2.57it/s][A
 21%|██████████████████████▊                                                                                     | 39/185 [00:17<00:56,  2.57it/s][A
 22%|███████████████████████▎                                                                                    | 40/185 [00:17<00:55,  2.62it/s][A
 22%|███████████████████████▉                                                                                    | 41/185 [00:18<00:55,  2.60it/s][A
 23%|████████████████████████▌                                                                                   | 42/185 [00:18<00:57,  2.50it/s][A
 23%|█████████████████████████                                                                                   | 43/185 [00:19<00:55,  2.54it/s][A
 24%|█████████████████████████▋                                                                                  | 44/185 [00:19<00:54,  2.60it/s][A
 24%|██████████████████████████▎                                                                                 | 45/185 [00:19<00:55,  2.53it/s][A
 25%|██████████████████████████▊                                                                                 | 46/185 [00:20<00:54,  2.57it/s][A
 25%|███████████████████████████▍                                                                                | 47/185 [00:20<00:54,  2.55it/s][A
 26%|████████████████████████████                                                                                | 48/185 [00:21<00:53,  2.54it/s][A
 26%|████████████████████████████▌                                                                               | 49/185 [00:21<00:53,  2.52it/s][A
 27%|█████████████████████████████▏                                                                              | 50/185 [00:21<00:53,  2.53it/s][A
 28%|█████████████████████████████▊                                                                              | 51/185 [00:22<00:52,  2.54it/s][A
 28%|██████████████████████████████▎                                                                             | 52/185 [00:22<00:52,  2.54it/s][A
 29%|██████████████████████████████▉                                                                             | 53/185 [00:23<00:50,  2.59it/s][A
 29%|███████████████████████████████▌                                                                            | 54/185 [00:23<00:51,  2.56it/s][A
 30%|████████████████████████████████                                                                            | 55/185 [00:23<00:50,  2.56it/s][A
 30%|████████████████████████████████▋                                                                           | 56/185 [00:24<00:50,  2.54it/s][A
 31%|█████████████████████████████████▎                                                                          | 57/185 [00:24<00:50,  2.51it/s][A
 31%|█████████████████████████████████▊                                                                          | 58/185 [00:25<00:49,  2.54it/s][A
 32%|██████████████████████████████████▍                                                                         | 59/185 [00:25<00:49,  2.54it/s][A
 32%|███████████████████████████████████                                                                         | 60/185 [00:25<00:48,  2.55it/s][A
 33%|███████████████████████████████████▌                                                                        | 61/185 [00:26<00:48,  2.55it/s][A
 34%|████████████████████████████████████▏                                                                       | 62/185 [00:26<00:46,  2.63it/s][A
 34%|████████████████████████████████████▊                                                                       | 63/185 [00:27<00:49,  2.49it/s][A
 35%|█████████████████████████████████████▎                                                                      | 64/185 [00:27<00:47,  2.53it/s][A
 35%|█████████████████████████████████████▉                                                                      | 65/185 [00:27<00:47,  2.52it/s][A
 36%|██████████████████████████████████████▌                                                                     | 66/185 [00:28<00:46,  2.58it/s][A
 36%|███████████████████████████████████████                                                                     | 67/185 [00:28<00:46,  2.54it/s][A
 37%|███████████████████████████████████████▋                                                                    | 68/185 [00:28<00:45,  2.56it/s][A
 37%|████████████████████████████████████████▎                                                                   | 69/185 [00:29<00:45,  2.54it/s][A
 38%|████████████████████████████████████████▊                                                                   | 70/185 [00:29<00:45,  2.51it/s][A
 38%|█████████████████████████████████████████▍                                                                  | 71/185 [00:30<00:45,  2.53it/s][A
 39%|██████████████████████████████████████████                                                                  | 72/185 [00:30<00:44,  2.54it/s][A
 39%|██████████████████████████████████████████▌                                                                 | 73/185 [00:30<00:44,  2.54it/s][A
 40%|███████████████████████████████████████████▏                                                                | 74/185 [00:31<00:43,  2.53it/s][A
 41%|███████████████████████████████████████████▊                                                                | 75/185 [00:31<00:42,  2.57it/s][A
 41%|████████████████████████████████████████████▎                                                               | 76/185 [00:32<00:42,  2.59it/s][A
 42%|████████████████████████████████████████████▉                                                               | 77/185 [00:32<00:42,  2.56it/s][A
 42%|█████████████████████████████████████████████▌                                                              | 78/185 [00:32<00:42,  2.52it/s][A
 43%|██████████████████████████████████████████████                                                              | 79/185 [00:33<00:41,  2.54it/s][A
 43%|██████████████████████████████████████████████▋                                                             | 80/185 [00:33<00:41,  2.53it/s][A
 44%|███████████████████████████████████████████████▎                                                            | 81/185 [00:34<00:40,  2.55it/s][A
 44%|███████████████████████████████████████████████▊                                                            | 82/185 [00:34<00:40,  2.56it/s][A
 45%|████████████████████████████████████████████████▍                                                           | 83/185 [00:34<00:39,  2.56it/s][A
 45%|█████████████████████████████████████████████████                                                           | 84/185 [00:35<00:39,  2.53it/s][A
 46%|█████████████████████████████████████████████████▌                                                          | 85/185 [00:35<00:38,  2.58it/s][A
 46%|██████████████████████████████████████████████████▏                                                         | 86/185 [00:36<00:39,  2.53it/s][A
 47%|██████████████████████████████████████████████████▊                                                         | 87/185 [00:36<00:38,  2.56it/s][A
 48%|███████████████████████████████████████████████████▎                                                        | 88/185 [00:36<00:38,  2.55it/s][A
 48%|███████████████████████████████████████████████████▉                                                        | 89/185 [00:37<00:37,  2.58it/s][A
 49%|████████████████████████████████████████████████████▌                                                       | 90/185 [00:37<00:37,  2.52it/s][A
 49%|█████████████████████████████████████████████████████                                                       | 91/185 [00:38<00:37,  2.51it/s][A
 50%|█████████████████████████████████████████████████████▋                                                      | 92/185 [00:38<00:35,  2.64it/s][A
 50%|██████████████████████████████████████████████████████▎                                                     | 93/185 [00:38<00:35,  2.59it/s][A
 51%|██████████████████████████████████████████████████████▉                                                     | 94/185 [00:39<00:36,  2.51it/s][A
 51%|███████████████████████████████████████████████████████▍                                                    | 95/185 [00:39<00:35,  2.51it/s][A
 52%|████████████████████████████████████████████████████████                                                    | 96/185 [00:39<00:34,  2.56it/s][A
 52%|████████████████████████████████████████████████████████▋                                                   | 97/185 [00:40<00:34,  2.54it/s][A
 53%|█████████████████████████████████████████████████████████▏                                                  | 98/185 [00:40<00:34,  2.55it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                  | 99/185 [00:41<00:33,  2.56it/s][A
 54%|█████████████████████████████████████████████████████████▊                                                 | 100/185 [00:41<00:33,  2.57it/s][A
 55%|██████████████████████████████████████████████████████████▍                                                | 101/185 [00:41<00:32,  2.55it/s][A
 55%|██████████████████████████████████████████████████████████▉                                                | 102/185 [00:42<00:32,  2.55it/s][A
 56%|███████████████████████████████████████████████████████████▌                                               | 103/185 [00:42<00:32,  2.54it/s][A
 56%|████████████████████████████████████████████████████████████▏                                              | 104/185 [00:43<00:32,  2.53it/s][A
 57%|████████████████████████████████████████████████████████████▋                                              | 105/185 [00:43<00:31,  2.52it/s][A
 57%|█████████████████████████████████████████████████████████████▎                                             | 106/185 [00:43<00:31,  2.52it/s][A
 58%|█████████████████████████████████████████████████████████████▉                                             | 107/185 [00:44<00:30,  2.52it/s][A
 58%|██████████████████████████████████████████████████████████████▍                                            | 108/185 [00:44<00:29,  2.59it/s][A
 59%|███████████████████████████████████████████████████████████████                                            | 109/185 [00:45<00:30,  2.53it/s][A
 59%|███████████████████████████████████████████████████████████████▌                                           | 110/185 [00:45<00:29,  2.54it/s][A
 60%|████████████████████████████████████████████████████████████████▏                                          | 111/185 [00:45<00:29,  2.53it/s][A
 61%|████████████████████████████████████████████████████████████████▊                                          | 112/185 [00:46<00:28,  2.53it/s][A
 61%|█████████████████████████████████████████████████████████████████▎                                         | 113/185 [00:46<00:28,  2.53it/s][A
 62%|█████████████████████████████████████████████████████████████████▉                                         | 114/185 [00:47<00:27,  2.57it/s][A
 62%|██████████████████████████████████████████████████████████████████▌                                        | 115/185 [00:47<00:26,  2.67it/s][A
 63%|███████████████████████████████████████████████████████████████████                                        | 116/185 [00:47<00:27,  2.54it/s][A
 63%|███████████████████████████████████████████████████████████████████▋                                       | 117/185 [00:48<00:26,  2.55it/s][A
 64%|████████████████████████████████████████████████████████████████████▏                                      | 118/185 [00:48<00:26,  2.52it/s][A
 64%|████████████████████████████████████████████████████████████████████▊                                      | 119/185 [00:48<00:25,  2.60it/s][A
 65%|█████████████████████████████████████████████████████████████████████▍                                     | 120/185 [00:49<00:24,  2.66it/s][A
 65%|█████████████████████████████████████████████████████████████████████▉                                     | 121/185 [00:49<00:25,  2.48it/s][A
 66%|██████████████████████████████████████████████████████████████████████▌                                    | 122/185 [00:50<00:24,  2.60it/s][A
 66%|███████████████████████████████████████████████████████████████████████▏                                   | 123/185 [00:50<00:24,  2.50it/s][A
 67%|███████████████████████████████████████████████████████████████████████▋                                   | 124/185 [00:51<00:24,  2.47it/s][A
 68%|████████████████████████████████████████████████████████████████████████▎                                  | 125/185 [00:51<00:23,  2.58it/s][A
 68%|████████████████████████████████████████████████████████████████████████▉                                  | 126/185 [00:51<00:23,  2.52it/s][A
 69%|█████████████████████████████████████████████████████████████████████████▍                                 | 127/185 [00:52<00:22,  2.55it/s][A
 69%|██████████████████████████████████████████████████████████████████████████                                 | 128/185 [00:52<00:22,  2.55it/s][A
 70%|██████████████████████████████████████████████████████████████████████████▌                                | 129/185 [00:52<00:21,  2.57it/s][A
 70%|███████████████████████████████████████████████████████████████████████████▏                               | 130/185 [00:53<00:21,  2.51it/s][A
 71%|███████████████████████████████████████████████████████████████████████████▊                               | 131/185 [00:53<00:21,  2.54it/s][A
 71%|████████████████████████████████████████████████████████████████████████████▎                              | 132/185 [00:54<00:21,  2.52it/s][A
 72%|████████████████████████████████████████████████████████████████████████████▉                              | 133/185 [00:54<00:20,  2.53it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████▌                             | 134/185 [00:54<00:19,  2.55it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████                             | 135/185 [00:55<00:19,  2.63it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████▋                            | 136/185 [00:55<00:19,  2.54it/s][A
 74%|███████████████████████████████████████████████████████████████████████████████▏                           | 137/185 [00:56<00:18,  2.57it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████▊                           | 138/185 [00:56<00:18,  2.59it/s][A
 75%|████████████████████████████████████████████████████████████████████████████████▍                          | 139/185 [00:56<00:18,  2.50it/s][A
 76%|████████████████████████████████████████████████████████████████████████████████▉                          | 140/185 [00:57<00:18,  2.49it/s][A
 76%|█████████████████████████████████████████████████████████████████████████████████▌                         | 141/185 [00:57<00:17,  2.54it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▏                        | 142/185 [00:58<00:16,  2.53it/s][A
 77%|██████████████████████████████████████████████████████████████████████████████████▋                        | 143/185 [00:58<00:16,  2.55it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▎                       | 144/185 [00:58<00:16,  2.51it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████▊                       | 145/185 [00:59<00:15,  2.53it/s][A
 79%|████████████████████████████████████████████████████████████████████████████████████▍                      | 146/185 [00:59<00:15,  2.53it/s][A
 79%|█████████████████████████████████████████████████████████████████████████████████████                      | 147/185 [01:00<00:15,  2.52it/s][A
 80%|█████████████████████████████████████████████████████████████████████████████████████▌                     | 148/185 [01:00<00:14,  2.53it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▏                    | 149/185 [01:00<00:14,  2.52it/s][A
 81%|██████████████████████████████████████████████████████████████████████████████████████▊                    | 150/185 [01:01<00:13,  2.55it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▎                   | 151/185 [01:01<00:13,  2.53it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████▉                   | 152/185 [01:02<00:13,  2.50it/s][A
 83%|████████████████████████████████████████████████████████████████████████████████████████▍                  | 153/185 [01:02<00:12,  2.51it/s][A
 83%|█████████████████████████████████████████████████████████████████████████████████████████                  | 154/185 [01:02<00:11,  2.61it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████▋                 | 155/185 [01:03<00:11,  2.51it/s][A
 84%|██████████████████████████████████████████████████████████████████████████████████████████▏                | 156/185 [01:03<00:11,  2.53it/s][A
 85%|██████████████████████████████████████████████████████████████████████████████████████████▊                | 157/185 [01:03<00:11,  2.53it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████▍               | 158/185 [01:04<00:10,  2.57it/s][A
 86%|███████████████████████████████████████████████████████████████████████████████████████████▉               | 159/185 [01:04<00:10,  2.54it/s][A
 86%|████████████████████████████████████████████████████████████████████████████████████████████▌              | 160/185 [01:05<00:09,  2.57it/s][A
 87%|█████████████████████████████████████████████████████████████████████████████████████████████              | 161/185 [01:05<00:09,  2.58it/s][A
 88%|█████████████████████████████████████████████████████████████████████████████████████████████▋             | 162/185 [01:05<00:08,  2.59it/s][A
 88%|██████████████████████████████████████████████████████████████████████████████████████████████▎            | 163/185 [01:06<00:08,  2.58it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████▊            | 164/185 [01:06<00:08,  2.51it/s][A
 89%|███████████████████████████████████████████████████████████████████████████████████████████████▍           | 165/185 [01:07<00:07,  2.52it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████           | 166/185 [01:07<00:07,  2.52it/s][A
 90%|████████████████████████████████████████████████████████████████████████████████████████████████▌          | 167/185 [01:07<00:07,  2.57it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▏         | 168/185 [01:08<00:06,  2.52it/s][A
 91%|█████████████████████████████████████████████████████████████████████████████████████████████████▋         | 169/185 [01:08<00:06,  2.59it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▎        | 170/185 [01:09<00:06,  2.50it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████▉        | 171/185 [01:09<00:05,  2.54it/s][A
 93%|███████████████████████████████████████████████████████████████████████████████████████████████████▍       | 172/185 [01:09<00:05,  2.53it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████       | 173/185 [01:10<00:04,  2.53it/s][A
 94%|████████████████████████████████████████████████████████████████████████████████████████████████████▋      | 174/185 [01:10<00:04,  2.54it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏     | 175/185 [01:11<00:03,  2.53it/s][A
 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊     | 176/185 [01:11<00:03,  2.56it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎    | 177/185 [01:11<00:03,  2.53it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉    | 178/185 [01:12<00:02,  2.53it/s][A
 97%|███████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 179/185 [01:12<00:02,  2.53it/s][A
 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████   | 180/185 [01:13<00:01,  2.55it/s][A
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 181/185 [01:13<00:01,  2.57it/s][A
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 182/185 [01:13<00:01,  2.53it/s][A
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 183/185 [01:14<00:00,  2.56it/s][A
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▍| 184/185 [01:14<00:00,  2.53it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.06it/s][A                                                                                                                                                  
                                                                                                                                                  [A{'eval_loss': 10.99503231048584, 'eval_runtime': 78.5503, 'eval_samples_per_second': 150.948, 'eval_steps_per_second': 2.368, 'memory/max_active (GiB)': 4.3, 'memory/max_allocated (GiB)': 4.3, 'memory/device_reserved (GiB)': 19.16, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2800/2865 [2:59:29<03:11,  2.95s/it]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████| 185/185 [01:15<00:00,  2.06it/s][A
                                                                                                                                                  [A[2025-10-12 06:08:22,174] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2800
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2801/2865 [2:59:38<30:12, 28.33s/it]                                                                                                                                                  {'loss': 11.0369, 'grad_norm': 1.0234375, 'learning_rate': 7.832616795464542e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.14, 'tokens_per_second_per_gpu': 18586.26, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2801/2865 [2:59:38<30:12, 28.33s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2802/2865 [2:59:41<21:44, 20.71s/it]                                                                                                                                                  {'loss': 11.0109, 'grad_norm': 1.15625, 'learning_rate': 7.593588217292002e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20385.12, 'epoch': 2.93}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▋  | 2802/2865 [2:59:41<21:44, 20.71s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2803/2865 [2:59:44<15:53, 15.38s/it]                                                                                                                                                  {'loss': 11.0209, 'grad_norm': 1.03125, 'learning_rate': 7.358258056039124e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20272.04, 'epoch': 2.94}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2803/2865 [2:59:44<15:53, 15.38s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2804/2865 [2:59:47<11:50, 11.65s/it]                                                                                                                                                  {'loss': 11.0428, 'grad_norm': 1.046875, 'learning_rate': 7.126626660905467e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21862.6, 'epoch': 2.94}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2804/2865 [2:59:47<11:50, 11.65s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2805/2865 [2:59:50<09:02,  9.05s/it]                                                                                                                                                  {'loss': 11.0103, 'grad_norm': 1.1171875, 'learning_rate': 6.898694375603587e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 23256.66, 'epoch': 2.94}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 2805/2865 [2:59:50<09:02,  9.05s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2806/2865 [2:59:53<07:05,  7.22s/it]                                                                                                                                                  {'loss': 11.0257, 'grad_norm': 1.0703125, 'learning_rate': 6.674461538355992e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21697.27, 'epoch': 2.94}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2806/2865 [2:59:53<07:05,  7.22s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2807/2865 [2:59:56<05:44,  5.94s/it]                                                                                                                                                  {'loss': 11.005, 'grad_norm': 1.0390625, 'learning_rate': 6.453928481895688e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21785.0, 'epoch': 2.94}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2807/2865 [2:59:56<05:44,  5.94s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2808/2865 [2:59:59<04:47,  5.05s/it]                                                                                                                                                  {'loss': 11.0077, 'grad_norm': 1.046875, 'learning_rate': 6.237095533466186e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20229.62, 'epoch': 2.94}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2808/2865 [2:59:59<04:47,  5.05s/it] 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2809/2865 [3:00:02<04:07,  4.42s/it]                                                                                                                                                  {'loss': 11.0094, 'grad_norm': 1.1484375, 'learning_rate': 6.023963014820388e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21006.14, 'epoch': 2.94}
 98%|████████████████████████████████████████████████████████████████████████████████████████████████████▉  | 2809/2865 [3:00:02<04:07,  4.42s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████  | 2810/2865 [3:00:05<03:38,  3.98s/it]                                                                                                                                                  {'loss': 11.0381, 'grad_norm': 1.0625, 'learning_rate': 5.814531242219756e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21296.61, 'epoch': 2.94}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████  | 2810/2865 [3:00:05<03:38,  3.98s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████  | 2811/2865 [3:00:08<03:18,  3.67s/it]                                                                                                                                                  {'loss': 11.0227, 'grad_norm': 1.0625, 'learning_rate': 5.608800526434865e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20882.5, 'epoch': 2.94}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████  | 2811/2865 [3:00:08<03:18,  3.67s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████  | 2812/2865 [3:00:11<03:03,  3.46s/it]                                                                                                                                                  {'loss': 11.0139, 'grad_norm': 1.0234375, 'learning_rate': 5.406771172743741e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22921.29, 'epoch': 2.94}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████  | 2812/2865 [3:00:11<03:03,  3.46s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2813/2865 [3:00:14<02:52,  3.31s/it]                                                                                                                                                  {'loss': 11.0285, 'grad_norm': 1.0390625, 'learning_rate': 5.2084434809329676e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20181.62, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2813/2865 [3:00:14<02:52,  3.31s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2814/2865 [3:00:17<02:43,  3.21s/it]                                                                                                                                                  {'loss': 10.9999, 'grad_norm': 1.0703125, 'learning_rate': 5.0138177452960234e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21093.14, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2814/2865 [3:00:17<02:43,  3.21s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2815/2865 [3:00:20<02:36,  3.13s/it]                                                                                                                                                  {'loss': 11.0212, 'grad_norm': 1.0546875, 'learning_rate': 4.822894254632171e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21611.89, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2815/2865 [3:00:20<02:36,  3.13s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2816/2865 [3:00:23<02:30,  3.08s/it]                                                                                                                                                  {'loss': 11.0203, 'grad_norm': 1.078125, 'learning_rate': 4.635673292248399e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21099.41, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 2816/2865 [3:00:23<02:30,  3.08s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2817/2865 [3:00:26<02:25,  3.04s/it]                                                                                                                                                  {'loss': 11.0128, 'grad_norm': 1.0625, 'learning_rate': 4.452155135956926e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21513.27, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2817/2865 [3:00:26<02:25,  3.04s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2818/2865 [3:00:29<02:21,  3.01s/it]                                                                                                                                                  {'loss': 11.0343, 'grad_norm': 1.28125, 'learning_rate': 4.2723400580754747e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21516.8, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2818/2865 [3:00:29<02:21,  3.01s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2819/2865 [3:00:31<02:17,  3.00s/it]                                                                                                                                                  {'loss': 11.0351, 'grad_norm': 1.09375, 'learning_rate': 4.096228325426999e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22654.31, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 2819/2865 [3:00:32<02:17,  3.00s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2820/2865 [3:00:34<02:14,  2.99s/it]                                                                                                                                                  {'loss': 10.9936, 'grad_norm': 1.0546875, 'learning_rate': 3.923820199339123e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20936.49, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2820/2865 [3:00:34<02:14,  2.99s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2821/2865 [3:00:37<02:10,  2.98s/it]                                                                                                                                                  {'loss': 11.0009, 'grad_norm': 1.0390625, 'learning_rate': 3.755115935643594e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20669.2, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2821/2865 [3:00:37<02:10,  2.98s/it] 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2822/2865 [3:00:40<02:07,  2.97s/it]                                                                                                                                                  {'loss': 11.0155, 'grad_norm': 1.0546875, 'learning_rate': 3.590115784676551e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21161.2, 'epoch': 2.95}
 98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2822/2865 [3:00:40<02:07,  2.97s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2823/2865 [3:00:43<02:04,  2.96s/it]                                                                                                                                                  {'loss': 10.9977, 'grad_norm': 1.03125, 'learning_rate': 3.428819991277421e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21578.7, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍ | 2823/2865 [3:00:43<02:04,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2824/2865 [3:00:46<02:01,  2.96s/it]                                                                                                                                                  {'loss': 11.0087, 'grad_norm': 1.03125, 'learning_rate': 3.271228794788361e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22120.1, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2824/2865 [3:00:46<02:01,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2825/2865 [3:00:49<01:58,  2.97s/it]                                                                                                                                                  {'loss': 11.0106, 'grad_norm': 1.078125, 'learning_rate': 3.11734242905537e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20817.46, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2825/2865 [3:00:49<01:58,  2.97s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2826/2865 [3:00:52<01:55,  2.96s/it]                                                                                                                                                  {'loss': 11.0157, 'grad_norm': 1.2265625, 'learning_rate': 2.967161122426343e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21436.96, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 2826/2865 [3:00:52<01:55,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2827/2865 [3:00:55<01:52,  2.96s/it]                                                                                                                                                  {'loss': 11.0258, 'grad_norm': 1.0234375, 'learning_rate': 2.8206850977510747e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22188.58, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2827/2865 [3:00:55<01:52,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2828/2865 [3:00:58<01:49,  2.96s/it]                                                                                                                                                  {'loss': 11.0091, 'grad_norm': 1.03125, 'learning_rate': 2.6779145723818123e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20875.48, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2828/2865 [3:00:58<01:49,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2829/2865 [3:01:01<01:46,  2.96s/it]                                                                                                                                                  {'loss': 11.0126, 'grad_norm': 1.0234375, 'learning_rate': 2.5388497581718685e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21447.3, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2829/2865 [3:01:01<01:46,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2830/2865 [3:01:04<01:43,  2.96s/it]                                                                                                                                                  {'loss': 11.0117, 'grad_norm': 1.03125, 'learning_rate': 2.4034908614758987e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21681.9, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 2830/2865 [3:01:04<01:43,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2831/2865 [3:01:07<01:40,  2.96s/it]                                                                                                                                                  {'loss': 11.0359, 'grad_norm': 1.0859375, 'learning_rate': 2.2718380831496243e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21776.72, 'epoch': 2.96}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2831/2865 [3:01:07<01:40,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2832/2865 [3:01:10<01:37,  2.96s/it]                                                                                                                                                  {'loss': 11.0139, 'grad_norm': 1.0234375, 'learning_rate': 2.143891618548999e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21812.9, 'epoch': 2.97}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2832/2865 [3:01:10<01:37,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2833/2865 [3:01:13<01:34,  2.96s/it]                                                                                                                                                  {'loss': 11.0101, 'grad_norm': 1.0390625, 'learning_rate': 2.0196516575304857e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21011.32, 'epoch': 2.97}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 2833/2865 [3:01:13<01:34,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2834/2865 [3:01:16<01:31,  2.96s/it]                                                                                                                                                  {'loss': 11.0362, 'grad_norm': 1.0234375, 'learning_rate': 1.899118384450782e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22104.65, 'epoch': 2.97}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2834/2865 [3:01:16<01:31,  2.96s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2835/2865 [3:01:19<01:28,  2.95s/it]                                                                                                                                                  {'loss': 11.0024, 'grad_norm': 1.03125, 'learning_rate': 1.782291978165429e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21643.6, 'epoch': 2.97}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2835/2865 [3:01:19<01:28,  2.95s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2836/2865 [3:01:22<01:25,  2.95s/it]                                                                                                                                                  {'loss': 11.0318, 'grad_norm': 1.03125, 'learning_rate': 1.669172612030756e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21904.08, 'epoch': 2.97}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2836/2865 [3:01:22<01:25,  2.95s/it] 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2837/2865 [3:01:25<01:22,  2.95s/it]                                                                                                                                                  {'loss': 11.0348, 'grad_norm': 1.0390625, 'learning_rate': 1.559760453901382e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21668.15, 'epoch': 2.97}
 99%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 2837/2865 [3:01:25<01:22,  2.95s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 2838/2865 [3:01:28<01:19,  2.96s/it]                                                                                                                                                  {'loss': 11.0212, 'grad_norm': 1.1640625, 'learning_rate': 1.454055666131049e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22617.6, 'epoch': 2.97}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 2838/2865 [3:01:28<01:19,  2.96s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 2839/2865 [3:01:31<01:16,  2.96s/it]                                                                                                                                                  {'loss': 11.0025, 'grad_norm': 1.078125, 'learning_rate': 1.352058405572343e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21398.06, 'epoch': 2.97}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 2839/2865 [3:01:31<01:16,  2.96s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 2840/2865 [3:01:34<01:13,  2.96s/it]                                                                                                                                                  {'loss': 11.0035, 'grad_norm': 1.0234375, 'learning_rate': 1.2537688235766953e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21925.9, 'epoch': 2.97}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████ | 2840/2865 [3:01:34<01:13,  2.96s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2841/2865 [3:01:37<01:10,  2.96s/it]                                                                                                                                                  {'loss': 11.0139, 'grad_norm': 1.109375, 'learning_rate': 1.1591870659929949e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21221.18, 'epoch': 2.97}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2841/2865 [3:01:37<01:10,  2.96s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2842/2865 [3:01:39<01:08,  2.96s/it]                                                                                                                                                  {'loss': 11.0146, 'grad_norm': 1.1015625, 'learning_rate': 1.0683132731689749e-08, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21274.54, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2842/2865 [3:01:40<01:08,  2.96s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2843/2865 [3:01:42<01:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0079, 'grad_norm': 1.03125, 'learning_rate': 9.811475799495485e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21869.27, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2843/2865 [3:01:42<01:05,  2.96s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2844/2865 [3:01:45<01:02,  2.95s/it]                                                                                                                                                  {'loss': 11.0284, 'grad_norm': 1.2109375, 'learning_rate': 8.976901156779183e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20815.3, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏| 2844/2865 [3:01:45<01:02,  2.95s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2845/2865 [3:01:48<00:59,  2.95s/it]                                                                                                                                                  {'loss': 11.0274, 'grad_norm': 1.0859375, 'learning_rate': 8.179410041944668e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21062.98, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2845/2865 [3:01:48<00:59,  2.95s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2846/2865 [3:01:51<00:56,  2.95s/it]                                                                                                                                                  {'loss': 11.0009, 'grad_norm': 1.03125, 'learning_rate': 7.419003638364785e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21830.38, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2846/2865 [3:01:51<00:56,  2.95s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2847/2865 [3:01:54<00:53,  2.95s/it]                                                                                                                                                  {'loss': 11.0358, 'grad_norm': 1.0390625, 'learning_rate': 6.695683074389725e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20463.32, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎| 2847/2865 [3:01:54<00:53,  2.95s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2848/2865 [3:01:57<00:50,  2.95s/it]                                                                                                                                                  {'loss': 10.9918, 'grad_norm': 1.0546875, 'learning_rate': 6.009449423335922e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21658.8, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2848/2865 [3:01:57<00:50,  2.95s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2849/2865 [3:02:00<00:47,  2.95s/it]                                                                                                                                                  {'loss': 11.0253, 'grad_norm': 1.0390625, 'learning_rate': 5.360303703488833e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21106.76, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2849/2865 [3:02:00<00:47,  2.95s/it] 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2850/2865 [3:02:03<00:44,  2.96s/it]                                                                                                                                                  {'loss': 11.0163, 'grad_norm': 1.03125, 'learning_rate': 4.748246878094609e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 19580.68, 'epoch': 2.98}
 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2850/2865 [3:02:03<00:44,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2851/2865 [3:02:06<00:41,  2.96s/it]                                                                                                                                                  {'loss': 11.0161, 'grad_norm': 1.0234375, 'learning_rate': 4.1732798553711925e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22538.97, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍| 2851/2865 [3:02:06<00:41,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2852/2865 [3:02:09<00:38,  2.96s/it]                                                                                                                                                  {'loss': 11.0058, 'grad_norm': 1.0546875, 'learning_rate': 3.6354034884972243e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21193.17, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2852/2865 [3:02:09<00:38,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2853/2865 [3:02:12<00:35,  2.96s/it]                                                                                                                                                  {'loss': 10.9996, 'grad_norm': 1.0859375, 'learning_rate': 3.1346185756148115e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20894.91, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2853/2865 [3:02:12<00:35,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2854/2865 [3:02:15<00:32,  2.96s/it]                                                                                                                                                  {'loss': 11.0073, 'grad_norm': 1.0390625, 'learning_rate': 2.670925859821205e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 22549.21, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌| 2854/2865 [3:02:15<00:32,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2855/2865 [3:02:18<00:29,  2.96s/it]                                                                                                                                                  {'loss': 11.0107, 'grad_norm': 1.1171875, 'learning_rate': 2.244326029182675e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20577.81, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2855/2865 [3:02:18<00:29,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2856/2865 [3:02:21<00:26,  2.96s/it]                                                                                                                                                  {'loss': 11.0031, 'grad_norm': 1.03125, 'learning_rate': 1.8548197167150838e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20844.99, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2856/2865 [3:02:21<00:26,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2857/2865 [3:02:24<00:23,  2.96s/it]                                                                                                                                                  {'loss': 10.9923, 'grad_norm': 1.109375, 'learning_rate': 1.5024075004005378e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20841.91, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2857/2865 [3:02:24<00:23,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2858/2865 [3:02:27<00:20,  2.96s/it]                                                                                                                                                  {'loss': 11.0083, 'grad_norm': 1.0546875, 'learning_rate': 1.1870899031735105e-09, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21617.46, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋| 2858/2865 [3:02:27<00:20,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2859/2865 [3:02:30<00:17,  2.96s/it]                                                                                                                                                  {'loss': 11.0624, 'grad_norm': 1.3671875, 'learning_rate': 9.08867392923618e-10, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21803.25, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2859/2865 [3:02:30<00:17,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2860/2865 [3:02:33<00:14,  2.96s/it]                                                                                                                                                  {'loss': 11.0049, 'grad_norm': 1.0234375, 'learning_rate': 6.677403824983941e-10, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20647.87, 'epoch': 2.99}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2860/2865 [3:02:33<00:14,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2861/2865 [3:02:36<00:11,  2.96s/it]                                                                                                                                                  {'loss': 11.0032, 'grad_norm': 1.03125, 'learning_rate': 4.637092297032908e-10, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21572.56, 'epoch': 3.0}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊| 2861/2865 [3:02:36<00:11,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉| 2862/2865 [3:02:39<00:08,  2.95s/it]                                                                                                                                                  {'loss': 10.9975, 'grad_norm': 1.0390625, 'learning_rate': 2.967742372933513e-10, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20960.0, 'epoch': 3.0}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉| 2862/2865 [3:02:39<00:08,  2.95s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉| 2863/2865 [3:02:42<00:05,  2.96s/it]                                                                                                                                                  {'loss': 11.0184, 'grad_norm': 1.0859375, 'learning_rate': 1.669356529759858e-10, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 20695.74, 'epoch': 3.0}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉| 2863/2865 [3:02:42<00:05,  2.96s/it]100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉| 2864/2865 [3:02:45<00:02,  2.96s/it]                                                                                                                                                  {'loss': 11.011, 'grad_norm': 1.078125, 'learning_rate': 7.41936694165224e-11, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21733.19, 'epoch': 3.0}
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉| 2864/2865 [3:02:45<00:02,  2.96s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 2865/2865 [3:02:49<00:00,  3.28s/it]                                                                                                                                                  {'loss': 11.0252, 'grad_norm': 1.1640625, 'learning_rate': 1.8548424235431682e-11, 'memory/max_active (GiB)': 18.42, 'memory/max_allocated (GiB)': 18.42, 'memory/device_reserved (GiB)': 19.16, 'tokens_per_second_per_gpu': 21816.72, 'epoch': 3.0}
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 2865/2865 [3:02:49<00:00,  3.28s/it][2025-10-12 06:11:41,381] [INFO] [axolotl.core.trainers.base._save:664] [PID:1386789] Saving model checkpoint to /home/ubuntu/axolotl/out-350m-multitask-ft/checkpoint-2865
                                                                                                                                                  {'train_runtime': 10976.0709, 'train_samples_per_second': 66.822, 'train_steps_per_second': 0.261, 'train_loss': 11.050280139250697, 'memory/max_active (GiB)': 3.2, 'memory/max_allocated (GiB)': 3.2, 'memory/device_reserved (GiB)': 19.16, 'epoch': 3.0}
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 2865/2865 [3:02:54<00:00,  3.28s/it]100%|███████████████████████████████████████████████████████████████████████████████████████████████████████| 2865/2865 [3:02:54<00:00,  3.83s/it]
[2025-10-12 06:11:48,583] [INFO] [axolotl.train.save_trained_model:218] [PID:1386789] Training completed! Saving trained model to /home/ubuntu/axolotl/out-350m-multitask-ft.
[2025-10-12 06:11:50,554] [INFO] [axolotl.train.save_trained_model:336] [PID:1386789] Model successfully saved to /home/ubuntu/axolotl/out-350m-multitask-ft