[2026-01-11 04:24:19,378] [WARNING] [axolotl.utils.trainer.prepare_optim_env:644] [PID:4935] P2P support not detected, setting `NCCL_P2P_DISABLE=1`
[2026-01-11 04:24:19,378] [DEBUG] [axolotl.utils.config.resolve_dtype:66] [PID:4935] bf16 support detected, enabling for this configuration.
[2026-01-11 04:24:19,702] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:4935] baseline 0.000GB ()
[2026-01-11 04:24:19,703] [INFO] [axolotl.cli.config.load_cfg:263] [PID:4935] config:
{
  "activation_offloading": false,
  "adapter": "qlora",
  "axolotl_config_path": "olmo-stage1.yaml",
  "base_model": "allenai/Olmo-3.1-32B-Instruct",
  "base_model_config": "allenai/Olmo-3.1-32B-Instruct",
  "batch_size": 4,
  "bf16": true,
  "capabilities": {
    "bf16": true,
    "compute_capability": "sm_86",
    "fp8": false,
    "n_gpu": 2,
    "n_node": 1
  },
  "context_parallel_size": 2,
  "cut_cross_entropy": true,
  "dataloader_num_workers": 2,
  "dataloader_pin_memory": true,
  "dataloader_prefetch_factor": 256,
  "dataset_num_proc": 24,
  "dataset_prepared_path": "last_run_prepared",
  "datasets": [
    {
      "message_property_mappings": {
        "content": "content",
        "role": "role"
      },
      "path": "../marvin_no_anthologies.json",
      "trust_remote_code": false,
      "type": "completion"
    }
  ],
  "ddp": true,
  "device": "cuda:0",
  "device_map": {
    "": 0
  },
  "dion_rank_fraction": 1.0,
  "dion_rank_multiple_of": 1,
  "env_capabilities": {
    "torch_version": "2.9.1"
  },
  "eval_batch_size": 1,
  "eval_causal_lm_metrics": [
    "sacrebleu",
    "comet",
    "ter",
    "chrf"
  ],
  "eval_max_new_tokens": 128,
  "eval_sample_packing": true,
  "eval_steps": 0.2,
  "eval_table_size": 0,
  "evals_per_epoch": 5,
  "experimental_skip_move_to_device": true,
  "flash_attention": true,
  "fp16": false,
  "fsdp": [
    "full_shard",
    "auto_wrap"
  ],
  "fsdp_config": {
    "activation_checkpointing": true,
    "auto_wrap_policy": "TRANSFORMER_BASED_WRAP",
    "cpu_ram_efficient_loading": true,
    "offload_params": true,
    "state_dict_type": "FULL_STATE_DICT",
    "sync_module_states": true,
    "transformer_layer_cls_to_wrap": "Olmo3DecoderLayer",
    "use_orig_params": false
  },
  "gc_steps": 10,
  "gradient_accumulation_steps": 2,
  "gradient_checkpointing": false,
  "group_by_length": false,
  "heads_k_stride": 1,
  "include_tkps": true,
  "learning_rate": 1e-05,
  "liger_glu_activation": true,
  "liger_layer_norm": true,
  "liger_rms_norm": true,
  "liger_rope": true,
  "lisa_layers_attribute": "model.layers",
  "load_best_model_at_end": false,
  "load_in_4bit": true,
  "load_in_8bit": false,
  "local_rank": 0,
  "logging_steps": 1,
  "lora_alpha": 8,
  "lora_dropout": 0.05,
  "lora_r": 32,
  "lora_target_linear": true,
  "loraplus_lr_embedding": 1e-06,
  "lr_scheduler": "cosine",
  "max_grad_norm": 1.0,
  "mean_resizing_embeddings": false,
  "micro_batch_size": 1,
  "model_config_type": "olmo3",
  "num_epochs": 1.0,
  "optimizer": "adamw_torch_fused",
  "otel_metrics_host": "localhost",
  "otel_metrics_port": 8000,
  "output_dir": "ckpts-olmo-qlora/marvin-full",
  "pad_to_sequence_len": true,
  "peft_use_rslora": true,
  "plugins": [
    "axolotl.integrations.liger.LigerPlugin",
    "axolotl.integrations.cut_cross_entropy.CutCrossEntropyPlugin"
  ],
  "pretrain_multipack_attn": true,
  "profiler_steps_start": 0,
  "qlora_sharded_model_loading": false,
  "ray_num_workers": 1,
  "resources_per_worker": {
    "GPU": 1
  },
  "ring_attn_func": "varlen_llama3",
  "sample_packing": true,
  "sample_packing_bin_size": 200,
  "sample_packing_group_size": 100000,
  "save_only_model": false,
  "save_safetensors": true,
  "save_total_limit": 2,
  "saves_per_epoch": 1,
  "seed": 69,
  "sequence_len": 32768,
  "sequence_parallel_degree": 2,
  "shuffle_before_merging_datasets": false,
  "shuffle_merged_datasets": true,
  "skip_prepare_dataset": false,
  "streaming_multipack_buffer_size": 10000,
  "strict": false,
  "tensor_parallel_size": 1,
  "tiled_mlp_use_original_mlp": true,
  "tokenizer_config": "allenai/Olmo-3.1-32B-Instruct",
  "tokenizer_save_jinja_files": true,
  "torch_dtype": "torch.bfloat16",
  "train_on_inputs": false,
  "trl": {
    "log_completions": false,
    "mask_truncated_completions": false,
    "ref_model_mixup_alpha": 0.9,
    "ref_model_sync_steps": 64,
    "scale_rewards": true,
    "sync_ref_model": false,
    "use_vllm": false,
    "vllm_server_host": "0.0.0.0",
    "vllm_server_port": 8000
  },
  "use_otel_metrics": false,
  "use_ray": false,
  "use_wandb": true,
  "val_set_size": 0.025,
  "vllm": {
    "device": "auto",
    "dtype": "auto",
    "gpu_memory_utilization": 0.9,
    "host": "0.0.0.0",
    "port": 8000
  },
  "wandb_name": "marvin-qlora-full",
  "wandb_project": "Olmo3",
  "warmup_ratio": 0.025,
  "weight_decay": 0.01,
  "world_size": 2
}
[2026-01-11 04:24:20,543] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:4935] EOS: 100257 / <|endoftext|>
[2026-01-11 04:24:20,543] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:4935] BOS: 100257 / <|endoftext|>
[2026-01-11 04:24:20,543] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:282] [PID:4935] PAD: 100277 / <|pad|>
[2026-01-11 04:24:20,543] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:283] [PID:4935] UNK: 100257 / <|endoftext|>
[2026-01-11 04:24:38,731] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:475] [PID:4935] Loading prepared dataset from disk at last_run_prepared/8d6cb9376a109abc6ac61340266a9d2f...
[2026-01-11 04:24:38,747] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:4935] total_num_tokens: 607_040
[2026-01-11 04:24:38,770] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:4935] `total_supervised_tokens: 607_040`
[2026-01-11 04:24:38,851] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:39,552] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:39,778] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.22662973403930664
[2026-01-11 04:24:39,779] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:40,005] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.22648382186889648
[2026-01-11 04:24:40,005] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:40,232] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.22647571563720703
[2026-01-11 04:24:40,232] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:40,458] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.22629952430725098
[2026-01-11 04:24:41,068] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:4935] gather_len_batches: [19, 19]
[2026-01-11 04:24:41,131] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:483] [PID:4935] data_loader_len: 4
[2026-01-11 04:24:41,144] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:499] [PID:4935] sample_packing_eff_est across ranks: [0.9750205874443054, 0.9750205874443054]
[2026-01-11 04:24:41,144] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:511] [PID:4935] sample_packing_eff_est: None
[2026-01-11 04:24:41,144] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:4935] total_num_steps: 8
[2026-01-11 04:24:41,207] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:406] [PID:4935] total_num_tokens: 21_945_632
[2026-01-11 04:24:41,350] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:424] [PID:4935] `total_supervised_tokens: 21_945_632`
[2026-01-11 04:24:41,359] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:41,585] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:41,811] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.2260892391204834
[2026-01-11 04:24:41,811] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:42,037] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.22601652145385742
[2026-01-11 04:24:42,037] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:42,263] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.2259969711303711
[2026-01-11 04:24:42,264] [DEBUG] [axolotl.utils.samplers.multipack.pack_parallel:177] [PID:4935] Using single process for pack_parallel, running sequentially.
[2026-01-11 04:24:42,490] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.22606921195983887
[2026-01-11 04:24:42,490] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:4935] gather_len_batches: [677, 678]
[2026-01-11 04:24:42,491] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:483] [PID:4935] data_loader_len: 169
[2026-01-11 04:24:42,491] [INFO] [axolotl.utils.trainer.calc_sample_packing_eff_est:499] [PID:4935] sample_packing_eff_est across ranks: [0.9877987504005432, 0.9877987504005432]
[2026-01-11 04:24:42,492] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:511] [PID:4935] sample_packing_eff_est: 0.99
[2026-01-11 04:24:42,492] [DEBUG] [axolotl.utils.trainer.calculate_total_num_steps:522] [PID:4935] total_num_steps: 338
[2026-01-11 04:24:42,492] [INFO] [axolotl.utils.data.sft._prepare_standard_dataset:121] [PID:4935] Maximum number of steps set at 338
[2026-01-11 04:24:42,505] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:4935] loading tokenizer... allenai/Olmo-3.1-32B-Instruct
[2026-01-11 04:24:43,213] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:280] [PID:4935] EOS: 100257 / <|endoftext|>
[2026-01-11 04:24:43,213] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:281] [PID:4935] BOS: 100257 / <|endoftext|>
[2026-01-11 04:24:43,213] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:282] [PID:4935] PAD: 100277 / <|pad|>
[2026-01-11 04:24:43,213] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:283] [PID:4935] UNK: 100257 / <|endoftext|>
[2026-01-11 04:24:43,213] [DEBUG] [axolotl.train.setup_model_and_tokenizer:82] [PID:4935] Loading model
[2026-01-11 04:24:43,408] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:4935] Patched Trainer.evaluation_loop with nanmean loss calculation
[2026-01-11 04:24:43,409] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:4935] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
[2026-01-11 04:24:43,411] [DEBUG] [axolotl.monkeypatch.transformers.trainer_context_parallel.patch_prepare_context_parallel_inputs:64] [PID:4935] Patched Trainer._prepare_context_parallel_inputs for FlashAttention + CP
[2026-01-11 04:24:43,413] [INFO] [axolotl.loaders.patch_manager._apply_multipack_patches:301] [PID:4935] Applying multipack dataloader patch for sample packing...
[2026-01-11 04:24:43,508] [INFO] [axolotl.integrations.liger.plugin.pre_model_load:98] [PID:4935] Applying LIGER to olmo3 with kwargs: {'rope': True, 'cross_entropy': None, 'fused_linear_cross_entropy': None, 'rms_norm': True, 'swiglu': True}
[2026-01-11 04:24:43,601] [INFO] [axolotl.integrations.cut_cross_entropy.pre_model_load:94] [PID:4935] Applying Cut Cross Entropy to model type: olmo3
Loading checkpoint shards:   0%|                                                               | 0/14 [00:00<?, ?it/s]Loading checkpoint shards:   7%|███▉                                                   | 1/14 [00:14<03:08, 14.49s/it]Loading checkpoint shards:  14%|███████▊                                               | 2/14 [00:29<02:55, 14.59s/it]Loading checkpoint shards:  21%|███████████▊                                           | 3/14 [00:44<02:46, 15.11s/it]Loading checkpoint shards:  29%|███████████████▋                                       | 4/14 [00:59<02:30, 15.05s/it]Loading checkpoint shards:  36%|███████████████████▋                                   | 5/14 [01:14<02:15, 15.06s/it]Loading checkpoint shards:  43%|███████████████████████▌                               | 6/14 [01:28<01:57, 14.65s/it]Loading checkpoint shards:  50%|███████████████████████████▌                           | 7/14 [01:43<01:42, 14.59s/it]Loading checkpoint shards:  57%|███████████████████████████████▍                       | 8/14 [01:58<01:27, 14.67s/it]Loading checkpoint shards:  64%|███████████████████████████████████▎                   | 9/14 [02:12<01:12, 14.60s/it]Loading checkpoint shards:  71%|██████████████████████████████████████▌               | 10/14 [02:27<00:58, 14.70s/it]Loading checkpoint shards:  79%|██████████████████████████████████████████▍           | 11/14 [02:42<00:44, 14.75s/it]Loading checkpoint shards:  86%|██████████████████████████████████████████████▎       | 12/14 [02:58<00:30, 15.21s/it]Loading checkpoint shards:  93%|██████████████████████████████████████████████████▏   | 13/14 [03:13<00:15, 15.05s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 14/14 [03:16<00:00, 11.44s/it]Loading checkpoint shards: 100%|██████████████████████████████████████████████████████| 14/14 [03:16<00:00, 14.02s/it]
[2026-01-11 04:28:00,618] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:347] [PID:4935] Converting modules to torch.bfloat16
[2026-01-11 04:28:00,622] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:4935] Memory usage after model load 10.959GB (+10.959GB allocated, +11.029GB reserved)
[2026-01-11 04:28:00,623] [INFO] [axolotl.loaders.adapter.load_lora:81] [PID:4935] found linear modules: ['down_proj', 'gate_proj', 'k_proj', 'o_proj', 'q_proj', 'up_proj', 'v_proj']
trainable params: 268,435,456 || all params: 32,501,957,632 || trainable%: 0.8259
[2026-01-11 04:28:02,741] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:4935] after adapters 0.000GB ()
[2026-01-11 04:28:06,398] [INFO] [axolotl.train.save_initial_configs:413] [PID:4935] Pre-saving adapter config to ckpts-olmo-qlora/marvin-full...
[2026-01-11 04:28:06,398] [INFO] [axolotl.train.save_initial_configs:417] [PID:4935] Pre-saving tokenizer to ckpts-olmo-qlora/marvin-full...
[2026-01-11 04:28:06,481] [INFO] [axolotl.train.save_initial_configs:422] [PID:4935] Pre-saving model config to ckpts-olmo-qlora/marvin-full...
[2026-01-11 04:28:06,484] [INFO] [axolotl.monkeypatch.ring_attn.patch.register_ring_attn_from_device_mesh:154] [PID:4935] Enabling ring attention sequence parallelism using DeviceMesh dimension '('cp',)'
[2026-01-11 04:28:06,484] [INFO] [axolotl.monkeypatch.ring_attn.patch.register_ring_attn_from_device_mesh:174] [PID:4935] Sequence parallel degree: 2, mesh shape: torch.Size([2])
[2026-01-11 04:28:06,484] [INFO] [axolotl.train.execute_training:212] [PID:4935] Starting trainer...
[2026-01-11 04:28:10,446] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 1.756368637084961
[2026-01-11 04:28:12,246] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 1.7998135089874268
[2026-01-11 04:28:13,997] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 1.7511165142059326
[2026-01-11 04:28:15,812] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 1.8145685195922852
[2026-01-11 04:28:15,813] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:4935] gather_len_batches: [677, 677]
[34m[1mwandb[0m: Currently logged in as: [33mcooawoo[0m ([33mcooawoo-personal[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: [38;5;178m⢿[0m Waiting for wandb.init()...
[Am[2K[34m[1mwandb[0m: [38;5;178m⣻[0m setting up run xfaxg0o0 (0.0s)
[Am[2K[34m[1mwandb[0m: [38;5;178m⣽[0m setting up run xfaxg0o0 (0.0s)
[Am[2K[34m[1mwandb[0m: [38;5;178m⣾[0m setting up run xfaxg0o0 (0.0s)
[Am[2K[34m[1mwandb[0m: Tracking run with wandb version 0.23.1
[34m[1mwandb[0m: Run data is saved locally in [35m[1m/home/aibox/training/wandb/run-20260111_042829-xfaxg0o0[0m
[34m[1mwandb[0m: Run [1m`wandb offline`[0m to turn off syncing.
[34m[1mwandb[0m: Syncing run [33mmarvin-qlora-full[0m
[34m[1mwandb[0m: ⭐️ View project at [34m[4mhttps://wandb.ai/cooawoo-personal/Olmo3[0m
[34m[1mwandb[0m: 🚀 View run at [34m[4mhttps://wandb.ai/cooawoo-personal/Olmo3/runs/xfaxg0o0[0m
[34m[1mwandb[0m: Detected [huggingface_hub.inference] in use.
[34m[1mwandb[0m: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
[34m[1mwandb[0m: For more information, check out the docs at: https://weave-docs.wandb.ai/
[34m[1mwandb[0m: [33mWARNING[0m Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
[34m[1mwandb[0m: [33mWARNING[0m Symlinked 1 file into the W&B run directory; call wandb.save again to sync new files.
[2026-01-11 04:28:32,017] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:4935] The Axolotl config has been saved to the WandB run under files.
  0%|                                                                                         | 0/338 [00:00<?, ?it/s][2026-01-11 04:28:32,023] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:4935] Running evaluation step...
[2026-01-11 04:28:34,540] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 1.18226957321167
[2026-01-11 04:28:35,755] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 1.214179515838623
[2026-01-11 04:28:37,040] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 1.2851486206054688
[2026-01-11 04:28:38,317] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 1.2766640186309814
[2026-01-11 04:28:38,318] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:4935] gather_len_batches: [19, 19]

  0%|                                                                                          | 0/19 [00:00<?, ?it/s][A
 11%|████████▋                                                                         | 2/19 [00:20<02:52, 10.17s/it][A
 16%|████████████▉                                                                     | 3/19 [00:42<04:00, 15.02s/it][A
 21%|█████████████████▎                                                                | 4/19 [01:03<04:23, 17.55s/it][A
 26%|█████████████████████▌                                                            | 5/19 [01:25<04:26, 19.03s/it][A
 32%|█████████████████████████▉                                                        | 6/19 [01:47<04:19, 19.94s/it][A
 37%|██████████████████████████████▏                                                   | 7/19 [02:09<04:06, 20.54s/it][A
 42%|██████████████████████████████████▌                                               | 8/19 [02:31<03:50, 20.92s/it][A
 47%|██████████████████████████████████████▊                                           | 9/19 [02:52<03:31, 21.19s/it][A
 53%|██████████████████████████████████████████▋                                      | 10/19 [03:13<03:09, 21.08s/it][A
 58%|██████████████████████████████████████████████▉                                  | 11/19 [03:35<02:50, 21.30s/it][A
 63%|███████████████████████████████████████████████████▏                             | 12/19 [03:57<02:30, 21.44s/it][A
 68%|███████████████████████████████████████████████████████▍                         | 13/19 [04:19<02:09, 21.55s/it][A
 74%|███████████████████████████████████████████████████████████▋                     | 14/19 [04:40<01:48, 21.61s/it][A
 79%|███████████████████████████████████████████████████████████████▉                 | 15/19 [05:02<01:26, 21.70s/it][A
 84%|████████████████████████████████████████████████████████████████████▏            | 16/19 [05:24<01:05, 21.75s/it][A
 89%|████████████████████████████████████████████████████████████████████████▍        | 17/19 [05:46<00:43, 21.77s/it][A
 95%|████████████████████████████████████████████████████████████████████████████▋    | 18/19 [06:08<00:21, 21.77s/it][A
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:30<00:00, 22.02s/it][A                                                                                                                      
                                                                                                                      [A{'eval_loss': 1.347618579864502, 'eval_runtime': 437.2435, 'eval_samples_per_second': 0.046, 'eval_steps_per_second': 0.023, 'eval_ppl': 3.8483, 'memory/max_active (GiB)': 6.49, 'memory/max_allocated (GiB)': 6.49, 'memory/device_reserved (GiB)': 14.38, 'epoch': 0}
  0%|                                                                                         | 0/338 [07:23<?, ?it/s]
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:31<00:00, 22.02s/it][A
                                                                                                                      [A  0%|▏                                                                            | 1/338 [08:41<48:47:14, 521.17s/it]                                                                                                                      {'loss': 2.9551, 'grad_norm': 0.2760590612888336, 'learning_rate': 0.0, 'ppl': 19.2036, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 4268.92, 'total_tokens': 1279616, 'epoch': 0.0}
  0%|▏                                                                            | 1/338 [08:41<48:47:14, 521.17s/it]  1%|▍                                                                            | 2/338 [09:53<24:00:30, 257.23s/it]                                                                                                                      {'loss': 2.9857, 'grad_norm': 0.2543317973613739, 'learning_rate': 1.25e-06, 'ppl': 19.8004, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.11, 'total_tokens': 1345152, 'epoch': 0.01}
  1%|▍                                                                            | 2/338 [09:53<24:00:30, 257.23s/it]  1%|▋                                                                            | 3/338 [11:05<16:02:56, 172.47s/it]                                                                                                                      {'loss': 3.2441, 'grad_norm': 0.3385241627693176, 'learning_rate': 2.5e-06, 'ppl': 25.6386, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.85, 'total_tokens': 1410688, 'epoch': 0.01}
  1%|▋                                                                            | 3/338 [11:05<16:02:56, 172.47s/it]  1%|▉                                                                            | 4/338 [12:17<12:20:17, 132.99s/it]                                                                                                                      {'loss': 3.2033, 'grad_norm': 0.31869640946388245, 'learning_rate': 3.7500000000000005e-06, 'ppl': 24.6136, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.15, 'total_tokens': 1476224, 'epoch': 0.01}
  1%|▉                                                                            | 4/338 [12:17<12:20:17, 132.99s/it]  1%|█▏                                                                           | 5/338 [13:29<10:15:38, 110.93s/it]                                                                                                                      {'loss': 2.8742, 'grad_norm': 0.24800248444080353, 'learning_rate': 5e-06, 'ppl': 17.7112, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.17, 'total_tokens': 1541760, 'epoch': 0.01}
  1%|█▏                                                                           | 5/338 [13:29<10:15:38, 110.93s/it]  2%|█▍                                                                             | 6/338 [14:41<9:01:09, 97.80s/it]                                                                                                                      {'loss': 3.0782, 'grad_norm': 0.33314231038093567, 'learning_rate': 6.25e-06, 'ppl': 21.7193, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.56, 'total_tokens': 1607296, 'epoch': 0.02}
  2%|█▍                                                                             | 6/338 [14:41<9:01:09, 97.80s/it]  2%|█▋                                                                             | 7/338 [15:53<8:12:30, 89.28s/it]                                                                                                                      {'loss': 2.7738, 'grad_norm': 0.2399023473262787, 'learning_rate': 7.500000000000001e-06, 'ppl': 16.0194, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.44, 'total_tokens': 1672832, 'epoch': 0.02}
  2%|█▋                                                                             | 7/338 [15:53<8:12:30, 89.28s/it]  2%|█▊                                                                             | 8/338 [17:06<7:41:38, 83.93s/it]                                                                                                                      {'loss': 3.1747, 'grad_norm': 0.28358039259910583, 'learning_rate': 8.750000000000001e-06, 'ppl': 23.9196, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.02, 'total_tokens': 1738368, 'epoch': 0.02}
  2%|█▊                                                                             | 8/338 [17:06<7:41:38, 83.93s/it]  3%|██                                                                             | 9/338 [18:18<7:20:02, 80.25s/it]                                                                                                                      {'loss': 3.3878, 'grad_norm': 0.49487045407295227, 'learning_rate': 1e-05, 'ppl': 29.6008, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.1, 'total_tokens': 1803904, 'epoch': 0.03}
  3%|██                                                                             | 9/338 [18:18<7:20:02, 80.25s/it]  3%|██▎                                                                           | 10/338 [19:30<7:05:41, 77.87s/it]                                                                                                                      {'loss': 3.6943, 'grad_norm': 0.2972300350666046, 'learning_rate': 9.999773426770864e-06, 'ppl': 40.2174, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.86, 'total_tokens': 1869440, 'epoch': 0.03}
  3%|██▎                                                                           | 10/338 [19:30<7:05:41, 77.87s/it]  3%|██▌                                                                           | 11/338 [20:42<6:54:22, 76.03s/it]                                                                                                                      {'loss': 2.9975, 'grad_norm': 0.25067025423049927, 'learning_rate': 9.99909372761763e-06, 'ppl': 20.0354, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.01, 'total_tokens': 1934976, 'epoch': 0.03}
  3%|██▌                                                                           | 11/338 [20:42<6:54:22, 76.03s/it]  4%|██▊                                                                           | 12/338 [21:54<6:45:38, 74.66s/it]                                                                                                                      {'loss': 3.5333, 'grad_norm': 0.2540205717086792, 'learning_rate': 9.997960964140946e-06, 'ppl': 34.2368, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.91, 'total_tokens': 2000053, 'epoch': 0.04}
  4%|██▊                                                                           | 12/338 [21:54<6:45:38, 74.66s/it]  4%|███                                                                           | 13/338 [23:05<6:39:32, 73.76s/it]                                                                                                                      {'loss': 3.1127, 'grad_norm': 0.24484871327877045, 'learning_rate': 9.99637523900237e-06, 'ppl': 22.4817, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.54, 'total_tokens': 2065589, 'epoch': 0.04}
  4%|███                                                                           | 13/338 [23:05<6:39:32, 73.76s/it]  4%|███▏                                                                          | 14/338 [24:18<6:36:03, 73.34s/it]                                                                                                                      {'loss': 3.2224, 'grad_norm': 0.28549864888191223, 'learning_rate': 9.994336695915041e-06, 'ppl': 25.0883, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.37, 'total_tokens': 2131125, 'epoch': 0.04}
  4%|███▏                                                                          | 14/338 [24:18<6:36:03, 73.34s/it]  4%|███▍                                                                          | 15/338 [25:29<6:32:05, 72.83s/it]                                                                                                                      {'loss': 3.6056, 'grad_norm': 0.3429976999759674, 'learning_rate': 9.991845519630679e-06, 'ppl': 36.8038, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.68, 'total_tokens': 2196661, 'epoch': 0.04}
  4%|███▍                                                                          | 15/338 [25:29<6:32:05, 72.83s/it]  5%|███▋                                                                          | 16/338 [26:42<6:30:13, 72.71s/it]                                                                                                                      {'loss': 3.6633, 'grad_norm': 0.34727513790130615, 'learning_rate': 9.988901935922826e-06, 'ppl': 38.9898, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.23, 'total_tokens': 2262197, 'epoch': 0.05}
  5%|███▋                                                                          | 16/338 [26:42<6:30:13, 72.71s/it]  5%|███▉                                                                          | 17/338 [27:54<6:27:32, 72.44s/it]                                                                                                                      {'loss': 2.8433, 'grad_norm': 0.3047292232513428, 'learning_rate': 9.985506211566388e-06, 'ppl': 17.1723, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.8, 'total_tokens': 2327532, 'epoch': 0.05}
  5%|███▉                                                                          | 17/338 [27:54<6:27:32, 72.44s/it]  5%|████▏                                                                         | 18/338 [29:05<6:25:05, 72.20s/it]                                                                                                                      {'loss': 3.5522, 'grad_norm': 0.30060479044914246, 'learning_rate': 9.981658654313458e-06, 'ppl': 34.89, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.1, 'total_tokens': 2392846, 'epoch': 0.05}
  5%|████▏                                                                         | 18/338 [29:05<6:25:05, 72.20s/it]  6%|████▍                                                                         | 19/338 [30:17<6:23:09, 72.07s/it]                                                                                                                      {'loss': 2.9608, 'grad_norm': 0.31718236207962036, 'learning_rate': 9.977359612865424e-06, 'ppl': 19.3134, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.39, 'total_tokens': 2458382, 'epoch': 0.06}
  6%|████▍                                                                         | 19/338 [30:17<6:23:09, 72.07s/it]  6%|████▌                                                                         | 20/338 [31:30<6:23:16, 72.32s/it]                                                                                                                      {'loss': 3.1987, 'grad_norm': 0.3034786581993103, 'learning_rate': 9.972609476841368e-06, 'ppl': 24.5007, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.76, 'total_tokens': 2523918, 'epoch': 0.06}
  6%|████▌                                                                         | 20/338 [31:30<6:23:16, 72.32s/it]  6%|████▊                                                                         | 21/338 [32:40<6:19:13, 71.78s/it]                                                                                                                      {'loss': 3.4856, 'grad_norm': 0.8673097491264343, 'learning_rate': 9.96740867674275e-06, 'ppl': 32.642, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 230.63, 'total_tokens': 2589213, 'epoch': 0.06}
  6%|████▊                                                                         | 21/338 [32:40<6:19:13, 71.78s/it]  7%|█████                                                                         | 22/338 [33:52<6:18:28, 71.86s/it]                                                                                                                      {'loss': 2.8279, 'grad_norm': 0.3133203983306885, 'learning_rate': 9.961757683914406e-06, 'ppl': 16.9099, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.39, 'total_tokens': 2654749, 'epoch': 0.06}
  7%|█████                                                                         | 22/338 [33:52<6:18:28, 71.86s/it]  7%|█████▎                                                                        | 23/338 [35:04<6:16:54, 71.79s/it]                                                                                                                      {'loss': 2.956, 'grad_norm': 0.29499542713165283, 'learning_rate': 9.955657010501807e-06, 'ppl': 19.2209, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.75, 'total_tokens': 2720285, 'epoch': 0.07}
  7%|█████▎                                                                        | 23/338 [35:04<6:16:54, 71.79s/it]  7%|█████▌                                                                        | 24/338 [36:16<6:16:34, 71.96s/it]                                                                                                                      {'loss': 2.9656, 'grad_norm': 0.3450299799442291, 'learning_rate': 9.949107209404664e-06, 'ppl': 19.4063, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.5, 'total_tokens': 2785821, 'epoch': 0.07}
  7%|█████▌                                                                        | 24/338 [36:16<6:16:34, 71.96s/it]  7%|█████▊                                                                        | 25/338 [37:28<6:15:01, 71.89s/it]                                                                                                                      {'loss': 3.0797, 'grad_norm': 0.29882487654685974, 'learning_rate': 9.942108874226812e-06, 'ppl': 21.7519, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 219.86, 'total_tokens': 2850128, 'epoch': 0.07}
  7%|█████▊                                                                        | 25/338 [37:28<6:15:01, 71.89s/it]  8%|██████                                                                        | 26/338 [38:41<6:14:38, 72.05s/it]                                                                                                                      {'loss': 3.0035, 'grad_norm': 0.2814580798149109, 'learning_rate': 9.934662639222412e-06, 'ppl': 20.156, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.27, 'total_tokens': 2915664, 'epoch': 0.08}
  8%|██████                                                                        | 26/338 [38:41<6:14:38, 72.05s/it]  8%|██████▏                                                                       | 27/338 [39:52<6:12:55, 71.95s/it]                                                                                                                      {'loss': 3.2139, 'grad_norm': 0.3312477767467499, 'learning_rate': 9.926769179238467e-06, 'ppl': 24.8759, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.47, 'total_tokens': 2981200, 'epoch': 0.08}
  8%|██████▏                                                                       | 27/338 [39:52<6:12:55, 71.95s/it]  8%|██████▍                                                                       | 28/338 [41:05<6:12:27, 72.09s/it]                                                                                                                      {'loss': 2.871, 'grad_norm': 0.8132546544075012, 'learning_rate': 9.918429209653662e-06, 'ppl': 17.6547, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.25, 'total_tokens': 3046736, 'epoch': 0.08}
  8%|██████▍                                                                       | 28/338 [41:05<6:12:27, 72.09s/it]  9%|██████▋                                                                       | 29/338 [42:17<6:10:48, 72.00s/it]                                                                                                                      {'loss': 3.1825, 'grad_norm': 0.2972576916217804, 'learning_rate': 9.909643486313533e-06, 'ppl': 24.1069, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.22, 'total_tokens': 3112272, 'epoch': 0.09}
  9%|██████▋                                                                       | 29/338 [42:17<6:10:48, 72.00s/it]  9%|██████▉                                                                       | 30/338 [43:29<6:10:52, 72.25s/it]                                                                                                                      {'loss': 3.3614, 'grad_norm': 0.24180564284324646, 'learning_rate': 9.900412805461968e-06, 'ppl': 28.8295, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 217.83, 'total_tokens': 3176764, 'epoch': 0.09}
  9%|██████▉                                                                       | 30/338 [43:29<6:10:52, 72.25s/it]  9%|███████▏                                                                      | 31/338 [44:41<6:08:37, 72.04s/it]                                                                                                                      {'loss': 2.9033, 'grad_norm': 0.4048800468444824, 'learning_rate': 9.890738003669029e-06, 'ppl': 18.2342, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.95, 'total_tokens': 3242300, 'epoch': 0.09}
  9%|███████▏                                                                      | 31/338 [44:41<6:08:37, 72.04s/it]  9%|███████▍                                                                      | 32/338 [45:52<6:05:37, 71.69s/it]                                                                                                                      {'loss': 3.0458, 'grad_norm': 0.2900630533695221, 'learning_rate': 9.880619957755151e-06, 'ppl': 21.0268, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 222.35, 'total_tokens': 3306582, 'epoch': 0.09}
  9%|███████▍                                                                      | 32/338 [45:52<6:05:37, 71.69s/it] 10%|███████▌                                                                      | 33/338 [47:03<6:04:20, 71.67s/it]                                                                                                                      {'loss': 3.1275, 'grad_norm': 0.4183318316936493, 'learning_rate': 9.870059584711668e-06, 'ppl': 22.8169, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.75, 'total_tokens': 3372118, 'epoch': 0.1}
 10%|███████▌                                                                      | 33/338 [47:03<6:04:20, 71.67s/it] 10%|███████▊                                                                      | 34/338 [48:16<6:04:23, 71.92s/it]                                                                                                                      {'loss': 3.1372, 'grad_norm': 0.2572946846485138, 'learning_rate': 9.859057841617709e-06, 'ppl': 23.0393, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 218.75, 'total_tokens': 3436598, 'epoch': 0.1}
 10%|███████▊                                                                      | 34/338 [48:16<6:04:23, 71.92s/it] 10%|████████                                                                      | 35/338 [49:27<6:02:42, 71.82s/it]                                                                                                                      {'loss': 2.9527, 'grad_norm': 0.27593204379081726, 'learning_rate': 9.847615725553457e-06, 'ppl': 19.1576, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.83, 'total_tokens': 3502134, 'epoch': 0.1}
 10%|████████                                                                      | 35/338 [49:28<6:02:42, 71.82s/it] 11%|████████▎                                                                     | 36/338 [50:40<6:02:15, 71.97s/it]                                                                                                                      {'loss': 2.7847, 'grad_norm': 0.24333645403385162, 'learning_rate': 9.835734273509787e-06, 'ppl': 16.195, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 222.86, 'total_tokens': 3567136, 'epoch': 0.11}
 11%|████████▎                                                                     | 36/338 [50:40<6:02:15, 71.97s/it] 11%|████████▌                                                                     | 37/338 [51:51<6:00:34, 71.87s/it]                                                                                                                      {'loss': 3.0988, 'grad_norm': 0.24148119986057281, 'learning_rate': 9.82341456229428e-06, 'ppl': 22.1713, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.7, 'total_tokens': 3632672, 'epoch': 0.11}
 11%|████████▌                                                                     | 37/338 [51:51<6:00:34, 71.87s/it] 11%|████████▊                                                                     | 38/338 [53:04<6:00:00, 72.00s/it]                                                                                                                      {'loss': 3.1339, 'grad_norm': 0.2602880001068115, 'learning_rate': 9.810657708433637e-06, 'ppl': 22.9634, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.63, 'total_tokens': 3698208, 'epoch': 0.11}
 11%|████████▊                                                                     | 38/338 [53:04<6:00:00, 72.00s/it] 12%|█████████                                                                     | 39/338 [54:16<5:58:39, 71.97s/it]                                                                                                                      {'loss': 3.2108, 'grad_norm': 0.3393114507198334, 'learning_rate': 9.797464868072489e-06, 'ppl': 24.7989, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 219.74, 'total_tokens': 3762574, 'epoch': 0.12}
 12%|█████████                                                                     | 39/338 [54:16<5:58:39, 71.97s/it] 12%|█████████▏                                                                    | 40/338 [55:29<5:58:53, 72.26s/it]                                                                                                                      {'loss': 2.9688, 'grad_norm': 0.2595774233341217, 'learning_rate': 9.78383723686861e-06, 'ppl': 19.4685, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.67, 'total_tokens': 3828110, 'epoch': 0.12}
 12%|█████████▏                                                                    | 40/338 [55:29<5:58:53, 72.26s/it] 12%|█████████▍                                                                    | 41/338 [56:39<5:54:19, 71.58s/it]                                                                                                                      {'loss': 3.5797, 'grad_norm': 0.2761957347393036, 'learning_rate': 9.769776049884564e-06, 'ppl': 35.8628, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.98, 'total_tokens': 3893071, 'epoch': 0.12}
 12%|█████████▍                                                                    | 41/338 [56:39<5:54:19, 71.58s/it] 12%|█████████▋                                                                    | 42/338 [57:51<5:53:46, 71.71s/it]                                                                                                                      {'loss': 2.9246, 'grad_norm': 0.2320125252008438, 'learning_rate': 9.755282581475769e-06, 'ppl': 18.6268, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.53, 'total_tokens': 3958607, 'epoch': 0.12}
 12%|█████████▋                                                                    | 42/338 [57:51<5:53:46, 71.71s/it] 13%|█████████▉                                                                    | 43/338 [59:01<5:50:43, 71.33s/it]                                                                                                                      {'loss': 3.0089, 'grad_norm': 0.23693735897541046, 'learning_rate': 9.740358145174999e-06, 'ppl': 20.2651, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.01, 'total_tokens': 4022937, 'epoch': 0.13}
 13%|█████████▉                                                                    | 43/338 [59:01<5:50:43, 71.33s/it] 13%|█████████▉                                                                  | 44/338 [1:00:13<5:50:53, 71.61s/it]                                                                                                                      {'loss': 3.1005, 'grad_norm': 0.2369757890701294, 'learning_rate': 9.725004093573343e-06, 'ppl': 22.2091, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.75, 'total_tokens': 4088473, 'epoch': 0.13}
 13%|█████████▉                                                                  | 44/338 [1:00:13<5:50:53, 71.61s/it] 13%|██████████                                                                  | 45/338 [1:01:25<5:49:36, 71.59s/it]                                                                                                                      {'loss': 2.7568, 'grad_norm': 0.38122549653053284, 'learning_rate': 9.709221818197626e-06, 'ppl': 15.7494, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.0, 'total_tokens': 4154009, 'epoch': 0.13}
 13%|██████████                                                                  | 45/338 [1:01:25<5:49:36, 71.59s/it] 14%|██████████▎                                                                 | 46/338 [1:02:37<5:49:32, 71.82s/it]                                                                                                                      {'loss': 3.0549, 'grad_norm': 0.20783257484436035, 'learning_rate': 9.69301274938428e-06, 'ppl': 21.2191, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 212.9, 'total_tokens': 4217586, 'epoch': 0.14}
 14%|██████████▎                                                                 | 46/338 [1:02:37<5:49:32, 71.82s/it] 14%|██████████▌                                                                 | 47/338 [1:03:49<5:48:06, 71.78s/it]                                                                                                                      {'loss': 2.8418, 'grad_norm': 0.1992347687482834, 'learning_rate': 9.676378356149733e-06, 'ppl': 17.1466, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.64, 'total_tokens': 4283122, 'epoch': 0.14}
 14%|██████████▌                                                                 | 47/338 [1:03:49<5:48:06, 71.78s/it] 14%|██████████▊                                                                 | 48/338 [1:05:01<5:47:46, 71.95s/it]                                                                                                                      {'loss': 3.0738, 'grad_norm': 0.2006000429391861, 'learning_rate': 9.659320146057263e-06, 'ppl': 21.6239, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.4, 'total_tokens': 4348658, 'epoch': 0.14}
 14%|██████████▊                                                                 | 48/338 [1:05:01<5:47:46, 71.95s/it] 14%|███████████                                                                 | 49/338 [1:06:13<5:46:19, 71.90s/it]                                                                                                                      {'loss': 2.7887, 'grad_norm': 0.23677094280719757, 'learning_rate': 9.641839665080363e-06, 'ppl': 16.2599, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.28, 'total_tokens': 4414194, 'epoch': 0.14}
 14%|███████████                                                                 | 49/338 [1:06:13<5:46:19, 71.90s/it] 15%|███████████▏                                                                | 50/338 [1:07:24<5:43:59, 71.67s/it]                                                                                                                      {'loss': 2.8881, 'grad_norm': 0.18895985186100006, 'learning_rate': 9.623938497462647e-06, 'ppl': 17.9592, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 216.24, 'total_tokens': 4477717, 'epoch': 0.15}
 15%|███████████▏                                                                | 50/338 [1:07:24<5:43:59, 71.67s/it] 15%|███████████▍                                                                | 51/338 [1:08:36<5:42:42, 71.65s/it]                                                                                                                      {'loss': 2.8071, 'grad_norm': 0.31583914160728455, 'learning_rate': 9.60561826557425e-06, 'ppl': 16.5618, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.86, 'total_tokens': 4543253, 'epoch': 0.15}
 15%|███████████▍                                                                | 51/338 [1:08:36<5:42:42, 71.65s/it] 15%|███████████▋                                                                | 52/338 [1:09:48<5:42:06, 71.77s/it]                                                                                                                      {'loss': 2.9821, 'grad_norm': 0.19639703631401062, 'learning_rate': 9.586880629764817e-06, 'ppl': 19.7292, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.37, 'total_tokens': 4608789, 'epoch': 0.15}
 15%|███████████▋                                                                | 52/338 [1:09:48<5:42:06, 71.77s/it] 16%|███████████▉                                                                | 53/338 [1:11:00<5:40:47, 71.75s/it]                                                                                                                      {'loss': 2.677, 'grad_norm': 0.18836331367492676, 'learning_rate': 9.567727288213005e-06, 'ppl': 14.5414, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.62, 'total_tokens': 4674325, 'epoch': 0.16}
 16%|███████████▉                                                                | 53/338 [1:11:00<5:40:47, 71.75s/it] 16%|████████████▏                                                               | 54/338 [1:12:12<5:40:28, 71.93s/it]                                                                                                                      {'loss': 2.6311, 'grad_norm': 0.24198618531227112, 'learning_rate': 9.548159976772593e-06, 'ppl': 13.889, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.42, 'total_tokens': 4739861, 'epoch': 0.16}
 16%|████████████▏                                                               | 54/338 [1:12:12<5:40:28, 71.93s/it] 16%|████████████▎                                                               | 55/338 [1:13:24<5:39:18, 71.94s/it]                                                                                                                      {'loss': 3.3382, 'grad_norm': 0.17981700599193573, 'learning_rate': 9.528180468815155e-06, 'ppl': 28.1684, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.72, 'total_tokens': 4805397, 'epoch': 0.16}
 16%|████████████▎                                                               | 55/338 [1:13:24<5:39:18, 71.94s/it] 17%|████████████▌                                                               | 56/338 [1:14:36<5:38:41, 72.06s/it]                                                                                                                      {'loss': 2.8245, 'grad_norm': 0.21517068147659302, 'learning_rate': 9.507790575069347e-06, 'ppl': 16.8525, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.45, 'total_tokens': 4870933, 'epoch': 0.17}
 17%|████████████▌                                                               | 56/338 [1:14:36<5:38:41, 72.06s/it] 17%|████████████▊                                                               | 57/338 [1:15:48<5:36:52, 71.93s/it]                                                                                                                      {'loss': 2.6257, 'grad_norm': 0.2351093739271164, 'learning_rate': 9.486992143456792e-06, 'ppl': 13.8142, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.76, 'total_tokens': 4936469, 'epoch': 0.17}
 17%|████████████▊                                                               | 57/338 [1:15:48<5:36:52, 71.93s/it] 17%|█████████████                                                               | 58/338 [1:17:00<5:36:22, 72.08s/it]                                                                                                                      {'loss': 3.0282, 'grad_norm': 0.17143136262893677, 'learning_rate': 9.46578705892462e-06, 'ppl': 20.66, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.23, 'total_tokens': 5002005, 'epoch': 0.17}
 17%|█████████████                                                               | 58/338 [1:17:00<5:36:22, 72.08s/it] 17%|█████████████▎                                                              | 59/338 [1:18:12<5:34:57, 72.03s/it]                                                                                                                      {'loss': 2.8805, 'grad_norm': 0.17604584991931915, 'learning_rate': 9.444177243274619e-06, 'ppl': 17.8232, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.82, 'total_tokens': 5067541, 'epoch': 0.17}
 17%|█████████████▎                                                              | 59/338 [1:18:12<5:34:57, 72.03s/it] 18%|█████████████▍                                                              | 60/338 [1:19:25<5:34:53, 72.28s/it]                                                                                                                      {'loss': 2.7696, 'grad_norm': 0.188795804977417, 'learning_rate': 9.422164654989073e-06, 'ppl': 15.9523, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.9, 'total_tokens': 5133077, 'epoch': 0.18}
 18%|█████████████▍                                                              | 60/338 [1:19:25<5:34:53, 72.28s/it] 18%|█████████████▋                                                              | 61/338 [1:20:37<5:33:04, 72.15s/it]                                                                                                                      {'loss': 2.645, 'grad_norm': 0.1941455602645874, 'learning_rate': 9.399751289053267e-06, 'ppl': 14.0834, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.09, 'total_tokens': 5198613, 'epoch': 0.18}
 18%|█████████████▋                                                              | 61/338 [1:20:37<5:33:04, 72.15s/it] 18%|█████████████▉                                                              | 62/338 [1:21:49<5:31:53, 72.15s/it]                                                                                                                      {'loss': 3.2332, 'grad_norm': 0.18219973146915436, 'learning_rate': 9.376939176774678e-06, 'ppl': 25.3607, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.09, 'total_tokens': 5264149, 'epoch': 0.18}
 18%|█████████████▉                                                              | 62/338 [1:21:49<5:31:53, 72.15s/it] 19%|██████████████▏                                                             | 63/338 [1:23:01<5:29:50, 71.97s/it]                                                                                                                      {'loss': 2.9459, 'grad_norm': 0.16623371839523315, 'learning_rate': 9.353730385598887e-06, 'ppl': 19.0278, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.03, 'total_tokens': 5329685, 'epoch': 0.19}
 19%|██████████████▏                                                             | 63/338 [1:23:01<5:29:50, 71.97s/it] 19%|██████████████▍                                                             | 64/338 [1:24:13<5:29:14, 72.10s/it]                                                                                                                      {'loss': 2.7229, 'grad_norm': 0.165604829788208, 'learning_rate': 9.330127018922195e-06, 'ppl': 15.2244, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.3, 'total_tokens': 5395221, 'epoch': 0.19}
 19%|██████████████▍                                                             | 64/338 [1:24:13<5:29:14, 72.10s/it] 19%|██████████████▌                                                             | 65/338 [1:25:25<5:27:20, 71.94s/it]                                                                                                                      {'loss': 2.9738, 'grad_norm': 0.18388284742832184, 'learning_rate': 9.306131215901004e-06, 'ppl': 19.5661, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.89, 'total_tokens': 5460757, 'epoch': 0.19}
 19%|██████████████▌                                                             | 65/338 [1:25:25<5:27:20, 71.94s/it] 20%|██████████████▊                                                             | 66/338 [1:26:37<5:26:47, 72.09s/it]                                                                                                                      {'loss': 3.0429, 'grad_norm': 0.1918652355670929, 'learning_rate': 9.281745151257946e-06, 'ppl': 20.966, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.26, 'total_tokens': 5526293, 'epoch': 0.19}
 20%|██████████████▊                                                             | 66/338 [1:26:37<5:26:47, 72.09s/it] 20%|███████████████                                                             | 67/338 [1:27:49<5:25:17, 72.02s/it]                                                                                                                      {'loss': 2.8861, 'grad_norm': 0.16692496836185455, 'learning_rate': 9.256971035084786e-06, 'ppl': 17.9233, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.99, 'total_tokens': 5591829, 'epoch': 0.2}
 20%|███████████████                                                             | 67/338 [1:27:49<5:25:17, 72.02s/it] 20%|███████████████▎                                                            | 68/338 [1:29:02<5:25:27, 72.33s/it]                                                                                                                      {'loss': 3.0222, 'grad_norm': 0.18541084229946136, 'learning_rate': 9.231811112642121e-06, 'ppl': 20.5364, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.34, 'total_tokens': 5657365, 'epoch': 0.2}
 20%|███████████████▎                                                            | 68/338 [1:29:02<5:25:27, 72.33s/it][2026-01-11 05:57:34,389] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:4935] Running evaluation step...
[2026-01-11 05:57:35,858] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7300283908843994
[2026-01-11 05:57:36,596] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7384293079376221
[2026-01-11 05:57:37,324] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7273542881011963
[2026-01-11 05:57:38,059] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.734870433807373
[2026-01-11 05:57:38,060] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:4935] gather_len_batches: [19, 19]

  0%|                                                                                          | 0/19 [00:00<?, ?it/s][A
 11%|████████▋                                                                         | 2/19 [00:20<02:54, 10.24s/it][A
 16%|████████████▉                                                                     | 3/19 [00:42<04:01, 15.09s/it][A
 21%|█████████████████▎                                                                | 4/19 [01:04<04:24, 17.62s/it][A
 26%|█████████████████████▌                                                            | 5/19 [01:26<04:27, 19.09s/it][A
 32%|█████████████████████████▉                                                        | 6/19 [01:47<04:19, 19.99s/it][A
 37%|██████████████████████████████▏                                                   | 7/19 [02:09<04:07, 20.60s/it][A
 42%|██████████████████████████████████▌                                               | 8/19 [02:31<03:51, 21.00s/it][A
 47%|██████████████████████████████████████▊                                           | 9/19 [02:53<03:32, 21.28s/it][A
 53%|██████████████████████████████████████████▋                                      | 10/19 [03:14<03:10, 21.16s/it][A
 58%|██████████████████████████████████████████████▉                                  | 11/19 [03:36<02:50, 21.36s/it][A
 63%|███████████████████████████████████████████████████▏                             | 12/19 [03:58<02:30, 21.49s/it][A
 68%|███████████████████████████████████████████████████████▍                         | 13/19 [04:19<02:09, 21.58s/it][A
 74%|███████████████████████████████████████████████████████████▋                     | 14/19 [04:41<01:48, 21.64s/it][A
 79%|███████████████████████████████████████████████████████████████▉                 | 15/19 [05:03<01:26, 21.70s/it][A
 84%|████████████████████████████████████████████████████████████████████▏            | 16/19 [05:25<01:05, 21.74s/it][A
 89%|████████████████████████████████████████████████████████████████████████▍        | 17/19 [05:47<00:43, 21.77s/it][A
 95%|████████████████████████████████████████████████████████████████████████████▋    | 18/19 [06:08<00:21, 21.77s/it][A
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:30<00:00, 21.81s/it][A                                                                                                                      
                                                                                                                      [A{'eval_loss': 1.298670768737793, 'eval_runtime': 414.2834, 'eval_samples_per_second': 0.048, 'eval_steps_per_second': 0.024, 'eval_ppl': 3.6644, 'memory/max_active (GiB)': 6.5, 'memory/max_allocated (GiB)': 6.5, 'memory/device_reserved (GiB)': 14.39, 'epoch': 0.2}
 20%|███████████████▎                                                            | 68/338 [1:36:00<5:25:27, 72.33s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:31<00:00, 21.81s/it][A
                                                                                                                      [A 20%|███████████████                                                           | 69/338 [1:37:10<14:44:09, 197.21s/it]                                                                                                                      {'loss': 2.9016, 'grad_norm': 0.16243231296539307, 'learning_rate': 9.206267664155906e-06, 'ppl': 18.2032, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.28, 'total_tokens': 6935900, 'epoch': 0.2}
 20%|███████████████                                                           | 69/338 [1:37:10<14:44:09, 197.21s/it] 21%|███████████████▎                                                          | 70/338 [1:38:23<11:54:01, 159.86s/it]                                                                                                                      {'loss': 2.8713, 'grad_norm': 0.175286203622818, 'learning_rate': 9.18034300461078e-06, 'ppl': 17.66, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.05, 'total_tokens': 7001436, 'epoch': 0.21}
 21%|███████████████▎                                                          | 70/338 [1:38:23<11:54:01, 159.86s/it] 21%|███████████████▊                                                           | 71/338 [1:39:35<9:53:28, 133.37s/it]                                                                                                                      {'loss': 2.6218, 'grad_norm': 0.1551980972290039, 'learning_rate': 9.154039483540273e-06, 'ppl': 13.7605, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.98, 'total_tokens': 7066972, 'epoch': 0.21}
 21%|███████████████▊                                                           | 71/338 [1:39:35<9:53:28, 133.37s/it] 21%|███████████████▉                                                           | 72/338 [1:40:47<8:29:41, 114.97s/it]                                                                                                                      {'loss': 2.8684, 'grad_norm': 0.14426471292972565, 'learning_rate': 9.12735948481387e-06, 'ppl': 17.6088, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.44, 'total_tokens': 7132508, 'epoch': 0.21}
 21%|███████████████▉                                                           | 72/338 [1:40:47<8:29:41, 114.97s/it] 22%|████████████████▏                                                          | 73/338 [1:41:58<7:30:21, 101.97s/it]                                                                                                                      {'loss': 3.0944, 'grad_norm': 0.15909798443317413, 'learning_rate': 9.100305426420957e-06, 'ppl': 22.074, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.74, 'total_tokens': 7198044, 'epoch': 0.22}
 22%|████████████████▏                                                          | 73/338 [1:41:58<7:30:21, 101.97s/it] 22%|████████████████▋                                                           | 74/338 [1:43:11<6:49:27, 93.06s/it]                                                                                                                      {'loss': 3.3335, 'grad_norm': 0.17637574672698975, 'learning_rate': 9.07287976025168e-06, 'ppl': 28.0363, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.72, 'total_tokens': 7263580, 'epoch': 0.22}
 22%|████████████████▋                                                           | 74/338 [1:43:11<6:49:27, 93.06s/it] 22%|████████████████▊                                                           | 75/338 [1:44:22<6:19:52, 86.66s/it]                                                                                                                      {'loss': 2.694, 'grad_norm': 0.17073795199394226, 'learning_rate': 9.045084971874738e-06, 'ppl': 14.7907, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.39, 'total_tokens': 7329116, 'epoch': 0.22}
 22%|████████████████▊                                                           | 75/338 [1:44:22<6:19:52, 86.66s/it] 22%|█████████████████                                                           | 76/338 [1:45:35<5:59:30, 82.33s/it]                                                                                                                      {'loss': 2.662, 'grad_norm': 0.16730886697769165, 'learning_rate': 9.016923580312114e-06, 'ppl': 14.3249, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.89, 'total_tokens': 7394652, 'epoch': 0.22}
 22%|█████████████████                                                           | 76/338 [1:45:35<5:59:30, 82.33s/it] 23%|█████████████████▎                                                          | 77/338 [1:46:46<5:44:23, 79.17s/it]                                                                                                                      {'loss': 2.7264, 'grad_norm': 0.15312080085277557, 'learning_rate': 8.988398137810778e-06, 'ppl': 15.2778, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.2, 'total_tokens': 7460188, 'epoch': 0.23}
 23%|█████████████████▎                                                          | 77/338 [1:46:46<5:44:23, 79.17s/it] 23%|█████████████████▌                                                          | 78/338 [1:47:59<5:34:21, 77.16s/it]                                                                                                                      {'loss': 2.9342, 'grad_norm': 0.14288510382175446, 'learning_rate': 8.959511229611377e-06, 'ppl': 18.8065, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.12, 'total_tokens': 7525724, 'epoch': 0.23}
 23%|█████████████████▌                                                          | 78/338 [1:47:59<5:34:21, 77.16s/it] 23%|█████████████████▊                                                          | 79/338 [1:49:10<5:25:50, 75.49s/it]                                                                                                                      {'loss': 2.8065, 'grad_norm': 0.1561875194311142, 'learning_rate': 8.930265473713939e-06, 'ppl': 16.5519, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.9, 'total_tokens': 7591260, 'epoch': 0.23}
 23%|█████████████████▊                                                          | 79/338 [1:49:10<5:25:50, 75.49s/it] 24%|█████████████████▉                                                          | 80/338 [1:50:23<5:21:11, 74.70s/it]                                                                                                                      {'loss': 2.9206, 'grad_norm': 0.1491188257932663, 'learning_rate': 8.900663520640605e-06, 'ppl': 18.5524, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.9, 'total_tokens': 7656796, 'epoch': 0.24}
 24%|█████████████████▉                                                          | 80/338 [1:50:23<5:21:11, 74.70s/it] 24%|██████████████████▏                                                         | 81/338 [1:51:35<5:16:17, 73.84s/it]                                                                                                                      {'loss': 3.0028, 'grad_norm': 0.14411136507987976, 'learning_rate': 8.870708053195414e-06, 'ppl': 20.1419, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.03, 'total_tokens': 7722332, 'epoch': 0.24}
 24%|██████████████████▏                                                         | 81/338 [1:51:35<5:16:17, 73.84s/it] 24%|██████████████████▍                                                         | 82/338 [1:52:47<5:12:52, 73.33s/it]                                                                                                                      {'loss': 3.1449, 'grad_norm': 0.15041935443878174, 'learning_rate': 8.84040178622116e-06, 'ppl': 23.2174, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.14, 'total_tokens': 7787868, 'epoch': 0.24}
 24%|██████████████████▍                                                         | 82/338 [1:52:47<5:12:52, 73.33s/it] 25%|██████████████████▋                                                         | 83/338 [1:53:59<5:09:23, 72.80s/it]                                                                                                                      {'loss': 2.6082, 'grad_norm': 0.14693528413772583, 'learning_rate': 8.809747466353356e-06, 'ppl': 13.5746, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.0, 'total_tokens': 7853404, 'epoch': 0.25}
 25%|██████████████████▋                                                         | 83/338 [1:53:59<5:09:23, 72.80s/it] 25%|██████████████████▉                                                         | 84/338 [1:55:10<5:05:49, 72.24s/it]                                                                                                                      {'loss': 2.8951, 'grad_norm': 0.14893221855163574, 'learning_rate': 8.778747871771293e-06, 'ppl': 18.0853, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.33, 'total_tokens': 7918569, 'epoch': 0.25}
 25%|██████████████████▉                                                         | 84/338 [1:55:10<5:05:49, 72.24s/it] 25%|███████████████████                                                         | 85/338 [1:56:21<5:03:51, 72.06s/it]                                                                                                                      {'loss': 3.0686, 'grad_norm': 0.17386305332183838, 'learning_rate': 8.747405811946272e-06, 'ppl': 21.5118, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.73, 'total_tokens': 7984105, 'epoch': 0.25}
 25%|███████████████████                                                         | 85/338 [1:56:21<5:03:51, 72.06s/it] 25%|███████████████████▎                                                        | 86/338 [1:57:33<5:02:29, 72.02s/it]                                                                                                                      {'loss': 2.7466, 'grad_norm': 0.13894763588905334, 'learning_rate': 8.715724127386971e-06, 'ppl': 15.5895, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.79, 'total_tokens': 8049641, 'epoch': 0.25}
 25%|███████████████████▎                                                        | 86/338 [1:57:33<5:02:29, 72.02s/it] 26%|███████████████████▌                                                        | 87/338 [1:58:45<5:00:46, 71.90s/it]                                                                                                                      {'loss': 2.7069, 'grad_norm': 0.14163602888584137, 'learning_rate': 8.683705689382025e-06, 'ppl': 14.9828, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.8, 'total_tokens': 8115177, 'epoch': 0.26}
 26%|███████████████████▌                                                        | 87/338 [1:58:45<5:00:46, 71.90s/it] 26%|███████████████████▊                                                        | 88/338 [1:59:57<5:00:19, 72.08s/it]                                                                                                                      {'loss': 2.7536, 'grad_norm': 0.15897536277770996, 'learning_rate': 8.651353399739787e-06, 'ppl': 15.699, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.01, 'total_tokens': 8180713, 'epoch': 0.26}
 26%|███████████████████▊                                                        | 88/338 [1:59:57<5:00:19, 72.08s/it] 26%|████████████████████                                                        | 89/338 [2:01:09<4:58:46, 71.99s/it]                                                                                                                      {'loss': 3.0862, 'grad_norm': 0.16001924872398376, 'learning_rate': 8.61867019052535e-06, 'ppl': 21.8937, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.03, 'total_tokens': 8245792, 'epoch': 0.26}
 26%|████████████████████                                                        | 89/338 [2:01:09<4:58:46, 71.99s/it] 27%|████████████████████▏                                                       | 90/338 [2:02:22<4:58:42, 72.27s/it]                                                                                                                      {'loss': 2.6563, 'grad_norm': 0.14221110939979553, 'learning_rate': 8.585659023794818e-06, 'ppl': 14.2435, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.73, 'total_tokens': 8311328, 'epoch': 0.27}
 27%|████████████████████▏                                                       | 90/338 [2:02:22<4:58:42, 72.27s/it] 27%|████████████████████▍                                                       | 91/338 [2:03:34<4:56:37, 72.05s/it]                                                                                                                      {'loss': 2.594, 'grad_norm': 0.1435030996799469, 'learning_rate': 8.552322891326846e-06, 'ppl': 13.3832, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.99, 'total_tokens': 8376864, 'epoch': 0.27}
 27%|████████████████████▍                                                       | 91/338 [2:03:34<4:56:37, 72.05s/it] 27%|████████████████████▋                                                       | 92/338 [2:04:44<4:53:40, 71.63s/it]                                                                                                                      {'loss': 3.3577, 'grad_norm': 0.34303921461105347, 'learning_rate': 8.518664814351502e-06, 'ppl': 28.7231, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.44, 'total_tokens': 8442044, 'epoch': 0.27}
 27%|████████████████████▋                                                       | 92/338 [2:04:44<4:53:40, 71.63s/it] 28%|████████████████████▉                                                       | 93/338 [2:05:56<4:52:23, 71.61s/it]                                                                                                                      {'loss': 2.7466, 'grad_norm': 0.13270285725593567, 'learning_rate': 8.48468784327647e-06, 'ppl': 15.5895, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.0, 'total_tokens': 8507580, 'epoch': 0.27}
 28%|████████████████████▉                                                       | 93/338 [2:05:56<4:52:23, 71.61s/it] 28%|█████████████████████▏                                                      | 94/338 [2:07:08<4:52:00, 71.80s/it]                                                                                                                      {'loss': 3.0757, 'grad_norm': 0.13454239070415497, 'learning_rate': 8.450395057410561e-06, 'ppl': 21.665, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.73, 'total_tokens': 8573116, 'epoch': 0.28}
 28%|█████████████████████▏                                                      | 94/338 [2:07:08<4:52:00, 71.80s/it] 28%|█████████████████████▎                                                      | 95/338 [2:08:20<4:50:28, 71.72s/it]                                                                                                                      {'loss': 2.8555, 'grad_norm': 0.13232453167438507, 'learning_rate': 8.415789564684673e-06, 'ppl': 17.3831, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.16, 'total_tokens': 8637949, 'epoch': 0.28}
 28%|█████████████████████▎                                                      | 95/338 [2:08:20<4:50:28, 71.72s/it] 28%|█████████████████████▌                                                      | 96/338 [2:09:32<4:50:04, 71.92s/it]                                                                                                                      {'loss': 2.7117, 'grad_norm': 0.14104104042053223, 'learning_rate': 8.380874501370098e-06, 'ppl': 15.0548, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.4, 'total_tokens': 8703485, 'epoch': 0.28}
 28%|█████████████████████▌                                                      | 96/338 [2:09:32<4:50:04, 71.92s/it] 29%|█████████████████████▊                                                      | 97/338 [2:10:43<4:47:26, 71.56s/it]                                                                                                                      {'loss': 2.751, 'grad_norm': 0.15328742563724518, 'learning_rate': 8.345653031794292e-06, 'ppl': 15.6583, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 213.96, 'total_tokens': 8766521, 'epoch': 0.29}
 29%|█████████████████████▊                                                      | 97/338 [2:10:43<4:47:26, 71.56s/it] 29%|██████████████████████                                                      | 98/338 [2:11:54<4:45:41, 71.42s/it]                                                                                                                      {'loss': 2.9628, 'grad_norm': 0.13452503085136414, 'learning_rate': 8.310128348054093e-06, 'ppl': 19.3521, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.32, 'total_tokens': 8831184, 'epoch': 0.29}
 29%|██████████████████████                                                      | 98/338 [2:11:54<4:45:41, 71.42s/it] 29%|██████████████████████▎                                                     | 99/338 [2:13:06<4:44:42, 71.48s/it]                                                                                                                      {'loss': 2.7725, 'grad_norm': 0.1312471479177475, 'learning_rate': 8.274303669726427e-06, 'ppl': 15.9986, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.84, 'total_tokens': 8896720, 'epoch': 0.29}
 29%|██████████████████████▎                                                     | 99/338 [2:13:06<4:44:42, 71.48s/it] 30%|██████████████████████▏                                                    | 100/338 [2:14:18<4:45:16, 71.92s/it]                                                                                                                      {'loss': 3.1416, 'grad_norm': 0.15136092901229858, 'learning_rate': 8.238182243576512e-06, 'ppl': 23.1409, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.6, 'total_tokens': 8962256, 'epoch': 0.3}
 30%|██████████████████████▏                                                    | 100/338 [2:14:19<4:45:16, 71.92s/it] 30%|██████████████████████▍                                                    | 101/338 [2:15:30<4:43:46, 71.84s/it]                                                                                                                      {'loss': 2.3887, 'grad_norm': 0.13461428880691528, 'learning_rate': 8.201767343263612e-06, 'ppl': 10.8993, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.67, 'total_tokens': 9027792, 'epoch': 0.3}
 30%|██████████████████████▍                                                    | 101/338 [2:15:30<4:43:46, 71.84s/it] 30%|██████████████████████▋                                                    | 102/338 [2:16:42<4:42:42, 71.87s/it]                                                                                                                      {'loss': 2.9568, 'grad_norm': 0.17798148095607758, 'learning_rate': 8.165062269044353e-06, 'ppl': 19.2363, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.73, 'total_tokens': 9093328, 'epoch': 0.3}
 30%|██████████████████████▋                                                    | 102/338 [2:16:42<4:42:42, 71.87s/it] 30%|██████████████████████▊                                                    | 103/338 [2:17:54<4:41:09, 71.79s/it]                                                                                                                      {'loss': 2.8399, 'grad_norm': 0.23798128962516785, 'learning_rate': 8.128070347473609e-06, 'ppl': 17.1141, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.89, 'total_tokens': 9158864, 'epoch': 0.3}
 30%|██████████████████████▊                                                    | 103/338 [2:17:54<4:41:09, 71.79s/it] 31%|███████████████████████                                                    | 104/338 [2:19:06<4:40:40, 71.97s/it]                                                                                                                      {'loss': 2.708, 'grad_norm': 0.13072851300239563, 'learning_rate': 8.090794931103026e-06, 'ppl': 14.9992, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 218.91, 'total_tokens': 9223322, 'epoch': 0.31}
 31%|███████████████████████                                                    | 104/338 [2:19:06<4:40:40, 71.97s/it] 31%|███████████████████████▎                                                   | 105/338 [2:20:18<4:38:56, 71.83s/it]                                                                                                                      {'loss': 2.7633, 'grad_norm': 0.18674336373806, 'learning_rate': 8.053239398177191e-06, 'ppl': 15.8521, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.13, 'total_tokens': 9288858, 'epoch': 0.31}
 31%|███████████████████████▎                                                   | 105/338 [2:20:18<4:38:56, 71.83s/it] 31%|███████████████████████▌                                                   | 106/338 [2:21:30<4:38:15, 71.96s/it]                                                                                                                      {'loss': 2.4667, 'grad_norm': 0.13322743773460388, 'learning_rate': 8.015407152327448e-06, 'ppl': 11.7835, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.7, 'total_tokens': 9354394, 'epoch': 0.31}
 31%|███████████████████████▌                                                   | 106/338 [2:21:30<4:38:15, 71.96s/it] 32%|███████████████████████▋                                                   | 107/338 [2:22:41<4:36:36, 71.85s/it]                                                                                                                      {'loss': 2.752, 'grad_norm': 0.1395399421453476, 'learning_rate': 7.97730162226344e-06, 'ppl': 15.6739, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.94, 'total_tokens': 9419930, 'epoch': 0.32}
 32%|███████████████████████▋                                                   | 107/338 [2:22:41<4:36:36, 71.85s/it] 32%|███████████████████████▉                                                   | 108/338 [2:23:54<4:36:13, 72.06s/it]                                                                                                                      {'loss': 3.0719, 'grad_norm': 0.13044564425945282, 'learning_rate': 7.938926261462366e-06, 'ppl': 21.5829, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.83, 'total_tokens': 9485466, 'epoch': 0.32}
 32%|███████████████████████▉                                                   | 108/338 [2:23:54<4:36:13, 72.06s/it] 32%|████████████████████████▏                                                  | 109/338 [2:25:06<4:34:46, 71.99s/it]                                                                                                                      {'loss': 2.6759, 'grad_norm': 0.12177298218011856, 'learning_rate': 7.900284547855992e-06, 'ppl': 14.5254, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.08, 'total_tokens': 9551002, 'epoch': 0.32}
 32%|████████████████████████▏                                                  | 109/338 [2:25:06<4:34:46, 71.99s/it] 33%|████████████████████████▍                                                  | 110/338 [2:26:19<4:34:28, 72.23s/it]                                                                                                                      {'loss': 2.5884, 'grad_norm': 0.11782407015562057, 'learning_rate': 7.861379983515449e-06, 'ppl': 13.3085, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.13, 'total_tokens': 9616538, 'epoch': 0.32}
 33%|████████████████████████▍                                                  | 110/338 [2:26:19<4:34:28, 72.23s/it] 33%|████████████████████████▋                                                  | 111/338 [2:27:30<4:32:32, 72.04s/it]                                                                                                                      {'loss': 2.7894, 'grad_norm': 0.11786406487226486, 'learning_rate': 7.822216094333847e-06, 'ppl': 16.2713, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.88, 'total_tokens': 9682074, 'epoch': 0.33}
 33%|████████████████████████▋                                                  | 111/338 [2:27:30<4:32:32, 72.04s/it] 33%|████████████████████████▊                                                  | 112/338 [2:28:42<4:31:21, 72.04s/it]                                                                                                                      {'loss': 2.609, 'grad_norm': 0.11339456588029861, 'learning_rate': 7.782796429706721e-06, 'ppl': 13.5855, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.38, 'total_tokens': 9747610, 'epoch': 0.33}
 33%|████████████████████████▊                                                  | 112/338 [2:28:42<4:31:21, 72.04s/it] 33%|█████████████████████████                                                  | 113/338 [2:29:52<4:27:43, 71.39s/it]                                                                                                                      {'loss': 2.6841, 'grad_norm': 0.17164303362369537, 'learning_rate': 7.743124562210351e-06, 'ppl': 14.645, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 234.08, 'total_tokens': 9813088, 'epoch': 0.33}
 33%|█████████████████████████                                                  | 113/338 [2:29:52<4:27:43, 71.39s/it] 34%|█████████████████████████▎                                                 | 114/338 [2:31:05<4:27:42, 71.71s/it]                                                                                                                      {'loss': 2.5969, 'grad_norm': 0.10926224291324615, 'learning_rate': 7.703204087277989e-06, 'ppl': 13.4221, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.18, 'total_tokens': 9878624, 'epoch': 0.34}
 34%|█████████████████████████▎                                                 | 114/338 [2:31:05<4:27:42, 71.71s/it] 34%|█████████████████████████▌                                                 | 115/338 [2:32:16<4:26:23, 71.68s/it]                                                                                                                      {'loss': 2.7019, 'grad_norm': 0.11954577267169952, 'learning_rate': 7.663038622873999e-06, 'ppl': 14.908, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.84, 'total_tokens': 9944160, 'epoch': 0.34}
 34%|█████████████████████████▌                                                 | 115/338 [2:32:16<4:26:23, 71.68s/it] 34%|█████████████████████████▋                                                 | 116/338 [2:33:29<4:26:04, 71.91s/it]                                                                                                                      {'loss': 2.4266, 'grad_norm': 0.12122542411088943, 'learning_rate': 7.622631809165972e-06, 'ppl': 11.3203, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.11, 'total_tokens': 10009696, 'epoch': 0.34}
 34%|█████████████████████████▋                                                 | 116/338 [2:33:29<4:26:04, 71.91s/it] 35%|█████████████████████████▉                                                 | 117/338 [2:34:40<4:24:33, 71.83s/it]                                                                                                                      {'loss': 2.5257, 'grad_norm': 0.12908460199832916, 'learning_rate': 7.5819873081948105e-06, 'ppl': 12.4996, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 216.33, 'total_tokens': 10073454, 'epoch': 0.35}
 35%|█████████████████████████▉                                                 | 117/338 [2:34:40<4:24:33, 71.83s/it] 35%|██████████████████████████▏                                                | 118/338 [2:35:53<4:24:03, 72.01s/it]                                                                                                                      {'loss': 3.0742, 'grad_norm': 0.12176456302404404, 'learning_rate': 7.541108803542846e-06, 'ppl': 21.6326, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.16, 'total_tokens': 10138990, 'epoch': 0.35}
 35%|██████████████████████████▏                                                | 118/338 [2:35:53<4:24:03, 72.01s/it] 35%|██████████████████████████▍                                                | 119/338 [2:37:05<4:22:40, 71.97s/it]                                                                                                                      {'loss': 3.0676, 'grad_norm': 0.1279924362897873, 'learning_rate': 7.500000000000001e-06, 'ppl': 21.4903, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.02, 'total_tokens': 10204526, 'epoch': 0.35}
 35%|██████████████████████████▍                                                | 119/338 [2:37:05<4:22:40, 71.97s/it] 36%|██████████████████████████▋                                                | 120/338 [2:38:17<4:22:24, 72.22s/it]                                                                                                                      {'loss': 3.0505, 'grad_norm': 0.11697081476449966, 'learning_rate': 7.45866462322802e-06, 'ppl': 21.1259, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.01, 'total_tokens': 10270062, 'epoch': 0.35}
 36%|██████████████████████████▋                                                | 120/338 [2:38:17<4:22:24, 72.22s/it] 36%|██████████████████████████▊                                                | 121/338 [2:39:29<4:20:31, 72.03s/it]                                                                                                                      {'loss': 2.697, 'grad_norm': 0.1250750869512558, 'learning_rate': 7.4171064194228196e-06, 'ppl': 14.8352, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.86, 'total_tokens': 10335598, 'epoch': 0.36}
 36%|██████████████████████████▊                                                | 121/338 [2:39:29<4:20:31, 72.03s/it] 36%|███████████████████████████                                                | 122/338 [2:40:41<4:19:17, 72.03s/it]                                                                                                                      {'loss': 2.7013, 'grad_norm': 0.16949720680713654, 'learning_rate': 7.3753291549749764e-06, 'ppl': 14.8991, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.54, 'total_tokens': 10401134, 'epoch': 0.36}
 36%|███████████████████████████                                                | 122/338 [2:40:41<4:19:17, 72.03s/it] 36%|███████████████████████████▎                                               | 123/338 [2:41:53<4:17:45, 71.93s/it]                                                                                                                      {'loss': 2.7451, 'grad_norm': 0.12452630698680878, 'learning_rate': 7.333336616128369e-06, 'ppl': 15.5662, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.46, 'total_tokens': 10466670, 'epoch': 0.36}
 36%|███████████████████████████▎                                               | 123/338 [2:41:53<4:17:45, 71.93s/it] 37%|███████████████████████████▌                                               | 124/338 [2:43:05<4:17:14, 72.12s/it]                                                                                                                      {'loss': 2.9266, 'grad_norm': 0.13031011819839478, 'learning_rate': 7.291132608637053e-06, 'ppl': 18.6641, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.79, 'total_tokens': 10532206, 'epoch': 0.37}
 37%|███████████████████████████▌                                               | 124/338 [2:43:05<4:17:14, 72.12s/it] 37%|███████████████████████████▋                                               | 125/338 [2:44:17<4:15:36, 72.00s/it]                                                                                                                      {'loss': 2.3252, 'grad_norm': 0.11243971437215805, 'learning_rate': 7.24872095742033e-06, 'ppl': 10.2287, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.46, 'total_tokens': 10597742, 'epoch': 0.37}
 37%|███████████████████████████▋                                               | 125/338 [2:44:17<4:15:36, 72.00s/it] 37%|███████████████████████████▉                                               | 126/338 [2:45:29<4:14:54, 72.14s/it]                                                                                                                      {'loss': 2.7663, 'grad_norm': 0.13475163280963898, 'learning_rate': 7.206105506216107e-06, 'ppl': 15.8997, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.08, 'total_tokens': 10663278, 'epoch': 0.37}
 37%|███████████████████████████▉                                               | 126/338 [2:45:29<4:14:54, 72.14s/it] 38%|████████████████████████████▏                                              | 127/338 [2:46:41<4:13:08, 71.98s/it]                                                                                                                      {'loss': 2.6526, 'grad_norm': 0.19259867072105408, 'learning_rate': 7.163290117232542e-06, 'ppl': 14.1909, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.83, 'total_tokens': 10728814, 'epoch': 0.38}
 38%|████████████████████████████▏                                              | 127/338 [2:46:41<4:13:08, 71.98s/it] 38%|████████████████████████████▍                                              | 128/338 [2:47:53<4:12:20, 72.10s/it]                                                                                                                      {'loss': 2.8719, 'grad_norm': 0.11550852656364441, 'learning_rate': 7.12027867079801e-06, 'ppl': 17.6706, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.39, 'total_tokens': 10794350, 'epoch': 0.38}
 38%|████████████████████████████▍                                              | 128/338 [2:47:53<4:12:20, 72.10s/it] 38%|████████████████████████████▌                                              | 129/338 [2:49:05<4:10:38, 71.95s/it]                                                                                                                      {'loss': 2.59, 'grad_norm': 0.11716978996992111, 'learning_rate': 7.0770750650094335e-06, 'ppl': 13.3298, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 217.54, 'total_tokens': 10858271, 'epoch': 0.38}
 38%|████████████████████████████▌                                              | 129/338 [2:49:05<4:10:38, 71.95s/it] 38%|████████████████████████████▊                                              | 130/338 [2:50:18<4:10:20, 72.22s/it]                                                                                                                      {'loss': 2.5448, 'grad_norm': 0.11892975121736526, 'learning_rate': 7.033683215379002e-06, 'ppl': 12.7407, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.99, 'total_tokens': 10923807, 'epoch': 0.38}
 38%|████████████████████████████▊                                              | 130/338 [2:50:18<4:10:20, 72.22s/it] 39%|█████████████████████████████                                              | 131/338 [2:51:29<4:08:27, 72.02s/it]                                                                                                                      {'loss': 2.467, 'grad_norm': 0.11929568648338318, 'learning_rate': 6.990107054479313e-06, 'ppl': 11.787, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 219.7, 'total_tokens': 10988014, 'epoch': 0.39}
 39%|█████████████████████████████                                              | 131/338 [2:51:29<4:08:27, 72.02s/it] 39%|█████████████████████████████▎                                             | 132/338 [2:52:41<4:07:10, 71.99s/it]                                                                                                                      {'loss': 2.4804, 'grad_norm': 0.14271114766597748, 'learning_rate': 6.946350531586959e-06, 'ppl': 11.946, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.78, 'total_tokens': 11053550, 'epoch': 0.39}
 39%|█████████████████████████████▎                                             | 132/338 [2:52:41<4:07:10, 71.99s/it] 39%|█████████████████████████████▌                                             | 133/338 [2:53:53<4:05:43, 71.92s/it]                                                                                                                      {'loss': 3.1574, 'grad_norm': 0.13875450193881989, 'learning_rate': 6.902417612324615e-06, 'ppl': 23.5094, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.36, 'total_tokens': 11119086, 'epoch': 0.39}
 39%|█████████████████████████████▌                                             | 133/338 [2:53:53<4:05:43, 71.92s/it] 40%|█████████████████████████████▋                                             | 134/338 [2:55:05<4:04:42, 71.97s/it]                                                                                                                      {'loss': 2.6759, 'grad_norm': 0.11624705046415329, 'learning_rate': 6.858312278301638e-06, 'ppl': 14.5254, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.24, 'total_tokens': 11184622, 'epoch': 0.4}
 40%|█████████████████████████████▋                                             | 134/338 [2:55:05<4:04:42, 71.97s/it] 40%|█████████████████████████████▉                                             | 135/338 [2:56:17<4:03:04, 71.85s/it]                                                                                                                      {'loss': 2.7066, 'grad_norm': 0.1133272796869278, 'learning_rate': 6.814038526753205e-06, 'ppl': 14.9783, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.26, 'total_tokens': 11249763, 'epoch': 0.4}
 40%|█████████████████████████████▉                                             | 135/338 [2:56:17<4:03:04, 71.85s/it] 40%|██████████████████████████████▏                                            | 136/338 [2:57:29<4:02:29, 72.03s/it]                                                                                                                      {'loss': 2.9242, 'grad_norm': 0.12814563512802124, 'learning_rate': 6.76960037017806e-06, 'ppl': 18.6193, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.13, 'total_tokens': 11315299, 'epoch': 0.4}
 40%|██████████████████████████████▏                                            | 136/338 [2:57:29<4:02:29, 72.03s/it][2026-01-11 07:26:01,755] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:4935] Running evaluation step...
[2026-01-11 07:26:03,209] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7280309200286865
[2026-01-11 07:26:03,946] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7367236614227295
[2026-01-11 07:26:04,685] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7395250797271729
[2026-01-11 07:26:05,434] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7486262321472168
[2026-01-11 07:26:05,435] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:4935] gather_len_batches: [19, 19]

  0%|                                                                                          | 0/19 [00:00<?, ?it/s][A
 11%|████████▋                                                                         | 2/19 [00:20<02:53, 10.23s/it][A
 16%|████████████▉                                                                     | 3/19 [00:42<04:01, 15.08s/it][A
 21%|█████████████████▎                                                                | 4/19 [01:04<04:24, 17.61s/it][A
 26%|█████████████████████▌                                                            | 5/19 [01:26<04:27, 19.10s/it][A
 32%|█████████████████████████▉                                                        | 6/19 [01:47<04:20, 20.01s/it][A
 37%|██████████████████████████████▏                                                   | 7/19 [02:09<04:07, 20.60s/it][A
 42%|██████████████████████████████████▌                                               | 8/19 [02:31<03:50, 20.97s/it][A
 47%|██████████████████████████████████████▊                                           | 9/19 [02:53<03:32, 21.24s/it][A
 53%|██████████████████████████████████████████▋                                      | 10/19 [03:14<03:09, 21.11s/it][A
 58%|██████████████████████████████████████████████▉                                  | 11/19 [03:36<02:50, 21.33s/it][A
 63%|███████████████████████████████████████████████████▏                             | 12/19 [03:57<02:30, 21.46s/it][A
 68%|███████████████████████████████████████████████████████▍                         | 13/19 [04:19<02:09, 21.57s/it][A
 74%|███████████████████████████████████████████████████████████▋                     | 14/19 [04:41<01:48, 21.64s/it][A
 79%|███████████████████████████████████████████████████████████████▉                 | 15/19 [05:03<01:26, 21.69s/it][A
 84%|████████████████████████████████████████████████████████████████████▏            | 16/19 [05:25<01:05, 21.72s/it][A
 89%|████████████████████████████████████████████████████████████████████████▍        | 17/19 [05:46<00:43, 21.75s/it][A
 95%|████████████████████████████████████████████████████████████████████████████▋    | 18/19 [06:08<00:21, 21.77s/it][A
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:30<00:00, 21.80s/it][A                                                                                                                      
                                                                                                                      [A{'eval_loss': 1.2742711305618286, 'eval_runtime': 414.0207, 'eval_samples_per_second': 0.048, 'eval_steps_per_second': 0.024, 'eval_ppl': 3.5761, 'memory/max_active (GiB)': 6.5, 'memory/max_allocated (GiB)': 6.5, 'memory/device_reserved (GiB)': 14.39, 'epoch': 0.4}
 40%|██████████████████████████████▏                                            | 136/338 [3:04:27<4:02:29, 72.03s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:30<00:00, 21.80s/it][A
                                                                                                                      [A 41%|█████████████████████████████▌                                           | 137/338 [3:05:38<11:00:28, 197.16s/it]                                                                                                                      {'loss': 2.3493, 'grad_norm': 0.14375466108322144, 'learning_rate': 6.725001835974854e-06, 'ppl': 10.4782, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.45, 'total_tokens': 12594915, 'epoch': 0.4}
 41%|█████████████████████████████▌                                           | 137/338 [3:05:38<11:00:28, 197.16s/it] 41%|██████████████████████████████▏                                           | 138/338 [3:06:51<8:52:11, 159.66s/it]                                                                                                                      {'loss': 3.0282, 'grad_norm': 0.13492687046527863, 'learning_rate': 6.680246966077151e-06, 'ppl': 20.66, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.77, 'total_tokens': 12660451, 'epoch': 0.41}
 41%|██████████████████████████████▏                                           | 138/338 [3:06:51<8:52:11, 159.66s/it] 41%|██████████████████████████████▍                                           | 139/338 [3:08:03<7:22:42, 133.48s/it]                                                                                                                      {'loss': 2.7914, 'grad_norm': 0.12627337872982025, 'learning_rate': 6.635339816587109e-06, 'ppl': 16.3038, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.29, 'total_tokens': 12725987, 'epoch': 0.41}
 41%|██████████████████████████████▍                                           | 139/338 [3:08:03<7:22:42, 133.48s/it] 41%|██████████████████████████████▋                                           | 140/338 [3:09:15<6:19:43, 115.07s/it]                                                                                                                      {'loss': 2.6809, 'grad_norm': 0.12357484549283981, 'learning_rate': 6.590284457407876e-06, 'ppl': 14.5982, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.23, 'total_tokens': 12791523, 'epoch': 0.41}
 41%|██████████████████████████████▋                                           | 140/338 [3:09:15<6:19:43, 115.07s/it] 42%|██████████████████████████████▊                                           | 141/338 [3:10:27<5:34:59, 102.03s/it]                                                                                                                      {'loss': 3.3204, 'grad_norm': 0.1267678439617157, 'learning_rate': 6.545084971874738e-06, 'ppl': 27.6714, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.87, 'total_tokens': 12857059, 'epoch': 0.42}
 42%|██████████████████████████████▊                                           | 141/338 [3:10:27<5:34:59, 102.03s/it] 42%|███████████████████████████████▌                                           | 142/338 [3:11:39<5:04:07, 93.10s/it]                                                                                                                      {'loss': 2.6739, 'grad_norm': 0.11644458025693893, 'learning_rate': 6.499745456385054e-06, 'ppl': 14.4964, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.75, 'total_tokens': 12922595, 'epoch': 0.42}
 42%|███████████████████████████████▌                                           | 142/338 [3:11:39<5:04:07, 93.10s/it] 42%|███████████████████████████████▋                                           | 143/338 [3:12:50<4:41:33, 86.63s/it]                                                                                                                      {'loss': 2.8142, 'grad_norm': 0.13373133540153503, 'learning_rate': 6.454270020026996e-06, 'ppl': 16.6798, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.01, 'total_tokens': 12988131, 'epoch': 0.42}
 42%|███████████████████████████████▋                                           | 143/338 [3:12:50<4:41:33, 86.63s/it] 43%|███████████████████████████████▉                                           | 144/338 [3:14:03<4:26:15, 82.35s/it]                                                                                                                      {'loss': 2.6888, 'grad_norm': 0.15597003698349, 'learning_rate': 6.408662784207149e-06, 'ppl': 14.714, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.49, 'total_tokens': 13053667, 'epoch': 0.43}
 43%|███████████████████████████████▉                                           | 144/338 [3:14:03<4:26:15, 82.35s/it] 43%|████████████████████████████████▏                                          | 145/338 [3:15:13<4:13:00, 78.66s/it]                                                                                                                      {'loss': 2.8924, 'grad_norm': 0.2015293538570404, 'learning_rate': 6.362927882276991e-06, 'ppl': 18.0365, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 221.73, 'total_tokens': 13117494, 'epoch': 0.43}
 43%|████████████████████████████████▏                                          | 145/338 [3:15:13<4:13:00, 78.66s/it] 43%|████████████████████████████████▍                                          | 146/338 [3:16:24<4:04:34, 76.43s/it]                                                                                                                      {'loss': 2.5543, 'grad_norm': 0.11905021965503693, 'learning_rate': 6.317069459158284e-06, 'ppl': 12.8623, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 221.8, 'total_tokens': 13181861, 'epoch': 0.43}
 43%|████████████████████████████████▍                                          | 146/338 [3:16:24<4:04:34, 76.43s/it] 43%|████████████████████████████████▌                                          | 147/338 [3:17:36<3:58:38, 74.97s/it]                                                                                                                      {'loss': 2.5402, 'grad_norm': 0.11264591664075851, 'learning_rate': 6.271091670967437e-06, 'ppl': 12.6822, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 220.44, 'total_tokens': 13246174, 'epoch': 0.43}
 43%|████████████████████████████████▌                                          | 147/338 [3:17:36<3:58:38, 74.97s/it] 44%|████████████████████████████████▊                                          | 148/338 [3:18:48<3:55:01, 74.22s/it]                                                                                                                      {'loss': 2.656, 'grad_norm': 0.12141624093055725, 'learning_rate': 6.22499868463882e-06, 'ppl': 14.2392, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.1, 'total_tokens': 13311710, 'epoch': 0.44}
 44%|████████████████████████████████▊                                          | 148/338 [3:18:48<3:55:01, 74.22s/it] 44%|█████████████████████████████████                                          | 149/338 [3:20:00<3:51:18, 73.43s/it]                                                                                                                      {'loss': 2.8466, 'grad_norm': 0.12339740246534348, 'learning_rate': 6.178794677547138e-06, 'ppl': 17.2291, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.88, 'total_tokens': 13377246, 'epoch': 0.44}
 44%|█████████████████████████████████                                          | 149/338 [3:20:00<3:51:18, 73.43s/it] 44%|█████████████████████████████████▎                                         | 150/338 [3:21:13<3:49:41, 73.31s/it]                                                                                                                      {'loss': 2.6244, 'grad_norm': 0.17628680169582367, 'learning_rate': 6.132483837128823e-06, 'ppl': 13.7963, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.38, 'total_tokens': 13442782, 'epoch': 0.44}
 44%|█████████████████████████████████▎                                         | 150/338 [3:21:13<3:49:41, 73.31s/it] 45%|█████████████████████████████████▌                                         | 151/338 [3:22:24<3:46:50, 72.78s/it]                                                                                                                      {'loss': 2.5715, 'grad_norm': 0.10918079316616058, 'learning_rate': 6.08607036050254e-06, 'ppl': 13.0854, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.95, 'total_tokens': 13508318, 'epoch': 0.45}
 45%|█████████████████████████████████▌                                         | 151/338 [3:22:24<3:46:50, 72.78s/it] 45%|█████████████████████████████████▋                                         | 152/338 [3:23:36<3:44:57, 72.57s/it]                                                                                                                      {'loss': 2.9327, 'grad_norm': 0.12200337648391724, 'learning_rate': 6.039558454088796e-06, 'ppl': 18.7783, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.39, 'total_tokens': 13573854, 'epoch': 0.45}
 45%|█████████████████████████████████▋                                         | 152/338 [3:23:36<3:44:57, 72.57s/it] 45%|█████████████████████████████████▉                                         | 153/338 [3:24:46<3:41:09, 71.73s/it]                                                                                                                      {'loss': 2.7568, 'grad_norm': 0.10970115661621094, 'learning_rate': 5.9929523332287275e-06, 'ppl': 15.7494, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 234.33, 'total_tokens': 13639318, 'epoch': 0.45}
 45%|█████████████████████████████████▉                                         | 153/338 [3:24:46<3:41:09, 71.73s/it] 46%|██████████████████████████████████▏                                        | 154/338 [3:25:58<3:40:20, 71.85s/it]                                                                                                                      {'loss': 2.5081, 'grad_norm': 0.157504603266716, 'learning_rate': 5.946256221802052e-06, 'ppl': 12.2816, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.15, 'total_tokens': 13704854, 'epoch': 0.45}
 46%|██████████████████████████████████▏                                        | 154/338 [3:25:58<3:40:20, 71.85s/it] 46%|██████████████████████████████████▍                                        | 155/338 [3:27:10<3:39:11, 71.86s/it]                                                                                                                      {'loss': 2.6555, 'grad_norm': 0.1084342673420906, 'learning_rate': 5.89947435184427e-06, 'ppl': 14.2321, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.89, 'total_tokens': 13770390, 'epoch': 0.46}
 46%|██████████████████████████████████▍                                        | 155/338 [3:27:10<3:39:11, 71.86s/it] 46%|██████████████████████████████████▌                                        | 156/338 [3:28:22<3:38:03, 71.89s/it]                                                                                                                      {'loss': 2.4504, 'grad_norm': 0.11660268157720566, 'learning_rate': 5.85261096316312e-06, 'ppl': 11.593, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.0, 'total_tokens': 13835815, 'epoch': 0.46}
 46%|██████████████████████████████████▌                                        | 156/338 [3:28:22<3:38:03, 71.89s/it] 46%|██████████████████████████████████▊                                        | 157/338 [3:29:34<3:36:37, 71.81s/it]                                                                                                                      {'loss': 2.6803, 'grad_norm': 0.1155674085021019, 'learning_rate': 5.805670302954322e-06, 'ppl': 14.5895, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.72, 'total_tokens': 13901351, 'epoch': 0.46}
 46%|██████████████████████████████████▊                                        | 157/338 [3:29:34<3:36:37, 71.81s/it] 47%|███████████████████████████████████                                        | 158/338 [3:30:46<3:35:56, 71.98s/it]                                                                                                                      {'loss': 2.6108, 'grad_norm': 0.11406084150075912, 'learning_rate': 5.758656625416659e-06, 'ppl': 13.6099, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 212.35, 'total_tokens': 13964855, 'epoch': 0.47}
 47%|███████████████████████████████████                                        | 158/338 [3:30:46<3:35:56, 71.98s/it] 47%|███████████████████████████████████▎                                       | 159/338 [3:31:58<3:34:28, 71.89s/it]                                                                                                                      {'loss': 2.541, 'grad_norm': 0.11226862668991089, 'learning_rate': 5.711574191366427e-06, 'ppl': 12.6924, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.57, 'total_tokens': 14030391, 'epoch': 0.47}
 47%|███████████████████████████████████▎                                       | 159/338 [3:31:58<3:34:28, 71.89s/it] 47%|███████████████████████████████████▌                                       | 160/338 [3:33:11<3:34:08, 72.18s/it]                                                                                                                      {'loss': 2.6246, 'grad_norm': 0.12664233148097992, 'learning_rate': 5.664427267851271e-06, 'ppl': 13.7991, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.88, 'total_tokens': 14095927, 'epoch': 0.47}
 47%|███████████████████████████████████▌                                       | 160/338 [3:33:11<3:34:08, 72.18s/it] 48%|███████████████████████████████████▋                                       | 161/338 [3:34:22<3:32:32, 72.05s/it]                                                                                                                      {'loss': 2.6127, 'grad_norm': 0.11325328797101974, 'learning_rate': 5.617220127763474e-06, 'ppl': 13.6358, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 209.65, 'total_tokens': 14158768, 'epoch': 0.48}
 48%|███████████████████████████████████▋                                       | 161/338 [3:34:22<3:32:32, 72.05s/it] 48%|███████████████████████████████████▉                                       | 162/338 [3:35:35<3:31:42, 72.17s/it]                                                                                                                      {'loss': 2.5234, 'grad_norm': 0.11902952194213867, 'learning_rate': 5.569957049452703e-06, 'ppl': 12.4709, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.12, 'total_tokens': 14224304, 'epoch': 0.48}
 48%|███████████████████████████████████▉                                       | 162/338 [3:35:35<3:31:42, 72.17s/it] 48%|████████████████████████████████████▏                                      | 163/338 [3:36:46<3:29:56, 71.98s/it]                                                                                                                      {'loss': 2.4896, 'grad_norm': 0.1518792062997818, 'learning_rate': 5.522642316338268e-06, 'ppl': 12.0565, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.04, 'total_tokens': 14289840, 'epoch': 0.48}
 48%|████████████████████████████████████▏                                      | 163/338 [3:36:46<3:29:56, 71.98s/it] 49%|████████████████████████████████████▍                                      | 164/338 [3:37:58<3:28:12, 71.80s/it]                                                                                                                      {'loss': 2.6378, 'grad_norm': 0.11239990592002869, 'learning_rate': 5.475280216520913e-06, 'ppl': 13.9824, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 215.88, 'total_tokens': 14353418, 'epoch': 0.48}
 49%|████████████████████████████████████▍                                      | 164/338 [3:37:58<3:28:12, 71.80s/it] 49%|████████████████████████████████████▌                                      | 165/338 [3:39:09<3:26:48, 71.73s/it]                                                                                                                      {'loss': 2.7737, 'grad_norm': 0.11405812203884125, 'learning_rate': 5.4278750423942e-06, 'ppl': 16.0178, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.95, 'total_tokens': 14418954, 'epoch': 0.49}
 49%|████████████████████████████████████▌                                      | 165/338 [3:39:09<3:26:48, 71.73s/it] 49%|████████████████████████████████████▊                                      | 166/338 [3:40:22<3:26:09, 71.92s/it]                                                                                                                      {'loss': 2.6339, 'grad_norm': 0.11657384037971497, 'learning_rate': 5.380431090255475e-06, 'ppl': 13.928, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.42, 'total_tokens': 14484490, 'epoch': 0.49}
 49%|████████████████████████████████████▊                                      | 166/338 [3:40:22<3:26:09, 71.92s/it] 49%|█████████████████████████████████████                                      | 167/338 [3:41:33<3:24:50, 71.88s/it]                                                                                                                      {'loss': 2.6766, 'grad_norm': 0.13028830289840698, 'learning_rate': 5.33295265991652e-06, 'ppl': 14.5356, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.27, 'total_tokens': 14550026, 'epoch': 0.49}
 49%|█████████████████████████████████████                                      | 167/338 [3:41:33<3:24:50, 71.88s/it] 50%|█████████████████████████████████████▎                                     | 168/338 [3:42:46<3:24:03, 72.02s/it]                                                                                                                      {'loss': 3.0454, 'grad_norm': 0.12639570236206055, 'learning_rate': 5.285444054313841e-06, 'ppl': 21.0184, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 204.4, 'total_tokens': 14612375, 'epoch': 0.5}
 50%|█████████████████████████████████████▎                                     | 168/338 [3:42:46<3:24:03, 72.02s/it] 50%|█████████████████████████████████████▌                                     | 169/338 [3:43:56<3:21:19, 71.48s/it]                                                                                                                      {'loss': 2.4481, 'grad_norm': 0.11297527700662613, 'learning_rate': 5.237909579118713e-06, 'ppl': 11.5663, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.34, 'total_tokens': 14676641, 'epoch': 0.5}
 50%|█████████████████████████████████████▌                                     | 169/338 [3:43:56<3:21:19, 71.48s/it] 50%|█████████████████████████████████████▋                                     | 170/338 [3:45:09<3:21:16, 71.89s/it]                                                                                                                      {'loss': 2.6604, 'grad_norm': 0.1106625348329544, 'learning_rate': 5.190353542346951e-06, 'ppl': 14.302, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.95, 'total_tokens': 14742177, 'epoch': 0.5}
 50%|█████████████████████████████████████▋                                     | 170/338 [3:45:09<3:21:16, 71.89s/it] 51%|█████████████████████████████████████▉                                     | 171/338 [3:46:21<3:19:57, 71.84s/it]                                                                                                                      {'loss': 2.9389, 'grad_norm': 0.11622438579797745, 'learning_rate': 5.142780253968481e-06, 'ppl': 18.8951, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.42, 'total_tokens': 14807713, 'epoch': 0.51}
 51%|█████████████████████████████████████▉                                     | 171/338 [3:46:21<3:19:57, 71.84s/it] 51%|██████████████████████████████████████▏                                    | 172/338 [3:47:33<3:19:11, 72.00s/it]                                                                                                                      {'loss': 2.778, 'grad_norm': 0.1273835003376007, 'learning_rate': 5.095194025516733e-06, 'ppl': 16.0868, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.41, 'total_tokens': 14873249, 'epoch': 0.51}
 51%|██████████████████████████████████████▏                                    | 172/338 [3:47:33<3:19:11, 72.00s/it] 51%|██████████████████████████████████████▍                                    | 173/338 [3:48:43<3:16:26, 71.43s/it]                                                                                                                      {'loss': 2.8226, 'grad_norm': 0.12470418214797974, 'learning_rate': 5.0475991696978844e-06, 'ppl': 16.8205, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 232.75, 'total_tokens': 14938655, 'epoch': 0.51}
 51%|██████████████████████████████████████▍                                    | 173/338 [3:48:43<3:16:26, 71.43s/it] 51%|██████████████████████████████████████▌                                    | 174/338 [3:49:55<3:16:03, 71.73s/it]                                                                                                                      {'loss': 2.5164, 'grad_norm': 0.15001460909843445, 'learning_rate': 5e-06, 'ppl': 12.3839, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 201.98, 'total_tokens': 15000677, 'epoch': 0.51}
 51%|██████████████████████████████████████▌                                    | 174/338 [3:49:55<3:16:03, 71.73s/it] 52%|██████████████████████████████████████▊                                    | 175/338 [3:51:07<3:14:57, 71.77s/it]                                                                                                                      {'loss': 3.2525, 'grad_norm': 0.1368832141160965, 'learning_rate': 4.952400830302117e-06, 'ppl': 25.8549, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 196.82, 'total_tokens': 15061726, 'epoch': 0.52}
 52%|██████████████████████████████████████▊                                    | 175/338 [3:51:07<3:14:57, 71.77s/it] 52%|███████████████████████████████████████                                    | 176/338 [3:52:20<3:14:20, 71.98s/it]                                                                                                                      {'loss': 2.6039, 'grad_norm': 0.1083843931555748, 'learning_rate': 4.904805974483267e-06, 'ppl': 13.5163, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.1, 'total_tokens': 15127262, 'epoch': 0.52}
 52%|███████████████████████████████████████                                    | 176/338 [3:52:20<3:14:20, 71.98s/it] 52%|███████████████████████████████████████▎                                   | 177/338 [3:53:31<3:12:50, 71.87s/it]                                                                                                                      {'loss': 2.4949, 'grad_norm': 0.10618630051612854, 'learning_rate': 4.85721974603152e-06, 'ppl': 12.1205, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.79, 'total_tokens': 15192798, 'epoch': 0.52}
 52%|███████████████████████████████████████▎                                   | 177/338 [3:53:31<3:12:50, 71.87s/it] 53%|███████████████████████████████████████▍                                   | 178/338 [3:54:44<3:12:10, 72.06s/it]                                                                                                                      {'loss': 2.614, 'grad_norm': 0.10658477246761322, 'learning_rate': 4.809646457653051e-06, 'ppl': 13.6536, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.95, 'total_tokens': 15258334, 'epoch': 0.53}
 53%|███████████████████████████████████████▍                                   | 178/338 [3:54:44<3:12:10, 72.06s/it] 53%|███████████████████████████████████████▋                                   | 179/338 [3:55:56<3:10:37, 71.93s/it]                                                                                                                      {'loss': 2.3951, 'grad_norm': 0.1196385994553566, 'learning_rate': 4.762090420881289e-06, 'ppl': 10.9693, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.76, 'total_tokens': 15323870, 'epoch': 0.53}
 53%|███████████████████████████████████████▋                                   | 179/338 [3:55:56<3:10:37, 71.93s/it] 53%|███████████████████████████████████████▉                                   | 180/338 [3:57:08<3:10:08, 72.20s/it]                                                                                                                      {'loss': 2.5474, 'grad_norm': 0.15177644789218903, 'learning_rate': 4.71455594568616e-06, 'ppl': 12.7738, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.94, 'total_tokens': 15389406, 'epoch': 0.53}
 53%|███████████████████████████████████████▉                                   | 180/338 [3:57:08<3:10:08, 72.20s/it] 54%|████████████████████████████████████████▏                                  | 181/338 [3:58:20<3:08:25, 72.01s/it]                                                                                                                      {'loss': 2.7433, 'grad_norm': 0.10823354125022888, 'learning_rate': 4.667047340083481e-06, 'ppl': 15.5382, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.97, 'total_tokens': 15454942, 'epoch': 0.53}
 54%|████████████████████████████████████████▏                                  | 181/338 [3:58:20<3:08:25, 72.01s/it] 54%|████████████████████████████████████████▍                                  | 182/338 [3:59:30<3:06:02, 71.55s/it]                                                                                                                      {'loss': 2.3531, 'grad_norm': 0.14551295340061188, 'learning_rate': 4.619568909744524e-06, 'ppl': 10.5181, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 223.87, 'total_tokens': 15519268, 'epoch': 0.54}
 54%|████████████████████████████████████████▍                                  | 182/338 [3:59:30<3:06:02, 71.55s/it] 54%|████████████████████████████████████████▌                                  | 183/338 [4:00:42<3:04:51, 71.56s/it]                                                                                                                      {'loss': 2.3773, 'grad_norm': 0.10738864541053772, 'learning_rate': 4.572124957605803e-06, 'ppl': 10.7758, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.93, 'total_tokens': 15584804, 'epoch': 0.54}
 54%|████████████████████████████████████████▌                                  | 183/338 [4:00:42<3:04:51, 71.56s/it] 54%|████████████████████████████████████████▊                                  | 184/338 [4:01:54<3:04:20, 71.82s/it]                                                                                                                      {'loss': 2.9881, 'grad_norm': 0.12629999220371246, 'learning_rate': 4.524719783479088e-06, 'ppl': 19.8479, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.18, 'total_tokens': 15650340, 'epoch': 0.54}
 54%|████████████████████████████████████████▊                                  | 184/338 [4:01:54<3:04:20, 71.82s/it] 55%|█████████████████████████████████████████                                  | 185/338 [4:03:06<3:03:08, 71.82s/it]                                                                                                                      {'loss': 2.9156, 'grad_norm': 0.12350375950336456, 'learning_rate': 4.477357683661734e-06, 'ppl': 18.4599, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.14, 'total_tokens': 15715876, 'epoch': 0.55}
 55%|█████████████████████████████████████████                                  | 185/338 [4:03:06<3:03:08, 71.82s/it] 55%|█████████████████████████████████████████▎                                 | 186/338 [4:04:17<3:01:06, 71.49s/it]                                                                                                                      {'loss': 2.7542, 'grad_norm': 0.12266012281179428, 'learning_rate': 4.430042950547298e-06, 'ppl': 15.7085, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 221.38, 'total_tokens': 15779948, 'epoch': 0.55}
 55%|█████████████████████████████████████████▎                                 | 186/338 [4:04:17<3:01:06, 71.49s/it] 55%|█████████████████████████████████████████▍                                 | 187/338 [4:05:29<2:59:59, 71.52s/it]                                                                                                                      {'loss': 2.5626, 'grad_norm': 0.12291005253791809, 'learning_rate': 4.382779872236527e-06, 'ppl': 12.9695, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 199.05, 'total_tokens': 15841217, 'epoch': 0.55}
 55%|█████████████████████████████████████████▍                                 | 187/338 [4:05:29<2:59:59, 71.52s/it] 56%|█████████████████████████████████████████▋                                 | 188/338 [4:06:41<2:59:29, 71.80s/it]                                                                                                                      {'loss': 2.7045, 'grad_norm': 0.1147063672542572, 'learning_rate': 4.33557273214873e-06, 'ppl': 14.9468, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.15, 'total_tokens': 15906753, 'epoch': 0.56}
 56%|█████████████████████████████████████████▋                                 | 188/338 [4:06:41<2:59:29, 71.80s/it] 56%|█████████████████████████████████████████▉                                 | 189/338 [4:07:53<2:58:11, 71.76s/it]                                                                                                                      {'loss': 2.6501, 'grad_norm': 0.11357688158750534, 'learning_rate': 4.2884258086335755e-06, 'ppl': 14.1555, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.68, 'total_tokens': 15972289, 'epoch': 0.56}
 56%|█████████████████████████████████████████▉                                 | 189/338 [4:07:53<2:58:11, 71.76s/it] 56%|██████████████████████████████████████████▏                                | 190/338 [4:09:06<2:57:54, 72.12s/it]                                                                                                                      {'loss': 2.7559, 'grad_norm': 0.11312706768512726, 'learning_rate': 4.241343374583343e-06, 'ppl': 15.7352, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.51, 'total_tokens': 16037825, 'epoch': 0.56}
 56%|██████████████████████████████████████████▏                                | 190/338 [4:09:06<2:57:54, 72.12s/it] 57%|██████████████████████████████████████████▍                                | 191/338 [4:10:17<2:56:29, 72.04s/it]                                                                                                                      {'loss': 2.793, 'grad_norm': 0.12132958322763443, 'learning_rate': 4.194329697045681e-06, 'ppl': 16.3299, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.15, 'total_tokens': 16103361, 'epoch': 0.56}
 57%|██████████████████████████████████████████▍                                | 191/338 [4:10:17<2:56:29, 72.04s/it] 57%|██████████████████████████████████████████▌                                | 192/338 [4:11:30<2:55:40, 72.20s/it]                                                                                                                      {'loss': 3.2464, 'grad_norm': 0.1189669817686081, 'learning_rate': 4.147389036836881e-06, 'ppl': 25.6977, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.77, 'total_tokens': 16168897, 'epoch': 0.57}
 57%|██████████████████████████████████████████▌                                | 192/338 [4:11:30<2:55:40, 72.20s/it] 57%|██████████████████████████████████████████▊                                | 193/338 [4:12:42<2:54:12, 72.09s/it]                                                                                                                      {'loss': 2.6514, 'grad_norm': 0.1137668788433075, 'learning_rate': 4.100525648155731e-06, 'ppl': 14.1739, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.1, 'total_tokens': 16234433, 'epoch': 0.57}
 57%|██████████████████████████████████████████▊                                | 193/338 [4:12:42<2:54:12, 72.09s/it] 57%|███████████████████████████████████████████                                | 194/338 [4:13:54<2:53:11, 72.16s/it]                                                                                                                      {'loss': 3.0041, 'grad_norm': 0.12130618095397949, 'learning_rate': 4.053743778197951e-06, 'ppl': 20.1681, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.49, 'total_tokens': 16299969, 'epoch': 0.57}
 57%|███████████████████████████████████████████                                | 194/338 [4:13:54<2:53:11, 72.16s/it] 58%|███████████████████████████████████████████▎                               | 195/338 [4:15:06<2:51:34, 71.99s/it]                                                                                                                      {'loss': 2.7423, 'grad_norm': 0.11441890895366669, 'learning_rate': 4.007047666771274e-06, 'ppl': 15.5226, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.92, 'total_tokens': 16365505, 'epoch': 0.58}
 58%|███████████████████████████████████████████▎                               | 195/338 [4:15:06<2:51:34, 71.99s/it] 58%|███████████████████████████████████████████▍                               | 196/338 [4:16:18<2:50:43, 72.13s/it]                                                                                                                      {'loss': 3.0064, 'grad_norm': 0.11992347240447998, 'learning_rate': 3.960441545911205e-06, 'ppl': 20.2145, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.08, 'total_tokens': 16431041, 'epoch': 0.58}
 58%|███████████████████████████████████████████▍                               | 196/338 [4:16:18<2:50:43, 72.13s/it] 58%|███████████████████████████████████████████▋                               | 197/338 [4:17:30<2:48:57, 71.90s/it]                                                                                                                      {'loss': 2.6246, 'grad_norm': 0.11736873537302017, 'learning_rate': 3.913929639497462e-06, 'ppl': 13.7991, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.39, 'total_tokens': 16496393, 'epoch': 0.58}
 58%|███████████████████████████████████████████▋                               | 197/338 [4:17:30<2:48:57, 71.90s/it] 59%|███████████████████████████████████████████▉                               | 198/338 [4:18:40<2:46:47, 71.48s/it]                                                                                                                      {'loss': 2.7401, 'grad_norm': 0.11561952531337738, 'learning_rate': 3.867516162871177e-06, 'ppl': 15.4885, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 217.75, 'total_tokens': 16559869, 'epoch': 0.58}
 59%|███████████████████████████████████████████▉                               | 198/338 [4:18:40<2:46:47, 71.48s/it] 59%|████████████████████████████████████████████▏                              | 199/338 [4:19:52<2:45:44, 71.54s/it]                                                                                                                      {'loss': 2.6474, 'grad_norm': 0.10738570988178253, 'learning_rate': 3.821205322452863e-06, 'ppl': 14.1173, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.58, 'total_tokens': 16625405, 'epoch': 0.59}
 59%|████████████████████████████████████████████▏                              | 199/338 [4:19:52<2:45:44, 71.54s/it] 59%|████████████████████████████████████████████▍                              | 200/338 [4:21:05<2:45:28, 71.95s/it]                                                                                                                      {'loss': 2.768, 'grad_norm': 0.15062233805656433, 'learning_rate': 3.775001315361183e-06, 'ppl': 15.9267, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.78, 'total_tokens': 16690941, 'epoch': 0.59}
 59%|████████████████████████████████████████████▍                              | 200/338 [4:21:05<2:45:28, 71.95s/it] 59%|████████████████████████████████████████████▌                              | 201/338 [4:22:16<2:44:00, 71.83s/it]                                                                                                                      {'loss': 2.3768, 'grad_norm': 0.10752425342798233, 'learning_rate': 3.7289083290325668e-06, 'ppl': 10.7704, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.98, 'total_tokens': 16756477, 'epoch': 0.59}
 59%|████████████████████████████████████████████▌                              | 201/338 [4:22:16<2:44:00, 71.83s/it] 60%|████████████████████████████████████████████▊                              | 202/338 [4:23:29<2:43:17, 72.04s/it]                                                                                                                      {'loss': 2.79, 'grad_norm': 0.1218705102801323, 'learning_rate': 3.682930540841717e-06, 'ppl': 16.281, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.93, 'total_tokens': 16822013, 'epoch': 0.6}
 60%|████████████████████████████████████████████▊                              | 202/338 [4:23:29<2:43:17, 72.04s/it] 60%|█████████████████████████████████████████████                              | 203/338 [4:24:40<2:41:12, 71.65s/it]                                                                                                                      {'loss': 2.6474, 'grad_norm': 0.10765315592288971, 'learning_rate': 3.637072117723012e-06, 'ppl': 14.1173, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 196.82, 'total_tokens': 16882620, 'epoch': 0.6}
 60%|█████████████████████████████████████████████                              | 203/338 [4:24:40<2:41:12, 71.65s/it] 60%|█████████████████████████████████████████████▎                             | 204/338 [4:25:53<2:40:55, 72.06s/it]                                                                                                                      {'loss': 2.6613, 'grad_norm': 0.14146582782268524, 'learning_rate': 3.5913372157928515e-06, 'ppl': 14.3149, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.41, 'total_tokens': 16948156, 'epoch': 0.6}
 60%|█████████████████████████████████████████████▎                             | 204/338 [4:25:53<2:40:55, 72.06s/it][2026-01-11 08:54:25,075] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:4935] Running evaluation step...
[2026-01-11 08:54:26,554] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7445428371429443
[2026-01-11 08:54:27,297] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7427234649658203
[2026-01-11 08:54:28,029] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7310211658477783
[2026-01-11 08:54:28,779] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7498190402984619
[2026-01-11 08:54:28,780] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:4935] gather_len_batches: [19, 19]

  0%|                                                                                          | 0/19 [00:00<?, ?it/s][A
 11%|████████▋                                                                         | 2/19 [00:20<02:54, 10.29s/it][A
 16%|████████████▉                                                                     | 3/19 [00:42<04:01, 15.10s/it][A
 21%|█████████████████▎                                                                | 4/19 [01:04<04:23, 17.60s/it][A
 26%|█████████████████████▌                                                            | 5/19 [01:26<04:27, 19.09s/it][A
 32%|█████████████████████████▉                                                        | 6/19 [01:47<04:20, 20.01s/it][A
 37%|██████████████████████████████▏                                                   | 7/19 [02:09<04:07, 20.61s/it][A
 42%|██████████████████████████████████▌                                               | 8/19 [02:31<03:51, 21.00s/it][A
 47%|██████████████████████████████████████▊                                           | 9/19 [02:53<03:32, 21.27s/it][A
 53%|██████████████████████████████████████████▋                                      | 10/19 [03:14<03:10, 21.15s/it][A
 58%|██████████████████████████████████████████████▉                                  | 11/19 [03:36<02:50, 21.36s/it][A
 63%|███████████████████████████████████████████████████▏                             | 12/19 [03:58<02:30, 21.51s/it][A
 68%|███████████████████████████████████████████████████████▍                         | 13/19 [04:19<02:09, 21.60s/it][A
 74%|███████████████████████████████████████████████████████████▋                     | 14/19 [04:41<01:48, 21.67s/it][A
 79%|███████████████████████████████████████████████████████████████▉                 | 15/19 [05:03<01:26, 21.73s/it][A
 84%|████████████████████████████████████████████████████████████████████▏            | 16/19 [05:25<01:05, 21.77s/it][A
 89%|████████████████████████████████████████████████████████████████████████▍        | 17/19 [05:47<00:43, 21.81s/it][A
 95%|████████████████████████████████████████████████████████████████████████████▋    | 18/19 [06:09<00:21, 21.83s/it][A
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:31<00:00, 21.87s/it][A                                                                                                                      
                                                                                                                      [A{'eval_loss': 1.2713050842285156, 'eval_runtime': 414.9138, 'eval_samples_per_second': 0.048, 'eval_steps_per_second': 0.024, 'eval_ppl': 3.5655, 'memory/max_active (GiB)': 6.5, 'memory/max_allocated (GiB)': 6.5, 'memory/device_reserved (GiB)': 14.39, 'epoch': 0.6}
 60%|█████████████████████████████████████████████▎                             | 204/338 [4:32:51<2:40:55, 72.06s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:31<00:00, 21.87s/it][A
                                                                                                                      [A 61%|████████████████████████████████████████████▉                             | 205/338 [4:34:03<7:17:43, 197.47s/it]                                                                                                                      {'loss': 2.7449, 'grad_norm': 0.12934492528438568, 'learning_rate': 3.5457299799730047e-06, 'ppl': 15.5631, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.26, 'total_tokens': 18227772, 'epoch': 0.61}
 61%|████████████████████████████████████████████▉                             | 205/338 [4:34:03<7:17:43, 197.47s/it] 61%|█████████████████████████████████████████████                             | 206/338 [4:35:15<5:51:43, 159.87s/it]                                                                                                                      {'loss': 2.6346, 'grad_norm': 0.11546359211206436, 'learning_rate': 3.5002545436149478e-06, 'ppl': 13.9377, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.79, 'total_tokens': 18293308, 'epoch': 0.61}
 61%|█████████████████████████████████████████████                             | 206/338 [4:35:15<5:51:43, 159.87s/it] 61%|█████████████████████████████████████████████▎                            | 207/338 [4:36:27<4:51:42, 133.60s/it]                                                                                                                      {'loss': 2.9335, 'grad_norm': 0.1339430809020996, 'learning_rate': 3.4549150281252635e-06, 'ppl': 18.7933, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.58, 'total_tokens': 18358844, 'epoch': 0.61}
 61%|█████████████████████████████████████████████▎                            | 207/338 [4:36:27<4:51:42, 133.60s/it] 62%|█████████████████████████████████████████████▌                            | 208/338 [4:37:39<4:09:11, 115.01s/it]                                                                                                                      {'loss': 2.63, 'grad_norm': 0.11887572705745697, 'learning_rate': 3.4097155425921256e-06, 'ppl': 13.8738, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.74, 'total_tokens': 18424380, 'epoch': 0.61}
 62%|█████████████████████████████████████████████▌                            | 208/338 [4:37:39<4:09:11, 115.01s/it] 62%|█████████████████████████████████████████████▊                            | 209/338 [4:38:50<3:38:52, 101.80s/it]                                                                                                                      {'loss': 2.4655, 'grad_norm': 0.11375114321708679, 'learning_rate': 3.3646601834128924e-06, 'ppl': 11.7694, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 213.09, 'total_tokens': 18487392, 'epoch': 0.62}
 62%|█████████████████████████████████████████████▊                            | 209/338 [4:38:50<3:38:52, 101.80s/it] 62%|██████████████████████████████████████████████▌                            | 210/338 [4:40:02<3:18:17, 92.95s/it]                                                                                                                      {'loss': 3.1987, 'grad_norm': 0.11423639953136444, 'learning_rate': 3.319753033922849e-06, 'ppl': 24.5007, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.6, 'total_tokens': 18552928, 'epoch': 0.62}
 62%|██████████████████████████████████████████████▌                            | 210/338 [4:40:02<3:18:17, 92.95s/it] 62%|██████████████████████████████████████████████▊                            | 211/338 [4:41:14<3:03:15, 86.58s/it]                                                                                                                      {'loss': 2.4277, 'grad_norm': 0.11491747200489044, 'learning_rate': 3.274998164025148e-06, 'ppl': 11.3328, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 177.4, 'total_tokens': 18611133, 'epoch': 0.62}
 62%|██████████████████████████████████████████████▊                            | 211/338 [4:41:14<3:03:15, 86.58s/it] 63%|███████████████████████████████████████████████                            | 212/338 [4:42:25<2:52:21, 82.07s/it]                                                                                                                      {'loss': 2.654, 'grad_norm': 0.11351986974477768, 'learning_rate': 3.230399629821942e-06, 'ppl': 14.2108, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 197.7, 'total_tokens': 18672196, 'epoch': 0.63}
 63%|███████████████████████████████████████████████                            | 212/338 [4:42:25<2:52:21, 82.07s/it] 63%|███████████████████████████████████████████████▎                           | 213/338 [4:43:37<2:44:29, 78.95s/it]                                                                                                                      {'loss': 2.7689, 'grad_norm': 0.11375690251588821, 'learning_rate': 3.1859614732467957e-06, 'ppl': 15.9411, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.61, 'total_tokens': 18737732, 'epoch': 0.63}
 63%|███████████████████████████████████████████████▎                           | 213/338 [4:43:37<2:44:29, 78.95s/it] 63%|███████████████████████████████████████████████▍                           | 214/338 [4:44:49<2:39:07, 76.99s/it]                                                                                                                      {'loss': 2.6336, 'grad_norm': 0.11724454164505005, 'learning_rate': 3.141687721698363e-06, 'ppl': 13.9238, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 215.27, 'total_tokens': 18801679, 'epoch': 0.63}
 63%|███████████████████████████████████████████████▍                           | 214/338 [4:44:49<2:39:07, 76.99s/it] 64%|███████████████████████████████████████████████▋                           | 215/338 [4:46:01<2:34:30, 75.37s/it]                                                                                                                      {'loss': 2.7021, 'grad_norm': 0.13366147875785828, 'learning_rate': 3.097582387675385e-06, 'ppl': 14.911, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 182.89, 'total_tokens': 18860627, 'epoch': 0.64}
 64%|███████████████████████████████████████████████▋                           | 215/338 [4:46:01<2:34:30, 75.37s/it] 64%|███████████████████████████████████████████████▉                           | 216/338 [4:47:13<2:31:25, 74.47s/it]                                                                                                                      {'loss': 2.5586, 'grad_norm': 0.1190929189324379, 'learning_rate': 3.053649468413043e-06, 'ppl': 12.9177, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.36, 'total_tokens': 18926163, 'epoch': 0.64}
 64%|███████████████████████████████████████████████▉                           | 216/338 [4:47:13<2:31:25, 74.47s/it] 64%|████████████████████████████████████████████████▏                          | 217/338 [4:48:25<2:28:26, 73.61s/it]                                                                                                                      {'loss': 3.2213, 'grad_norm': 0.13052178919315338, 'learning_rate': 3.0098929455206905e-06, 'ppl': 25.0607, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.91, 'total_tokens': 18991699, 'epoch': 0.64}
 64%|████████████████████████████████████████████████▏                          | 217/338 [4:48:25<2:28:26, 73.61s/it] 64%|████████████████████████████████████████████████▎                          | 218/338 [4:49:37<2:26:31, 73.27s/it]                                                                                                                      {'loss': 2.9957, 'grad_norm': 0.12474431097507477, 'learning_rate': 2.966316784621e-06, 'ppl': 19.9994, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.08, 'total_tokens': 19057235, 'epoch': 0.64}
 64%|████████████████████████████████████████████████▎                          | 218/338 [4:49:37<2:26:31, 73.27s/it] 65%|████████████████████████████████████████████████▌                          | 219/338 [4:50:49<2:24:24, 72.81s/it]                                                                                                                      {'loss': 2.748, 'grad_norm': 0.11800587177276611, 'learning_rate': 2.9229249349905686e-06, 'ppl': 15.6114, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.33, 'total_tokens': 19122771, 'epoch': 0.65}
 65%|████████████████████████████████████████████████▌                          | 219/338 [4:50:49<2:24:24, 72.81s/it] 65%|████████████████████████████████████████████████▊                          | 220/338 [4:52:00<2:22:12, 72.31s/it]                                                                                                                      {'loss': 2.7715, 'grad_norm': 0.11554445326328278, 'learning_rate': 2.8797213292019927e-06, 'ppl': 15.9826, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 222.96, 'total_tokens': 19187255, 'epoch': 0.65}
 65%|████████████████████████████████████████████████▊                          | 220/338 [4:52:00<2:22:12, 72.31s/it] 65%|█████████████████████████████████████████████████                          | 221/338 [4:53:12<2:20:43, 72.17s/it]                                                                                                                      {'loss': 2.4768, 'grad_norm': 0.11542508751153946, 'learning_rate': 2.8367098827674575e-06, 'ppl': 11.9031, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.05, 'total_tokens': 19252791, 'epoch': 0.65}
 65%|█████████████████████████████████████████████████                          | 221/338 [4:53:12<2:20:43, 72.17s/it] 66%|█████████████████████████████████████████████████▎                         | 222/338 [4:54:25<2:19:45, 72.29s/it]                                                                                                                      {'loss': 2.4703, 'grad_norm': 0.11937591433525085, 'learning_rate': 2.7938944937838924e-06, 'ppl': 11.826, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.84, 'total_tokens': 19318327, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████▎                         | 222/338 [4:54:25<2:19:45, 72.29s/it] 66%|█████████████████████████████████████████████████▍                         | 223/338 [4:55:36<2:18:09, 72.08s/it]                                                                                                                      {'loss': 3.0722, 'grad_norm': 0.16103702783584595, 'learning_rate': 2.751279042579672e-06, 'ppl': 21.5893, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.79, 'total_tokens': 19383863, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████▍                         | 223/338 [4:55:36<2:18:09, 72.08s/it] 66%|█████████████████████████████████████████████████▋                         | 224/338 [4:56:49<2:17:12, 72.21s/it]                                                                                                                      {'loss': 2.7843, 'grad_norm': 0.11418946087360382, 'learning_rate': 2.708867391362948e-06, 'ppl': 16.1885, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.95, 'total_tokens': 19449399, 'epoch': 0.66}
 66%|█████████████████████████████████████████████████▋                         | 224/338 [4:56:49<2:17:12, 72.21s/it] 67%|█████████████████████████████████████████████████▉                         | 225/338 [4:58:00<2:15:40, 72.04s/it]                                                                                                                      {'loss': 2.5703, 'grad_norm': 0.11251702904701233, 'learning_rate': 2.6666633838716317e-06, 'ppl': 13.0697, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.76, 'total_tokens': 19514935, 'epoch': 0.66}
 67%|█████████████████████████████████████████████████▉                         | 225/338 [4:58:00<2:15:40, 72.04s/it] 67%|██████████████████████████████████████████████████▏                        | 226/338 [4:59:11<2:13:40, 71.61s/it]                                                                                                                      {'loss': 2.7193, 'grad_norm': 0.11386670917272568, 'learning_rate': 2.6246708450250256e-06, 'ppl': 15.1697, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 198.18, 'total_tokens': 19575688, 'epoch': 0.67}
 67%|██████████████████████████████████████████████████▏                        | 226/338 [4:59:11<2:13:40, 71.61s/it] 67%|██████████████████████████████████████████████████▎                        | 227/338 [5:00:23<2:12:28, 71.60s/it]                                                                                                                      {'loss': 2.8103, 'grad_norm': 0.12672936916351318, 'learning_rate': 2.5828935805771804e-06, 'ppl': 16.6149, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.87, 'total_tokens': 19641224, 'epoch': 0.67}
 67%|██████████████████████████████████████████████████▎                        | 227/338 [5:00:23<2:12:28, 71.60s/it] 67%|██████████████████████████████████████████████████▌                        | 228/338 [5:01:35<2:11:39, 71.81s/it]                                                                                                                      {'loss': 2.9138, 'grad_norm': 0.12011126428842545, 'learning_rate': 2.5413353767719805e-06, 'ppl': 18.4267, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.65, 'total_tokens': 19706760, 'epoch': 0.67}
 67%|██████████████████████████████████████████████████▌                        | 228/338 [5:01:35<2:11:39, 71.81s/it] 68%|██████████████████████████████████████████████████▊                        | 229/338 [5:02:47<2:10:23, 71.77s/it]                                                                                                                      {'loss': 2.4708, 'grad_norm': 0.11982569843530655, 'learning_rate': 2.5000000000000015e-06, 'ppl': 11.8319, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.58, 'total_tokens': 19772296, 'epoch': 0.68}
 68%|██████████████████████████████████████████████████▊                        | 229/338 [5:02:47<2:10:23, 71.77s/it] 68%|███████████████████████████████████████████████████                        | 230/338 [5:03:59<2:09:43, 72.07s/it]                                                                                                                      {'loss': 2.3211, 'grad_norm': 0.11901487410068512, 'learning_rate': 2.4588911964571557e-06, 'ppl': 10.1869, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.19, 'total_tokens': 19837832, 'epoch': 0.68}
 68%|███████████████████████████████████████████████████                        | 230/338 [5:03:59<2:09:43, 72.07s/it] 68%|███████████████████████████████████████████████████▎                       | 231/338 [5:05:11<2:08:33, 72.09s/it]                                                                                                                      {'loss': 2.8535, 'grad_norm': 0.124400295317173, 'learning_rate': 2.418012691805191e-06, 'ppl': 17.3484, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 170.39, 'total_tokens': 19892797, 'epoch': 0.68}
 68%|███████████████████████████████████████████████████▎                       | 231/338 [5:05:12<2:08:33, 72.09s/it] 69%|███████████████████████████████████████████████████▍                       | 232/338 [5:06:24<2:07:32, 72.20s/it]                                                                                                                      {'loss': 2.6673, 'grad_norm': 0.15115328133106232, 'learning_rate': 2.3773681908340284e-06, 'ppl': 14.401, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.13, 'total_tokens': 19958333, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████▍                       | 232/338 [5:06:24<2:07:32, 72.20s/it] 69%|███████████████████████████████████████████████████▋                       | 233/338 [5:07:36<2:06:02, 72.02s/it]                                                                                                                      {'loss': 2.6277, 'grad_norm': 0.11732061952352524, 'learning_rate': 2.3369613771260006e-06, 'ppl': 13.8419, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.79, 'total_tokens': 20023869, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████▋                       | 233/338 [5:07:36<2:06:02, 72.02s/it] 69%|███████████████████████████████████████████████████▉                       | 234/338 [5:08:48<2:05:06, 72.17s/it]                                                                                                                      {'loss': 3.0542, 'grad_norm': 0.1548493504524231, 'learning_rate': 2.296795912722014e-06, 'ppl': 21.2042, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 216.19, 'total_tokens': 20087993, 'epoch': 0.69}
 69%|███████████████████████████████████████████████████▉                       | 234/338 [5:08:48<2:05:06, 72.17s/it] 70%|████████████████████████████████████████████████████▏                      | 235/338 [5:10:00<2:03:36, 72.00s/it]                                                                                                                      {'loss': 2.6199, 'grad_norm': 0.1312764286994934, 'learning_rate': 2.2568754377896516e-06, 'ppl': 13.7344, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.82, 'total_tokens': 20153529, 'epoch': 0.69}
 70%|████████████████████████████████████████████████████▏                      | 235/338 [5:10:00<2:03:36, 72.00s/it] 70%|████████████████████████████████████████████████████▎                      | 236/338 [5:11:12<2:02:37, 72.13s/it]                                                                                                                      {'loss': 2.6879, 'grad_norm': 0.11780883371829987, 'learning_rate': 2.2172035702932828e-06, 'ppl': 14.7008, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.2, 'total_tokens': 20219065, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████▎                      | 236/338 [5:11:12<2:02:37, 72.13s/it] 70%|████████████████████████████████████████████████████▌                      | 237/338 [5:12:24<2:01:08, 71.96s/it]                                                                                                                      {'loss': 2.9252, 'grad_norm': 0.13266651332378387, 'learning_rate': 2.1777839056661555e-06, 'ppl': 18.638, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.93, 'total_tokens': 20284601, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████▌                      | 237/338 [5:12:24<2:01:08, 71.96s/it] 70%|████████████████████████████████████████████████████▊                      | 238/338 [5:13:36<2:00:06, 72.06s/it]                                                                                                                      {'loss': 2.8423, 'grad_norm': 0.13685272634029388, 'learning_rate': 2.1386200164845527e-06, 'ppl': 17.1552, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.65, 'total_tokens': 20350137, 'epoch': 0.7}
 70%|████████████████████████████████████████████████████▊                      | 238/338 [5:13:36<2:00:06, 72.06s/it] 71%|█████████████████████████████████████████████████████                      | 239/338 [5:14:46<1:57:50, 71.42s/it]                                                                                                                      {'loss': 2.597, 'grad_norm': 0.11211854964494705, 'learning_rate': 2.09971545214401e-06, 'ppl': 13.4234, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 230.34, 'total_tokens': 20415118, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████                      | 239/338 [5:14:46<1:57:50, 71.42s/it] 71%|█████████████████████████████████████████████████████▎                     | 240/338 [5:15:59<1:57:21, 71.85s/it]                                                                                                                      {'loss': 2.5512, 'grad_norm': 0.11128104478120804, 'learning_rate': 2.061073738537635e-06, 'ppl': 12.8225, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.92, 'total_tokens': 20480654, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████▎                     | 240/338 [5:15:59<1:57:21, 71.85s/it] 71%|█████████████████████████████████████████████████████▍                     | 241/338 [5:17:11<1:56:08, 71.84s/it]                                                                                                                      {'loss': 2.8769, 'grad_norm': 0.12972761690616608, 'learning_rate': 2.0226983777365604e-06, 'ppl': 17.7591, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.11, 'total_tokens': 20546190, 'epoch': 0.71}
 71%|█████████████████████████████████████████████████████▍                     | 241/338 [5:17:11<1:56:08, 71.84s/it] 72%|█████████████████████████████████████████████████████▋                     | 242/338 [5:18:22<1:54:43, 71.71s/it]                                                                                                                      {'loss': 2.8834, 'grad_norm': 0.13002678751945496, 'learning_rate': 1.9845928476725522e-06, 'ppl': 17.8749, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 172.16, 'total_tokens': 20601109, 'epoch': 0.71}
 72%|█████████████████████████████████████████████████████▋                     | 242/338 [5:18:22<1:54:43, 71.71s/it] 72%|█████████████████████████████████████████████████████▉                     | 243/338 [5:19:34<1:53:27, 71.65s/it]                                                                                                                      {'loss': 2.8482, 'grad_norm': 0.11448546499013901, 'learning_rate': 1.946760601822809e-06, 'ppl': 17.2567, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 207.93, 'total_tokens': 20663624, 'epoch': 0.72}
 72%|█████████████████████████████████████████████████████▉                     | 243/338 [5:19:34<1:53:27, 71.65s/it] 72%|██████████████████████████████████████████████████████▏                    | 244/338 [5:20:44<1:51:45, 71.34s/it]                                                                                                                      {'loss': 2.6918, 'grad_norm': 0.11486924439668655, 'learning_rate': 1.9092050688969736e-06, 'ppl': 14.7582, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 221.75, 'total_tokens': 20727704, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████▏                    | 244/338 [5:20:44<1:51:45, 71.34s/it] 72%|██████████████████████████████████████████████████████▎                    | 245/338 [5:21:56<1:50:47, 71.48s/it]                                                                                                                      {'loss': 2.861, 'grad_norm': 0.1325806826353073, 'learning_rate': 1.8719296525263925e-06, 'ppl': 17.479, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.23, 'total_tokens': 20793240, 'epoch': 0.72}
 72%|██████████████████████████████████████████████████████▎                    | 245/338 [5:21:56<1:50:47, 71.48s/it] 73%|██████████████████████████████████████████████████████▌                    | 246/338 [5:23:09<1:50:06, 71.81s/it]                                                                                                                      {'loss': 3.0628, 'grad_norm': 0.12117600440979004, 'learning_rate': 1.8349377309556487e-06, 'ppl': 21.3874, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.71, 'total_tokens': 20858776, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████▌                    | 246/338 [5:23:09<1:50:06, 71.81s/it] 73%|██████████████████████████████████████████████████████▊                    | 247/338 [5:24:18<1:47:59, 71.20s/it]                                                                                                                      {'loss': 3.0542, 'grad_norm': 0.2660507559776306, 'learning_rate': 1.798232656736389e-06, 'ppl': 21.2042, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.12, 'total_tokens': 20923241, 'epoch': 0.73}
 73%|██████████████████████████████████████████████████████▊                    | 247/338 [5:24:18<1:47:59, 71.20s/it] 73%|███████████████████████████████████████████████████████                    | 248/338 [5:25:31<1:47:19, 71.55s/it]                                                                                                                      {'loss': 2.5232, 'grad_norm': 0.1087772399187088, 'learning_rate': 1.7618177564234907e-06, 'ppl': 12.4684, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.44, 'total_tokens': 20988777, 'epoch': 0.73}
 73%|███████████████████████████████████████████████████████                    | 248/338 [5:25:31<1:47:19, 71.55s/it] 74%|███████████████████████████████████████████████████████▎                   | 249/338 [5:26:42<1:46:11, 71.59s/it]                                                                                                                      {'loss': 3.172, 'grad_norm': 0.1410728394985199, 'learning_rate': 1.7256963302735752e-06, 'ppl': 23.8551, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.59, 'total_tokens': 21054313, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████▎                   | 249/338 [5:26:42<1:46:11, 71.59s/it] 74%|███████████████████████████████████████████████████████▍                   | 250/338 [5:27:55<1:45:32, 71.96s/it]                                                                                                                      {'loss': 2.8445, 'grad_norm': 0.12205193936824799, 'learning_rate': 1.6898716519459074e-06, 'ppl': 17.193, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.99, 'total_tokens': 21119849, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████▍                   | 250/338 [5:27:55<1:45:32, 71.96s/it] 74%|███████████████████████████████████████████████████████▋                   | 251/338 [5:29:07<1:44:10, 71.85s/it]                                                                                                                      {'loss': 2.7373, 'grad_norm': 0.11916972696781158, 'learning_rate': 1.6543469682057105e-06, 'ppl': 15.4452, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.88, 'total_tokens': 21185385, 'epoch': 0.74}
 74%|███████████████████████████████████████████████████████▋                   | 251/338 [5:29:07<1:44:10, 71.85s/it] 75%|███████████████████████████████████████████████████████▉                   | 252/338 [5:30:19<1:43:11, 71.99s/it]                                                                                                                      {'loss': 2.7533, 'grad_norm': 0.1187194436788559, 'learning_rate': 1.6191254986299044e-06, 'ppl': 15.6943, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.55, 'total_tokens': 21250921, 'epoch': 0.74}
 75%|███████████████████████████████████████████████████████▉                   | 252/338 [5:30:19<1:43:11, 71.99s/it] 75%|████████████████████████████████████████████████████████▏                  | 253/338 [5:31:29<1:41:05, 71.36s/it]                                                                                                                      {'loss': 2.5746, 'grad_norm': 0.13811863958835602, 'learning_rate': 1.5842104353153286e-06, 'ppl': 13.1261, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 175.85, 'total_tokens': 21302668, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████▏                  | 253/338 [5:31:29<1:41:05, 71.36s/it] 75%|████████████████████████████████████████████████████████▎                  | 254/338 [5:32:41<1:40:20, 71.67s/it]                                                                                                                      {'loss': 2.5628, 'grad_norm': 0.13311707973480225, 'learning_rate': 1.549604942589441e-06, 'ppl': 12.9721, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.33, 'total_tokens': 21368204, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████▎                  | 254/338 [5:32:41<1:40:20, 71.67s/it] 75%|████████████████████████████████████████████████████████▌                  | 255/338 [5:33:53<1:39:10, 71.70s/it]                                                                                                                      {'loss': 2.7753, 'grad_norm': 0.14069285988807678, 'learning_rate': 1.5153121567235334e-06, 'ppl': 16.0434, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.31, 'total_tokens': 21433740, 'epoch': 0.75}
 75%|████████████████████████████████████████████████████████▌                  | 255/338 [5:33:53<1:39:10, 71.70s/it] 76%|████████████████████████████████████████████████████████▊                  | 256/338 [5:35:05<1:38:15, 71.89s/it]                                                                                                                      {'loss': 2.7384, 'grad_norm': 0.11279004067182541, 'learning_rate': 1.4813351856484981e-06, 'ppl': 15.4622, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.51, 'total_tokens': 21499276, 'epoch': 0.76}
 76%|████████████████████████████████████████████████████████▊                  | 256/338 [5:35:05<1:38:15, 71.89s/it] 76%|█████████████████████████████████████████████████████████                  | 257/338 [5:36:17<1:36:55, 71.80s/it]                                                                                                                      {'loss': 2.7301, 'grad_norm': 0.11739048361778259, 'learning_rate': 1.4476771086731567e-06, 'ppl': 15.3344, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.87, 'total_tokens': 21564812, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████                  | 257/338 [5:36:17<1:36:55, 71.80s/it] 76%|█████████████████████████████████████████████████████████▏                 | 258/338 [5:37:29<1:35:56, 71.96s/it]                                                                                                                      {'loss': 2.6126, 'grad_norm': 0.11037761718034744, 'learning_rate': 1.4143409762051829e-06, 'ppl': 13.6345, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.56, 'total_tokens': 21630348, 'epoch': 0.76}
 76%|█████████████████████████████████████████████████████████▏                 | 258/338 [5:37:29<1:35:56, 71.96s/it] 77%|█████████████████████████████████████████████████████████▍                 | 259/338 [5:38:41<1:34:35, 71.84s/it]                                                                                                                      {'loss': 2.6271, 'grad_norm': 0.11106576770544052, 'learning_rate': 1.3813298094746491e-06, 'ppl': 13.8336, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.93, 'total_tokens': 21695884, 'epoch': 0.77}
 77%|█████████████████████████████████████████████████████████▍                 | 259/338 [5:38:41<1:34:35, 71.84s/it] 77%|█████████████████████████████████████████████████████████▋                 | 260/338 [5:39:54<1:33:46, 72.14s/it]                                                                                                                      {'loss': 2.4948, 'grad_norm': 0.13802875578403473, 'learning_rate': 1.3486466002602133e-06, 'ppl': 12.1193, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.97, 'total_tokens': 21761420, 'epoch': 0.77}
 77%|█████████████████████████████████████████████████████████▋                 | 260/338 [5:39:54<1:33:46, 72.14s/it] 77%|█████████████████████████████████████████████████████████▉                 | 261/338 [5:41:05<1:32:22, 71.98s/it]                                                                                                                      {'loss': 2.6556, 'grad_norm': 0.12896598875522614, 'learning_rate': 1.3162943106179748e-06, 'ppl': 14.2335, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.84, 'total_tokens': 21826956, 'epoch': 0.77}
 77%|█████████████████████████████████████████████████████████▉                 | 261/338 [5:41:05<1:32:22, 71.98s/it] 78%|██████████████████████████████████████████████████████████▏                | 262/338 [5:42:18<1:31:20, 72.11s/it]                                                                                                                      {'loss': 3.1182, 'grad_norm': 0.12628445029258728, 'learning_rate': 1.2842758726130283e-06, 'ppl': 22.6057, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.28, 'total_tokens': 21892492, 'epoch': 0.77}
 78%|██████████████████████████████████████████████████████████▏                | 262/338 [5:42:18<1:31:20, 72.11s/it] 78%|██████████████████████████████████████████████████████████▎                | 263/338 [5:43:29<1:29:56, 71.96s/it]                                                                                                                      {'loss': 2.6609, 'grad_norm': 0.12967292964458466, 'learning_rate': 1.2525941880537307e-06, 'ppl': 14.3092, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.84, 'total_tokens': 21958028, 'epoch': 0.78}
 78%|██████████████████████████████████████████████████████████▎                | 263/338 [5:43:29<1:29:56, 71.96s/it] 78%|██████████████████████████████████████████████████████████▌                | 264/338 [5:44:42<1:28:53, 72.07s/it]                                                                                                                      {'loss': 2.5651, 'grad_norm': 0.1062491312623024, 'learning_rate': 1.2212521282287093e-06, 'ppl': 13.002, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.52, 'total_tokens': 22023564, 'epoch': 0.78}
 78%|██████████████████████████████████████████████████████████▌                | 264/338 [5:44:42<1:28:53, 72.07s/it] 78%|██████████████████████████████████████████████████████████▊                | 265/338 [5:45:53<1:27:30, 71.92s/it]                                                                                                                      {'loss': 2.7397, 'grad_norm': 0.13016851246356964, 'learning_rate': 1.1902525336466465e-06, 'ppl': 15.4823, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.92, 'total_tokens': 22089100, 'epoch': 0.78}
 78%|██████████████████████████████████████████████████████████▊                | 265/338 [5:45:53<1:27:30, 71.92s/it] 79%|███████████████████████████████████████████████████████████                | 266/338 [5:47:06<1:26:27, 72.05s/it]                                                                                                                      {'loss': 3.0349, 'grad_norm': 0.1291850209236145, 'learning_rate': 1.1595982137788403e-06, 'ppl': 20.7989, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 169.89, 'total_tokens': 22146329, 'epoch': 0.79}
 79%|███████████████████████████████████████████████████████████                | 266/338 [5:47:06<1:26:27, 72.05s/it] 79%|███████████████████████████████████████████████████████████▏               | 267/338 [5:48:17<1:25:06, 71.92s/it]                                                                                                                      {'loss': 3.2715, 'grad_norm': 0.1359185129404068, 'learning_rate': 1.1292919468045876e-06, 'ppl': 26.3508, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.73, 'total_tokens': 22211865, 'epoch': 0.79}
 79%|███████████████████████████████████████████████████████████▏               | 267/338 [5:48:17<1:25:06, 71.92s/it] 79%|███████████████████████████████████████████████████████████▍               | 268/338 [5:49:30<1:24:05, 72.08s/it]                                                                                                                      {'loss': 2.5837, 'grad_norm': 0.11634132266044617, 'learning_rate': 1.099336479359398e-06, 'ppl': 13.2461, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.17, 'total_tokens': 22277401, 'epoch': 0.79}
 79%|███████████████████████████████████████████████████████████▍               | 268/338 [5:49:30<1:24:05, 72.08s/it] 80%|███████████████████████████████████████████████████████████▋               | 269/338 [5:50:41<1:22:43, 71.93s/it]                                                                                                                      {'loss': 2.7756, 'grad_norm': 0.1199987381696701, 'learning_rate': 1.0697345262860638e-06, 'ppl': 16.0483, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.89, 'total_tokens': 22342937, 'epoch': 0.79}
 80%|███████████████████████████████████████████████████████████▋               | 269/338 [5:50:41<1:22:43, 71.93s/it] 80%|███████████████████████████████████████████████████████████▉               | 270/338 [5:51:54<1:21:48, 72.18s/it]                                                                                                                      {'loss': 2.5535, 'grad_norm': 0.11397203803062439, 'learning_rate': 1.0404887703886252e-06, 'ppl': 12.852, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.19, 'total_tokens': 22408473, 'epoch': 0.8}
 80%|███████████████████████████████████████████████████████████▉               | 270/338 [5:51:54<1:21:48, 72.18s/it] 80%|████████████████████████████████████████████████████████████▏              | 271/338 [5:53:06<1:20:24, 72.00s/it]                                                                                                                      {'loss': 2.4636, 'grad_norm': 0.11256784200668335, 'learning_rate': 1.0116018621892237e-06, 'ppl': 11.747, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 186.95, 'total_tokens': 22468007, 'epoch': 0.8}
 80%|████████████████████████████████████████████████████████████▏              | 271/338 [5:53:06<1:20:24, 72.00s/it] 80%|████████████████████████████████████████████████████████████▎              | 272/338 [5:54:19<1:19:28, 72.25s/it]                                                                                                                      {'loss': 3.0607, 'grad_norm': 0.13987448811531067, 'learning_rate': 9.830764196878872e-07, 'ppl': 21.3425, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.94, 'total_tokens': 22533543, 'epoch': 0.8}
 80%|████████████████████████████████████████████████████████████▎              | 272/338 [5:54:19<1:19:28, 72.25s/it][2026-01-11 10:22:51,030] [INFO] [axolotl.core.trainers.base.evaluate:388] [PID:4935] Running evaluation step...
[2026-01-11 10:22:52,521] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7472710609436035
[2026-01-11 10:22:53,252] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7300992012023926
[2026-01-11 10:22:54,001] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7492296695709229
[2026-01-11 10:22:54,752] [DEBUG] [axolotl.utils.samplers.multipack.__len__:462] [PID:4935] generate_batches time: 0.7501850128173828
[2026-01-11 10:22:54,753] [INFO] [axolotl.utils.samplers.multipack.calc_min_len:438] [PID:4935] gather_len_batches: [19, 19]

  0%|                                                                                          | 0/19 [00:00<?, ?it/s][A
 11%|████████▋                                                                         | 2/19 [00:20<02:53, 10.21s/it][A
 16%|████████████▉                                                                     | 3/19 [00:42<04:00, 15.04s/it][A
 21%|█████████████████▎                                                                | 4/19 [01:04<04:23, 17.56s/it][A
 26%|█████████████████████▌                                                            | 5/19 [01:25<04:26, 19.04s/it][A
 32%|█████████████████████████▉                                                        | 6/19 [01:47<04:19, 19.95s/it][A
 37%|██████████████████████████████▏                                                   | 7/19 [02:09<04:06, 20.55s/it][A
 42%|██████████████████████████████████▌                                               | 8/19 [02:31<03:50, 20.94s/it][A
 47%|██████████████████████████████████████▊                                           | 9/19 [02:53<03:32, 21.22s/it][A
 53%|██████████████████████████████████████████▋                                      | 10/19 [03:13<03:10, 21.12s/it][A
 58%|██████████████████████████████████████████████▉                                  | 11/19 [03:35<02:50, 21.33s/it][A
 63%|███████████████████████████████████████████████████▏                             | 12/19 [03:57<02:30, 21.47s/it][A
 68%|███████████████████████████████████████████████████████▍                         | 13/19 [04:19<02:09, 21.58s/it][A
 74%|███████████████████████████████████████████████████████████▋                     | 14/19 [04:41<01:48, 21.64s/it][A
 79%|███████████████████████████████████████████████████████████████▉                 | 15/19 [05:02<01:26, 21.69s/it][A
 84%|████████████████████████████████████████████████████████████████████▏            | 16/19 [05:24<01:05, 21.72s/it][A
 89%|████████████████████████████████████████████████████████████████████████▍        | 17/19 [05:46<00:43, 21.75s/it][A
 95%|████████████████████████████████████████████████████████████████████████████▋    | 18/19 [06:08<00:21, 21.76s/it][A
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:30<00:00, 21.80s/it][A                                                                                                                      
                                                                                                                      [A{'eval_loss': 1.27127206325531, 'eval_runtime': 413.6674, 'eval_samples_per_second': 0.048, 'eval_steps_per_second': 0.024, 'eval_ppl': 3.5654, 'memory/max_active (GiB)': 6.5, 'memory/max_allocated (GiB)': 6.5, 'memory/device_reserved (GiB)': 14.39, 'epoch': 0.8}
 80%|████████████████████████████████████████████████████████████▎              | 272/338 [6:01:16<1:19:28, 72.25s/it]
100%|█████████████████████████████████████████████████████████████████████████████████| 19/19 [06:30<00:00, 21.80s/it][A
                                                                                                                      [A 81%|███████████████████████████████████████████████████████████▊              | 273/338 [6:02:27<3:33:29, 197.06s/it]                                                                                                                      {'loss': 2.6309, 'grad_norm': 0.13309833407402039, 'learning_rate': 9.549150281252633e-07, 'ppl': 13.8863, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 173.34, 'total_tokens': 23803932, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████▊              | 273/338 [6:02:27<3:33:29, 197.06s/it] 81%|███████████████████████████████████████████████████████████▉              | 274/338 [6:03:39<2:50:13, 159.58s/it]                                                                                                                      {'loss': 2.7399, 'grad_norm': 0.11489774286746979, 'learning_rate': 9.271202397483214e-07, 'ppl': 15.4854, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.91, 'total_tokens': 23869468, 'epoch': 0.81}
 81%|███████████████████████████████████████████████████████████▉              | 274/338 [6:03:39<2:50:13, 159.58s/it] 81%|████████████████████████████████████████████████████████████▏             | 275/338 [6:04:51<2:20:03, 133.38s/it]                                                                                                                      {'loss': 2.7159, 'grad_norm': 0.115266352891922, 'learning_rate': 8.996945735790447e-07, 'ppl': 15.1182, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.76, 'total_tokens': 23935004, 'epoch': 0.81}
 81%|████████████████████████████████████████████████████████████▏             | 275/338 [6:04:51<2:20:03, 133.38s/it] 82%|████████████████████████████████████████████████████████████▍             | 276/338 [6:06:03<1:58:41, 114.86s/it]                                                                                                                      {'loss': 2.5233, 'grad_norm': 0.11459961533546448, 'learning_rate': 8.7264051518613e-07, 'ppl': 12.4697, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.7, 'total_tokens': 24000540, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████▍             | 276/338 [6:06:03<1:58:41, 114.86s/it] 82%|████████████████████████████████████████████████████████████▋             | 277/338 [6:07:14<1:43:30, 101.80s/it]                                                                                                                      {'loss': 2.361, 'grad_norm': 0.10379384458065033, 'learning_rate': 8.459605164597268e-07, 'ppl': 10.6015, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 172.26, 'total_tokens': 24055631, 'epoch': 0.82}
 82%|████████████████████████████████████████████████████████████▋             | 277/338 [6:07:14<1:43:30, 101.80s/it] 82%|█████████████████████████████████████████████████████████████▋             | 278/338 [6:08:26<1:32:46, 92.77s/it]                                                                                                                      {'loss': 2.5162, 'grad_norm': 0.1656244695186615, 'learning_rate': 8.196569953892202e-07, 'ppl': 12.3815, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.54, 'total_tokens': 24121167, 'epoch': 0.82}
 82%|█████████████████████████████████████████████████████████████▋             | 278/338 [6:08:26<1:32:46, 92.77s/it] 83%|█████████████████████████████████████████████████████████████▉             | 279/338 [6:09:38<1:25:13, 86.67s/it]                                                                                                                      {'loss': 3.1525, 'grad_norm': 0.13730072975158691, 'learning_rate': 7.937323358440935e-07, 'ppl': 23.3945, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 203.66, 'total_tokens': 24183431, 'epoch': 0.82}
 83%|█████████████████████████████████████████████████████████████▉             | 279/338 [6:09:38<1:25:13, 86.67s/it] 83%|██████████████████████████████████████████████████████████████▏            | 280/338 [6:10:50<1:19:31, 82.27s/it]                                                                                                                      {'loss': 2.6441, 'grad_norm': 0.1255836933851242, 'learning_rate': 7.681888873578786e-07, 'ppl': 14.0708, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 227.49, 'total_tokens': 24248967, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████▏            | 280/338 [6:10:50<1:19:31, 82.27s/it] 83%|██████████████████████████████████████████████████████████████▎            | 281/338 [6:12:02<1:15:06, 79.05s/it]                                                                                                                      {'loss': 2.6608, 'grad_norm': 0.11169940233230591, 'learning_rate': 7.430289649152156e-07, 'ppl': 14.3077, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.02, 'total_tokens': 24314503, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████▎            | 281/338 [6:12:02<1:15:06, 79.05s/it] 83%|██████████████████████████████████████████████████████████████▌            | 282/338 [6:13:14<1:11:54, 77.04s/it]                                                                                                                      {'loss': 2.8738, 'grad_norm': 0.1299148052930832, 'learning_rate': 7.182548487420555e-07, 'ppl': 17.7042, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 223.01, 'total_tokens': 24379539, 'epoch': 0.83}
 83%|██████████████████████████████████████████████████████████████▌            | 282/338 [6:13:14<1:11:54, 77.04s/it] 84%|██████████████████████████████████████████████████████████████▊            | 283/338 [6:14:26<1:09:06, 75.39s/it]                                                                                                                      {'loss': 2.6291, 'grad_norm': 0.11339930444955826, 'learning_rate': 6.938687840989972e-07, 'ppl': 13.8613, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.01, 'total_tokens': 24445075, 'epoch': 0.84}
 84%|██████████████████████████████████████████████████████████████▊            | 283/338 [6:14:26<1:09:06, 75.39s/it] 84%|███████████████████████████████████████████████████████████████            | 284/338 [6:15:38<1:07:02, 74.50s/it]                                                                                                                      {'loss': 2.6665, 'grad_norm': 0.11863023042678833, 'learning_rate': 6.698729810778065e-07, 'ppl': 14.3895, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.32, 'total_tokens': 24510611, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████            | 284/338 [6:15:38<1:07:02, 74.50s/it] 84%|███████████████████████████████████████████████████████████████▏           | 285/338 [6:16:50<1:05:01, 73.61s/it]                                                                                                                      {'loss': 2.6884, 'grad_norm': 0.13196247816085815, 'learning_rate': 6.462696144011149e-07, 'ppl': 14.7081, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.04, 'total_tokens': 24576147, 'epoch': 0.84}
 84%|███████████████████████████████████████████████████████████████▏           | 285/338 [6:16:50<1:05:01, 73.61s/it] 85%|███████████████████████████████████████████████████████████████▍           | 286/338 [6:18:02<1:03:26, 73.21s/it]                                                                                                                      {'loss': 2.5889, 'grad_norm': 0.1474449187517166, 'learning_rate': 6.230608232253227e-07, 'ppl': 13.3151, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.66, 'total_tokens': 24641683, 'epoch': 0.84}
 85%|███████████████████████████████████████████████████████████████▍           | 286/338 [6:18:02<1:03:26, 73.21s/it] 85%|███████████████████████████████████████████████████████████████▋           | 287/338 [6:19:14<1:01:49, 72.74s/it]                                                                                                                      {'loss': 2.7855, 'grad_norm': 0.11381768435239792, 'learning_rate': 6.002487109467347e-07, 'ppl': 16.2079, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.71, 'total_tokens': 24707219, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████▋           | 287/338 [6:19:14<1:01:49, 72.74s/it] 85%|███████████████████████████████████████████████████████████████▉           | 288/338 [6:20:26<1:00:31, 72.63s/it]                                                                                                                      {'loss': 2.7359, 'grad_norm': 0.11180885136127472, 'learning_rate': 5.778353450109286e-07, 'ppl': 15.4236, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.37, 'total_tokens': 24772755, 'epoch': 0.85}
 85%|███████████████████████████████████████████████████████████████▉           | 288/338 [6:20:26<1:00:31, 72.63s/it] 86%|█████████████████████████████████████████████████████████████████▊           | 289/338 [6:21:38<59:06, 72.37s/it]                                                                                                                      {'loss': 2.591, 'grad_norm': 0.1149248480796814, 'learning_rate': 5.558227567253832e-07, 'ppl': 13.3431, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 193.9, 'total_tokens': 24833347, 'epoch': 0.85}
 86%|█████████████████████████████████████████████████████████████████▊           | 289/338 [6:21:38<59:06, 72.37s/it] 86%|██████████████████████████████████████████████████████████████████           | 290/338 [6:22:51<58:01, 72.53s/it]                                                                                                                      {'loss': 2.7692, 'grad_norm': 0.12263433635234833, 'learning_rate': 5.34212941075381e-07, 'ppl': 15.9459, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.71, 'total_tokens': 24898883, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████           | 290/338 [6:22:51<58:01, 72.53s/it] 86%|██████████████████████████████████████████████████████████████████▎          | 291/338 [6:24:02<56:36, 72.26s/it]                                                                                                                      {'loss': 3.3425, 'grad_norm': 0.1493009626865387, 'learning_rate': 5.130078565432089e-07, 'ppl': 28.2898, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 183.92, 'total_tokens': 24957998, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████▎          | 291/338 [6:24:02<56:36, 72.26s/it] 86%|██████████████████████████████████████████████████████████████████▌          | 292/338 [6:25:15<55:24, 72.28s/it]                                                                                                                      {'loss': 2.9049, 'grad_norm': 0.1307498812675476, 'learning_rate': 4.922094249306559e-07, 'ppl': 18.2634, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.53, 'total_tokens': 25023534, 'epoch': 0.86}
 86%|██████████████████████████████████████████████████████████████████▌          | 292/338 [6:25:15<55:24, 72.28s/it] 87%|██████████████████████████████████████████████████████████████████▋          | 293/338 [6:26:26<54:03, 72.07s/it]                                                                                                                      {'loss': 2.7679, 'grad_norm': 0.12146419286727905, 'learning_rate': 4.7181953118484556e-07, 'ppl': 15.9252, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.94, 'total_tokens': 25089070, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████▋          | 293/338 [6:26:26<54:03, 72.07s/it] 87%|██████████████████████████████████████████████████████████████████▉          | 294/338 [6:27:38<52:54, 72.15s/it]                                                                                                                      {'loss': 2.6522, 'grad_norm': 0.1057879626750946, 'learning_rate': 4.5184002322740784e-07, 'ppl': 14.1852, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.54, 'total_tokens': 25154606, 'epoch': 0.87}
 87%|██████████████████████████████████████████████████████████████████▉          | 294/338 [6:27:38<52:54, 72.15s/it] 87%|███████████████████████████████████████████████████████████████████▏         | 295/338 [6:28:50<51:34, 71.96s/it]                                                                                                                      {'loss': 2.6476, 'grad_norm': 0.10937769711017609, 'learning_rate': 4.322727117869951e-07, 'ppl': 14.1201, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 223.81, 'total_tokens': 25219392, 'epoch': 0.87}
 87%|███████████████████████████████████████████████████████████████████▏         | 295/338 [6:28:50<51:34, 71.96s/it] 88%|███████████████████████████████████████████████████████████████████▍         | 296/338 [6:30:02<50:27, 72.09s/it]                                                                                                                      {'loss': 3.1672, 'grad_norm': 0.13343608379364014, 'learning_rate': 4.131193702351827e-07, 'ppl': 23.7409, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.34, 'total_tokens': 25284928, 'epoch': 0.87}
 88%|███████████████████████████████████████████████████████████████████▍         | 296/338 [6:30:02<50:27, 72.09s/it] 88%|███████████████████████████████████████████████████████████████████▋         | 297/338 [6:31:10<48:24, 70.84s/it]                                                                                                                      {'loss': 2.8288, 'grad_norm': 0.12801975011825562, 'learning_rate': 3.9438173442575e-07, 'ppl': 16.9251, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 175.83, 'total_tokens': 25335396, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████▋         | 297/338 [6:31:10<48:24, 70.84s/it] 88%|███████████████████████████████████████████████████████████████████▉         | 298/338 [6:32:23<47:32, 71.32s/it]                                                                                                                      {'loss': 3.0087, 'grad_norm': 0.13585264980793, 'learning_rate': 3.760615025373543e-07, 'ppl': 20.261, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 216.32, 'total_tokens': 25399502, 'epoch': 0.88}
 88%|███████████████████████████████████████████████████████████████████▉         | 298/338 [6:32:23<47:32, 71.32s/it] 88%|████████████████████████████████████████████████████████████████████         | 299/338 [6:33:34<46:24, 71.39s/it]                                                                                                                      {'loss': 2.6985, 'grad_norm': 0.11868893355131149, 'learning_rate': 3.581603349196372e-07, 'ppl': 14.8574, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.99, 'total_tokens': 25465038, 'epoch': 0.88}
 88%|████████████████████████████████████████████████████████████████████         | 299/338 [6:33:34<46:24, 71.39s/it] 89%|████████████████████████████████████████████████████████████████████▎        | 300/338 [6:34:47<45:30, 71.87s/it]                                                                                                                      {'loss': 3.2056, 'grad_norm': 0.1446593999862671, 'learning_rate': 3.406798539427386e-07, 'ppl': 24.6703, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.52, 'total_tokens': 25530574, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████▎        | 300/338 [6:34:47<45:30, 71.87s/it] 89%|████████████████████████████████████████████████████████████████████▌        | 301/338 [6:35:59<44:15, 71.78s/it]                                                                                                                      {'loss': 2.8315, 'grad_norm': 0.11800496280193329, 'learning_rate': 3.2362164385026704e-07, 'ppl': 16.9709, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.91, 'total_tokens': 25596110, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████▌        | 301/338 [6:35:59<44:15, 71.78s/it] 89%|████████████████████████████████████████████████████████████████████▊        | 302/338 [6:37:11<43:10, 71.96s/it]                                                                                                                      {'loss': 2.6566, 'grad_norm': 0.11067305505275726, 'learning_rate': 3.069872506157212e-07, 'ppl': 14.2478, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.39, 'total_tokens': 25661646, 'epoch': 0.89}
 89%|████████████████████████████████████████████████████████████████████▊        | 302/338 [6:37:11<43:10, 71.96s/it] 90%|█████████████████████████████████████████████████████████████████████        | 303/338 [6:38:23<41:54, 71.84s/it]                                                                                                                      {'loss': 2.8068, 'grad_norm': 0.14223702251911163, 'learning_rate': 2.9077818180237693e-07, 'ppl': 16.5569, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 188.61, 'total_tokens': 25721405, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████        | 303/338 [6:38:23<41:54, 71.84s/it] 90%|█████████████████████████████████████████████████████████████████████▎       | 304/338 [6:39:35<40:47, 72.00s/it]                                                                                                                      {'loss': 2.82, 'grad_norm': 0.12465967983007431, 'learning_rate': 2.7499590642665773e-07, 'ppl': 16.7769, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.43, 'total_tokens': 25786941, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████▎       | 304/338 [6:39:35<40:47, 72.00s/it] 90%|█████████████████████████████████████████████████████████████████████▍       | 305/338 [6:40:47<39:32, 71.88s/it]                                                                                                                      {'loss': 2.3884, 'grad_norm': 0.11166016012430191, 'learning_rate': 2.596418548250029e-07, 'ppl': 10.896, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 213.33, 'total_tokens': 25850260, 'epoch': 0.9}
 90%|█████████████████████████████████████████████████████████████████████▍       | 305/338 [6:40:47<39:32, 71.88s/it] 91%|█████████████████████████████████████████████████████████████████████▋       | 306/338 [6:41:59<38:26, 72.08s/it]                                                                                                                      {'loss': 2.7322, 'grad_norm': 0.12458687275648117, 'learning_rate': 2.447174185242324e-07, 'ppl': 15.3667, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.85, 'total_tokens': 25915796, 'epoch': 0.9}
 91%|█████████████████████████████████████████████████████████████████████▋       | 306/338 [6:41:59<38:26, 72.08s/it] 91%|█████████████████████████████████████████████████████████████████████▉       | 307/338 [6:43:11<37:10, 71.96s/it]                                                                                                                      {'loss': 2.5774, 'grad_norm': 0.11040231585502625, 'learning_rate': 2.3022395011543687e-07, 'ppl': 13.1629, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.63, 'total_tokens': 25981332, 'epoch': 0.91}
 91%|█████████████████████████████████████████████████████████████████████▉       | 307/338 [6:43:11<37:10, 71.96s/it] 91%|██████████████████████████████████████████████████████████████████████▏      | 308/338 [6:44:24<36:03, 72.13s/it]                                                                                                                      {'loss': 2.4931, 'grad_norm': 0.12438295036554337, 'learning_rate': 2.161627631313923e-07, 'ppl': 12.0987, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.91, 'total_tokens': 26046868, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████▏      | 308/338 [6:44:24<36:03, 72.13s/it] 91%|██████████████████████████████████████████████████████████████████████▍      | 309/338 [6:45:35<34:47, 71.97s/it]                                                                                                                      {'loss': 2.8041, 'grad_norm': 0.9118381142616272, 'learning_rate': 2.0253513192751374e-07, 'ppl': 16.5122, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.87, 'total_tokens': 26112404, 'epoch': 0.91}
 91%|██████████████████████████████████████████████████████████████████████▍      | 309/338 [6:45:35<34:47, 71.97s/it] 92%|██████████████████████████████████████████████████████████████████████▌      | 310/338 [6:46:48<33:43, 72.27s/it]                                                                                                                      {'loss': 2.5098, 'grad_norm': 0.10890202969312668, 'learning_rate': 1.8934229156636453e-07, 'ppl': 12.3025, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 178.04, 'total_tokens': 26171157, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████▌      | 310/338 [6:46:48<33:43, 72.27s/it] 92%|██████████████████████████████████████████████████████████████████████▊      | 311/338 [6:48:00<32:27, 72.12s/it]                                                                                                                      {'loss': 2.4441, 'grad_norm': 0.10619062930345535, 'learning_rate': 1.765854377057219e-07, 'ppl': 11.5202, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.26, 'total_tokens': 26236693, 'epoch': 0.92}
 92%|██████████████████████████████████████████████████████████████████████▊      | 311/338 [6:48:00<32:27, 72.12s/it] 92%|███████████████████████████████████████████████████████████████████████      | 312/338 [6:49:12<31:18, 72.23s/it]                                                                                                                      {'loss': 2.6547, 'grad_norm': 0.12006058543920517, 'learning_rate': 1.6426572649021477e-07, 'ppl': 14.2207, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.02, 'total_tokens': 26302229, 'epoch': 0.92}
 92%|███████████████████████████████████████████████████████████████████████      | 312/338 [6:49:12<31:18, 72.23s/it] 93%|███████████████████████████████████████████████████████████████████████▎     | 313/338 [6:50:24<30:00, 72.03s/it]                                                                                                                      {'loss': 2.3787, 'grad_norm': 0.17233598232269287, 'learning_rate': 1.5238427444654368e-07, 'ppl': 10.7909, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.98, 'total_tokens': 26367765, 'epoch': 0.92}
 93%|███████████████████████████████████████████████████████████████████████▎     | 313/338 [6:50:24<30:00, 72.03s/it] 93%|███████████████████████████████████████████████████████████████████████▌     | 314/338 [6:51:36<28:49, 72.07s/it]                                                                                                                      {'loss': 2.5818, 'grad_norm': 0.13119272887706757, 'learning_rate': 1.4094215838229176e-07, 'ppl': 13.2209, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 170.33, 'total_tokens': 26418518, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████▌     | 314/338 [6:51:36<28:49, 72.07s/it] 93%|███████████████████████████████████████████████████████████████████████▊     | 315/338 [6:52:48<27:34, 71.93s/it]                                                                                                                      {'loss': 2.5502, 'grad_norm': 0.11299941688776016, 'learning_rate': 1.2994041528833267e-07, 'ppl': 12.8097, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.75, 'total_tokens': 26484054, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████▊     | 315/338 [6:52:48<27:34, 71.93s/it] 93%|███████████████████████████████████████████████████████████████████████▉     | 316/338 [6:54:00<26:26, 72.13s/it]                                                                                                                      {'loss': 2.7341, 'grad_norm': 0.118800587952137, 'learning_rate': 1.193800422448499e-07, 'ppl': 15.3959, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.68, 'total_tokens': 26549590, 'epoch': 0.93}
 93%|███████████████████████████████████████████████████████████████████████▉     | 316/338 [6:54:00<26:26, 72.13s/it] 94%|████████████████████████████████████████████████████████████████████████▏    | 317/338 [6:55:11<25:07, 71.79s/it]                                                                                                                      {'loss': 2.5422, 'grad_norm': 0.10973911732435226, 'learning_rate': 1.0926199633097156e-07, 'ppl': 12.7076, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 161.73, 'total_tokens': 26603730, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████▏    | 317/338 [6:55:11<25:07, 71.79s/it] 94%|████████████████████████████████████████████████████████████████████████▍    | 318/338 [6:56:24<23:59, 71.96s/it]                                                                                                                      {'loss': 2.5037, 'grad_norm': 0.10991457849740982, 'learning_rate': 9.958719453803278e-08, 'ppl': 12.2277, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 214.88, 'total_tokens': 26667603, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████▍    | 318/338 [6:56:24<23:59, 71.96s/it] 94%|████████████████████████████████████████████████████████████████████████▋    | 319/338 [6:57:36<22:46, 71.93s/it]                                                                                                                      {'loss': 3.1881, 'grad_norm': 0.1460680067539215, 'learning_rate': 9.035651368646647e-08, 'ppl': 24.2423, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.08, 'total_tokens': 26733139, 'epoch': 0.94}
 94%|████████████████████████████████████████████████████████████████████████▋    | 319/338 [6:57:36<22:46, 71.93s/it] 95%|████████████████████████████████████████████████████████████████████████▉    | 320/338 [6:58:48<21:40, 72.23s/it]                                                                                                                      {'loss': 2.6602, 'grad_norm': 0.12252036482095718, 'learning_rate': 8.157079034633974e-08, 'ppl': 14.2991, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 224.6, 'total_tokens': 26798675, 'epoch': 0.95}
 95%|████████████████████████████████████████████████████████████████████████▉    | 320/338 [6:58:48<21:40, 72.23s/it] 95%|█████████████████████████████████████████████████████████████████████████▏   | 321/338 [7:00:00<20:25, 72.08s/it]                                                                                                                      {'loss': 2.7442, 'grad_norm': 0.13946881890296936, 'learning_rate': 7.32308207615351e-08, 'ppl': 15.5522, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.41, 'total_tokens': 26864211, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████▏   | 321/338 [7:00:00<20:25, 72.08s/it] 95%|█████████████████████████████████████████████████████████████████████████▎   | 322/338 [7:01:13<19:14, 72.17s/it]                                                                                                                      {'loss': 2.7499, 'grad_norm': 0.1310773640871048, 'learning_rate': 6.533736077758868e-08, 'ppl': 15.6411, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.44, 'total_tokens': 26929747, 'epoch': 0.95}
 95%|█████████████████████████████████████████████████████████████████████████▎   | 322/338 [7:01:13<19:14, 72.17s/it] 96%|█████████████████████████████████████████████████████████████████████████▌   | 323/338 [7:02:24<18:00, 72.03s/it]                                                                                                                      {'loss': 2.5901, 'grad_norm': 0.12068800628185272, 'learning_rate': 5.7891125773187896e-08, 'ppl': 13.3311, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.53, 'total_tokens': 26995283, 'epoch': 0.95}
 96%|█████████████████████████████████████████████████████████████████████████▌   | 323/338 [7:02:24<18:00, 72.03s/it] 96%|█████████████████████████████████████████████████████████████████████████▊   | 324/338 [7:03:37<16:49, 72.12s/it]                                                                                                                      {'loss': 2.6503, 'grad_norm': 0.12233464419841766, 'learning_rate': 5.089279059533658e-08, 'ppl': 14.1583, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.49, 'total_tokens': 27060819, 'epoch': 0.96}
 96%|█████████████████████████████████████████████████████████████████████████▊   | 324/338 [7:03:37<16:49, 72.12s/it] 96%|██████████████████████████████████████████████████████████████████████████   | 325/338 [7:04:48<15:36, 72.00s/it]                                                                                                                      {'loss': 2.8686, 'grad_norm': 0.12192895263433456, 'learning_rate': 4.434298949819449e-08, 'ppl': 17.6123, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.45, 'total_tokens': 27126355, 'epoch': 0.96}
 96%|██████████████████████████████████████████████████████████████████████████   | 325/338 [7:04:48<15:36, 72.00s/it] 96%|██████████████████████████████████████████████████████████████████████████▎  | 326/338 [7:06:01<14:26, 72.18s/it]                                                                                                                      {'loss': 2.6348, 'grad_norm': 0.11782379448413849, 'learning_rate': 3.8242316085594923e-08, 'ppl': 13.9405, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.7, 'total_tokens': 27191891, 'epoch': 0.96}
 96%|██████████████████████████████████████████████████████████████████████████▎  | 326/338 [7:06:01<14:26, 72.18s/it] 97%|██████████████████████████████████████████████████████████████████████████▍  | 327/338 [7:07:12<13:12, 72.00s/it]                                                                                                                      {'loss': 2.8183, 'grad_norm': 0.11769942194223404, 'learning_rate': 3.25913232572489e-08, 'ppl': 16.7484, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 213.43, 'total_tokens': 27255214, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████▍  | 327/338 [7:07:13<13:12, 72.00s/it] 97%|██████████████████████████████████████████████████████████████████████████▋  | 328/338 [7:08:25<12:01, 72.12s/it]                                                                                                                      {'loss': 2.9618, 'grad_norm': 0.13327331840991974, 'learning_rate': 2.7390523158633552e-08, 'ppl': 19.3327, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 226.32, 'total_tokens': 27320750, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████▋  | 328/338 [7:08:25<12:01, 72.12s/it] 97%|██████████████████████████████████████████████████████████████████████████▉  | 329/338 [7:09:36<10:47, 71.95s/it]                                                                                                                      {'loss': 2.5601, 'grad_norm': 0.23555488884449005, 'learning_rate': 2.264038713457706e-08, 'ppl': 12.9371, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 229.04, 'total_tokens': 27386286, 'epoch': 0.97}
 97%|██████████████████████████████████████████████████████████████████████████▉  | 329/338 [7:09:36<10:47, 71.95s/it] 98%|███████████████████████████████████████████████████████████████████████████▏ | 330/338 [7:10:49<09:37, 72.21s/it]                                                                                                                      {'loss': 3.069, 'grad_norm': 0.12660600244998932, 'learning_rate': 1.834134568654333e-08, 'ppl': 21.5204, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.01, 'total_tokens': 27451822, 'epoch': 0.97}
 98%|███████████████████████████████████████████████████████████████████████████▏ | 330/338 [7:10:49<09:37, 72.21s/it] 98%|███████████████████████████████████████████████████████████████████████████▍ | 331/338 [7:12:01<08:24, 72.06s/it]                                                                                                                      {'loss': 3.0892, 'grad_norm': 0.1359461396932602, 'learning_rate': 1.449378843361271e-08, 'ppl': 21.9595, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.49, 'total_tokens': 27517358, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████▍ | 331/338 [7:12:01<08:24, 72.06s/it] 98%|███████████████████████████████████████████████████████████████████████████▋ | 332/338 [7:13:12<07:10, 71.69s/it]                                                                                                                      {'loss': 2.5509, 'grad_norm': 0.12377727776765823, 'learning_rate': 1.109806407717462e-08, 'ppl': 12.8186, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 173.46, 'total_tokens': 27570300, 'epoch': 0.98}
 98%|███████████████████████████████████████████████████████████████████████████▋ | 332/338 [7:13:12<07:10, 71.69s/it] 99%|███████████████████████████████████████████████████████████████████████████▊ | 333/338 [7:14:23<05:58, 71.65s/it]                                                                                                                      {'loss': 2.6758, 'grad_norm': 0.11184883117675781, 'learning_rate': 8.15448036932176e-09, 'ppl': 14.524, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.98, 'total_tokens': 27635836, 'epoch': 0.98}
 99%|███████████████████████████████████████████████████████████████████████████▊ | 333/338 [7:14:23<05:58, 71.65s/it] 99%|████████████████████████████████████████████████████████████████████████████ | 334/338 [7:15:36<04:47, 71.91s/it]                                                                                                                      {'loss': 2.8477, 'grad_norm': 0.12098555266857147, 'learning_rate': 5.6633040849601865e-09, 'ppl': 17.2481, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.93, 'total_tokens': 27701372, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████ | 334/338 [7:15:36<04:47, 71.91s/it] 99%|████████████████████████████████████████████████████████████████████████████▎| 335/338 [7:16:48<03:35, 71.84s/it]                                                                                                                      {'loss': 3.061, 'grad_norm': 0.1242084726691246, 'learning_rate': 3.6247609976319818e-09, 'ppl': 21.3489, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.64, 'total_tokens': 27766908, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████▎| 335/338 [7:16:48<03:35, 71.84s/it] 99%|████████████████████████████████████████████████████████████████████████████▌| 336/338 [7:18:00<02:24, 72.05s/it]                                                                                                                      {'loss': 2.7127, 'grad_norm': 0.12399335205554962, 'learning_rate': 2.0390358590538507e-09, 'ppl': 15.0699, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.85, 'total_tokens': 27832444, 'epoch': 0.99}
 99%|████████████████████████████████████████████████████████████████████████████▌| 336/338 [7:18:00<02:24, 72.05s/it]100%|████████████████████████████████████████████████████████████████████████████▊| 337/338 [7:19:12<01:11, 71.91s/it]                                                                                                                      {'loss': 2.5795, 'grad_norm': 0.11134477704763412, 'learning_rate': 9.062723823710651e-10, 'ppl': 13.1905, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 228.93, 'total_tokens': 27897980, 'epoch': 1.0}
100%|████████████████████████████████████████████████████████████████████████████▊| 337/338 [7:19:12<01:11, 71.91s/it]100%|█████████████████████████████████████████████████████████████████████████████| 338/338 [7:20:24<00:00, 72.10s/it]                                                                                                                      {'loss': 2.4315, 'grad_norm': 0.11274322867393494, 'learning_rate': 2.265732291356626e-10, 'ppl': 11.3759, 'memory/max_active (GiB)': 11.5, 'memory/max_allocated (GiB)': 11.49, 'memory/device_reserved (GiB)': 15.58, 'tokens_per_second_per_gpu': 225.91, 'total_tokens': 27963516, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████| 338/338 [7:20:24<00:00, 72.10s/it][2026-01-11 11:48:57,231] [INFO] [axolotl.core.trainers.base._save:692] [PID:4935] Saving model checkpoint to ckpts-olmo-qlora/marvin-full/checkpoint-338
[2026-01-11 11:49:03,964] [WARNING] [py.warnings._showwarnmsg:110] [PID:4935] /home/aibox/axo/lib/python3.12/site-packages/torch/distributed/fsdp/fully_sharded_data_parallel.py:675: FutureWarning: FSDP.state_dict_type() and FSDP.set_state_dict_type() are being deprecated. Please use APIs, get_state_dict() and set_state_dict(), which can support different parallelisms, FSDP1, FSDP2, DDP. API doc: https://pytorch.org/docs/stable/distributed.checkpoint.html#torch.distributed.checkpoint.state_dict.get_state_dict .Tutorial: https://pytorch.org/tutorials/recipes/distributed_checkpoint_recipe.html .
  warnings.warn(

[2026-01-11 11:49:32,601] [WARNING] [py.warnings._showwarnmsg:110] [PID:4935] /home/aibox/axo/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:860: UserWarning: `_get_pg_default_device` will be deprecated, it only stays for backward-compatiblity reason. If you need to find a device for object collectives, please use `_get_object_coll_device`. If you need to query the device types supported by group, please use `_device_capability(group)`. 
  warnings.warn(

[2026-01-11 11:49:32,601] [WARNING] [py.warnings._showwarnmsg:110] [PID:4935] /home/aibox/axo/lib/python3.12/site-packages/torch/distributed/distributed_c10d.py:904: UserWarning: Multiple backends are registered with this ProcessGroup. We cannot determine which one is the default. Returning cpu. Please consider using other APIs.
  warnings.warn(

                                                                                                                      {'train_runtime': 26467.3701, 'train_samples_per_second': 0.051, 'train_steps_per_second': 0.013, 'train_loss': 2.8053583717910495, 'memory/max_active (GiB)': 19.89, 'memory/max_allocated (GiB)': 19.89, 'memory/device_reserved (GiB)': 20.21, 'epoch': 1.0}
100%|█████████████████████████████████████████████████████████████████████████████| 338/338 [7:21:03<00:00, 72.10s/it]100%|█████████████████████████████████████████████████████████████████████████████| 338/338 [7:21:03<00:00, 78.29s/it]
[2026-01-11 11:49:36,066] [INFO] [axolotl.train.save_trained_model:233] [PID:4935] Training completed! Saving trained model to ckpts-olmo-qlora/marvin-full.
[2026-01-11 11:49:36,084] [INFO] [axolotl.core.trainers.base._save:692] [PID:4935] Saving model checkpoint to ckpts-olmo-qlora/marvin-full
[2026-01-11 11:49:41,978] [INFO] [axolotl.train.save_trained_model:351] [PID:4935] Model successfully saved to ckpts-olmo-qlora/marvin-full
[0m